Só para lembrá-los onde estamos, temos duas restrições, uma é o valor esperado de x, o tempo médio de espera é 4 minutos, a outra é que as probabilidades somam a 1. Estas são as duas restrições, e então o que resta é maximizar a entropia da distribuição, sujeito a estas restrições. Então f [a função arbitrária] será a função entropia [S], e não teremos uma [função] g, mas duas g's, ok? Uma g é esta função, a outra g é esta. Então, como fazemos uma maximização, sob restrições, com mais de uma restrição? Eu dei uma intuição sobre como fazer com uma restrição por vez, mas como fazer com duas restrições? Vou dizer a resposta, porque é bem mais difícil trabalhar com o problema de várias restrições, mas é uma resposta intuitiva, uma que vale a pena lembrar, e, caso queira ver por si próprio, há vários lugares para encontrar a resposta. Então, é assim que fazemos [o método de] Multiplicadores de Lagrange (o multiplicador de Lagrange é o fator 𝜆, daí que vem o nome do método). Você quer maximizar a função f, sujeito a um conjunto de restrições, e nomearemos estas restrições como g_i, então g₁ g₂, até g_N, para quantas restrições houver, e o que fazemos é fazer o gradiente da função igual a uma combinação linear dos gradientes das restrições. Então aqui é o caso onde temos N restrições. Este é o método geral para multiplicadores de Lagrange: para maximizar a função, sujeito a estas N restrições, faça com que o gradiente de f seja igual a alguma combinação linear dos gradientes das funções g, e então o problema é: como encontrar estes [𝜆's]? O que você sabe é, você sabe o ponto máximo é tal que podemos somar todos estes gradientes, com certos pesos tais que eles deem o gradiente original dos contornos. Então o problema é: o que são estes 𝜆's? O que vou fazer agora é, vou guiá-los pelo problema de máxima entropia, usando esta fórmula aqui, e, se elas parecerem misteriosas por ora, ao final elas deverão ser claras. O que você faz é ajustar valores, de tal forma que consiga certos 𝜆's tais que eles satisfaçam os valores de restrição dados. Maximizaremos não uma função arbitrária f, mas a entropia [S], e nossas restrições serão uma restrição sobre a média, e uma restrição de normalização. Então, queremos a derivada de S com respeito a p_i, fazemos termo a termo no vetor [gradiente], queremos que isso seja igual a 𝜆₁ dg₁/d p_i... ... + 𝜆₂ dg₂/dp_i. Lembrando que S é a entropia da distribuição, S é igual a menos a soma sobre todos os tempos de espera possíveis. Novamente, só por conveniência estamos falando do caso discreto, pode-se tomar limites se as medidas forem definidas corretamente, para transformar isso em integrais, e estas em integrais, e essa também. Mas é mais fácil, conceitualmente, falar sobre o caso discreto primeiro. Então lembrando que g₁ é uma função de p, p é um vetor aqui, ok? g₁ é a soma, i de 0 a ∞, de p_i vezes i, e estou usando "i" invés de "x" só porque é mais fácil de escrever para mim. Então essa é a função de restrição, que restringe o valor médio. E claro, o que queremos ao final é que g₁(p) = 4 minutos. g₂(p) é a restrição de normalização, então a função é somente a soma de todos os valores de p, e ao final, vamos fazer com que g₂(p) = 1. E definimos previamente a entropia aqui. Então, qual é a derivada da entropia com relação a alguma probabilidade, uma probabilidade particular de alguma configuração particular? S = - p_i log p_i, [soma] com i indo de 0 a ∞. Então dS/dp_i é igual a, bem, o único termo que fica é onde tem p_i, e então temos a derivada de p_i log p_i, que tem dois termos: log p_i, e o outro é p_i vezes derivada de log p_i, derivada de log p_i é 1/p_i, então temos +1. Então esse é o lado esquerdo da equação de multiplicadores de Lagrange. E, só para lembrar, o log está na base e. Então, agora tomamos a derivada de g₁ com respeito a p_i, então tomamos a derivada dessa soma com respeito a p_i, e, claro, encontramos dg₁/dp_i = i, e, finalmente, dg₂/dp_i = 1. Só há um termo nesta soma que não é destruído pela derivada. Agora, juntando tudo... temos -log p_i - 1 = 𝜆₁ dg₁/dp_i ... ... + dg₂/dp_i 𝜆₂, e então essa é nossa equação, que é satisfeita quando tentamos maximizar a entropia, maximizar esta função, sujeito a estas restrições, para dadas restrições. Então vamos resolver para p_i. Isolando p_i, temos -1 - 𝜆₁ i - 𝜆₂ = log p_i, exponenciando ambos os lados, e trocando os lados, temos p_i = exp(-1 -𝜆₁i -𝜆₂). E podemos escrevê-lo mais sucintamente como exp(-𝜆₁ i) / Z onde Z é igual a [exp(1 + 𝜆₂)]. A probabilidade de esperar um certo tempo i é igual a exp(-𝜆₁ i) [dividido por Z], há uma distribuição exponencial de tempos de espera. Agora, tudo que resta é descobrir o que 𝜆₁ é, e o que Z é. O que podemos fazer é vamos testando-- vamos descobrir o valor que temos que colocar em 𝜆₁ a fim de satisfazer o valor particular dessa restrição [g₁], e este valor particular da restrição [g₂]. Então, sabemos a forma funcional da distribuição, e agora precisamos achar os parâmetros dessa função. E teremos dois parâmetros [𝜆₁ e Z]. A primeira coisa que sabemos é, claro, que a probabilidade é normalizada, e isso quer dizer que colocando essa forma funcional, já podemos resolver para Z, em termos de 𝜆₁. Então eliminando a primeira variável, Z, é fácil. Fazemos com que Z seja igual à soma, de i indo de 0 a ∞, de exp(-𝜆₁ i). Já eliminamos uma variável, e, agora, tudo que temos que fazer é resolver pela outra restrição. Em particular, deixa eu só escrever isso aqui. Em particular, temos a soma, de i = 0 a ∞, de i exp(-𝜆₁ i), tudo sobre Z que tem que ser igual a 4.