Na parte anterior, nós demonstramos
que um modelo ingênuo de máxima entropia

para a distribuição de
abundância de linguagens,

para descrever quão popular
uma linguagem é, onde popularidade é

quantas vezes aquela linguagem
foi usada no arquivo "open source".

Aquele modelo, que toma a seguinte
forma funcional,

e que restringe o valor esperado
de abundância das linguagens,

que restringe somente o número médio
de vezes que uma linguagem é usada

no arquivo, em relação a todas linguagens.

Este modelo de máxima entropia
fracassa totalmente

em reproduzir os dados que vemos.

Ele subestima as linguagens populares,

e sobrestima as linguagens 
menos populares.

Este é o modelo de melhor ajuste,
obtido quando encontro lambda e Z

para conseguir o valor correto
de restrição

que vemos nos dados.

Então façamos o seguinte:
consideremos um modelo mais rico --

e com "modelo", digo
distribuição de probabilidade --

e esta distribuição tentará explicar

não somente
a popularidade das linguagens,

mas também o tempo dedicado a elas,
o tempo de programação dedicado a elas.

Então n aqui é, como antes,

o número de projetos

que aparecem em dada linguagem,

e este 𝜖 significa o tempo

dedicado por projeto.

Pense neste 𝜖 como um modelo
referente à eficiência da linguagem,

e este n como um modelo
da popularidade da linguagem.

Algumas linguagens, por exemplo,

são extremamente populares
e extremamente eficientes,

então possuem n grande
e 𝜖 pequeno.

Outras linguagens podem ser
não tão populares

e talvez menos eficientes

(ou seja, requerem
maior tempo de programação),

e, claro, podem haver linguagens
extremamente eficientes

mas profundamente impopulares,
e vice-versa.

A intuição aqui é de tentar
descrever duas coisas ao mesmo tempo.

Antes tentamos criar um modelo que incluía
somente uma variável, popularidade.

Agora estamos tentando criar um modelo
com duas variáveis,

popularidade e eficiência

(ou tempo dedicado por projeto).

Então, o que faremos agora
é restringir duas quantidades:

como antes, vamos restringir
o número médio de projetos,

e agora vamos restringir também

a quantidade média
de tempo de programação

dedicado a uma linguagem.

A ideia é que há uma força intrínseca

que mantém constante
o número de projetos de cada linguagem.

Existem coisas como

fatores sociais de larga escala,
ou um conjunto de fatores sociais,

que fixam o número médio de projetos,

e que também restringem
a quantidade média de tempo de programação

dedicada a uma linguagem particular.

Coloquemos isso numa distribuição
de máxima entropia,

para este modelo de dois parâmetros.

Vamos restringir n,
então sabemos que...

temos um termo do tipo
exp(-𝜆₁ n), como antes,

e agora temos também
um termo na exponencial

que parece com 𝜆₂ —

𝜆₂ o segundo multiplicador de Lagrange —

𝜆₂ n 𝜖

e, claro, com um fator geral
de normalização, Z.

Então a única coisa que pode
parecer "misteriosa" aqui

é de onde conseguimos esse segundo termo.

Sabemos de onde veio esse aqui,

mas por que isso?

Então agora vou relembrá-los brevemente

como conseguimos essas formas funcionais.

Fizemos a derivada

da função que queremos maximizar,
a entropia,

e agora temos três restrições:

temos a restrição

sobre o número médio de projetos

aquela restrição g₁,

g₁(p) = c;

temos a restrição [g]₂,

sobre este termo aqui,

g₂(p) = c',

e, finalmente, temos a restrição
de normalização geral,

g₃(p).

(Vou escrever aqui.)

g₁(p) = ...

e g₂(p) ...

Então g₁(p) é o número médio
de linguagens,

ou o número médio de projetos
para uma dada linguagem,

isso é [soma de] P(n) n,

e podemos escrevê-lo
em termos da distribuição conjunta,

como P(n, 𝜖) * n,

e agora somamos não só
sobre todos valores de n,

mas também integramos sobre todos valores
de tempo de programação, 𝜖.

g₂(p) fica bem similar,

mas agora restringimos não só n,
mas n vezes 𝜖,

então temos que integrar sobre 𝜖
e somar sobre todos os valores de [n],

e é assim que fica nossa equação,

assim fica nossa restrição

para essa segunda quantidade.

Agora, quando tomamos a derivada de g₁
com respeito a p_[i],

sabemos como isso fica:

fica como 𝜆₁ vezes n,
[i = n]

e quando tomamos a derivada
[de g₂] com relação a p_i,

tudo sai, exceto

𝜆₂ n 𝜖;

e, finalmente, g₃

é só uma restrição
sobre a normalização geral:

ela diz que,

quando integro sobre todos os 𝜖's
e somo sobre todos os n's, dá 1.

Então, quando tomo a derivada disso
com relação a p[_i],

resta 𝜆₃ vezes 1.

No outro lado aqui,

a derivada da entropia com respeito a p_i,

é igual a -log p_i...

- 1.

Quando rearranjo isso, tenho p_i
proporcional a

exp(-𝜆₁ n - 𝜆₂ n 𝜖)

Todo o resto pode ser fatorado
em alguma normalização geral.

Então é daqui que vem
essa forma funcional,

e é um princípio geral,
na prática,

que, se você quer ver o que

a distribuição de máxima entropia
está restringindo, olhe termo a termo

dentro da exponencial
para achá-las.

O que temos agora

é a seguinte forma funcional

para a distribuição conjunta
de popularidade

e eficiência de linguagem.

Vou fazer mais uma coisa,

que é tentar recuperar

a distribuição marginal original,

P(n), ao integrar

a distribuição conjunta [P(n, 𝜖)]
em relação a 𝜖.

Então o que fiz foi criar um modelo

mais sofisticado,
com duas restrições:

restrição do número médio de projetos

e tempo médio de programação
dedicado a uma dada linguagem.

O que vou fazer agora
é integrar fora essa variável oculta.

Se eu fizer essa integral,

o que consigo é isso:

ainda tenho o fator
exp(-𝜆₁ n),

vou chamá-lo de λ'.

Ainda tenho o fator de 1/Z,

e só preciso fazer
a seguinte integral

de exp(-𝜆₂ n 𝜖) d𝜖,

e isso é igual a

exp(-λ_2 n ε) / (-λ_2 n),

com integral indo de 0 a ∞.

Então, quando coloco esses termos aqui,

minha forma funcional final

(de novo, não ligo para
todas essas multiplicações

então estou transformando Z em Z'
para absorvê-las),

a forma funcional final
parece com uma exponencial em cima,

dividida por n.

Então minha nova forma funcional

para abundância de linguagens,
é modificada.

Antes, só para lembrá-los,

antes, quando fizemos MaxEnt,

restringindo somente
o número médio de projetos,

minha distribuição de popularidade
parecia com uma exponencial,

e percebemos que era
um péssimo ajuste,

é esse ajuste daqui.

Mas agora, o que fizemos foi

criar uma distribuição conjunta
com duas restrições,

uma das restrições é a mesma,
a outra é uma restrição nova

que involve uma variável oculta,
eficiência de programação,

e quando integro fora
essa variável oculta,

consigo uma nova forma funcional

para popularidade.

Em particular, vemos que ela
é proporcional a exp(-λ n) / n.

Essa distribuição se chama

log-série de Fisher
[<i>Fisher's Log-series</i>].

Então essa é a forma funcional
que conseguimos ao integrar fora

essa variável oculta,
eficiência de programação.

E o que podemos ver agora

é que essa distribuição é um modelo
bem melhor para popularidade.

E o que fizemos aqui,

só para ser claro,

é postular uma restrição adicional

envolvendo uma variável oculta
que não conseguimos ver,

e integramos fora
essa variável oculta.

O que deveria impressioná-los

é o fato, não só
de conseguirmos um bom ajuste,

mas também pelos mecanismos subjacentes

que o modelo MaxEnt está sugerindo.

Ele está sugerindo que
duas coisas são restritas:

linguagens tendem a
não serem tão populares,

em média,

há algum limite do quão popular
uma linguagem chega a ser,

em média;

disso vem essa restrição aqui.

Mas também tem um limite

de quanto tempo, ou esforço,
pode ser dedicado

a projetos em uma dada linguagem,

e isso é essa restrição aqui.

Então o que acontece é que

essas linguagens aqui em cima

podem tornar-se mais populares

pois não tomam tanto tempo de programação
por projeto.

Estas, na linguagem de um ecólogo,

estas são espécies muito abundantes
com necessidades metabólicas bem baixas.

Então agora podemos reproduzir
estas linguagens muito populares,

podemos explicá-las adequadamente,
ou prever adequadamente,

que precisamos ter algumas linguagens
muito populares,

como C e C++ e Java.

E também conseguimos explicar por que

a popularidade dessas linguagens
na cauda são menores

do que o esperado
por um modelo exponencial:

presumivelmente,

muitas destas linguagens são associadas
a menores eficiências, ou ε's bem altos,

ou seja, com um tempo maior de tempo
dedicado por projeto nestas linguagens.

Intuitivamente, programando em Java,

esta é uma linguagem com
eficiência bem alta comparada com Haskell,

que é uma linguagem profundamente bela,
mas que não associamos a eficiência

e bibliotecas rápidas
para <i>parsing</i> de páginas HTML.

Então, ao postular a existência
dessa variável oculta,

e usando um argumento de máxima entropia,

podemos começar a reproduzir os dados

e parece que estamos começando a falar
sobre restrições importantes ao sistema.

Então isso deveria ser impressionante,
em parte pois é mais profundo

que os resultados obtidos
no caso dos táxis.

No caso dos táxis, 
pegamos uma restrição particular,

e calhou de corresponder
a um modelo mecanístico bem simples.

Você poderia dizer:

"Eu poderia bolar esse modelo mecanístico
por conta própria, muito obrigado!"

Aqui, o que fizemos foi postular
um conjunto de restrições

que são cientificamente
substanciais:

a primeira restrição diz que restringimos
o número médio de projetos,

o movimento <i>open source</i>
pode fazer o que bem quiser

desde que mantenha fixo
o número de projetos por linguagem.

Pessoas estão fazendo decisões —

de fato, fazendo decisões
numa forma maximamente desorganizada,

essa é a hipótese
de máxima entropia —,

de tal forma que preservem
esta quantidade aqui em média.

Além disso,

a comunidade <i>open source</i>, por algum
método cognitivo de grupo que seja

presume-se que por um monte de
diferentes processos interagentes,

também preserva a quantidade média

de tempo de programação
dedicado a uma linguagem particular.