Nas últimas três partes,
abordamos:
primeiro: um retrato matemático
de como modelar
o tempo de chegada de táxis em Nova York,
e então tentamos generalizá-lo
para dar uma ideia
de como métodos MaxEnt
são usados no mundo real —
em particular,
como são/podem ser usados
para descrever o ecossistema
de software open source.
Fiz isso por analogia
a um conjunto de trabalhos pioneiros
feitos no estudo de ecossistemas.
E mostrei como, por exemplo,
o modelo de máxima entropia
pode estar em conflito
com um modelo mecanístico
mais simples.
Atualmente, não temos como discernir
entre as duas formas funcionais.
MaxEnt prevê uma forma funcional,
aquele modelo mecanístico
de acúmulo probabilístico,
um modelo de acúmulo multiplicativo
de adeptos de uma linguagem,
tem forma funcional um pouco distinta.
E elas parecem muito similares
para decidirmos entre elas por ora.
Nessa próxima parte da palestra,
(próxima parte dessa unidade)
tentarei demonstrar a vocês
um outro tipo de argumento que é feito
sobre sistemas sociais e biológicos —
nesse caso, claro, um sistema social —
e vou mostrar como esses argumentos
são feitos numa forma de MaxEnt
e o tipo de insights
que podem ser obtidos.
Pois bem, essa é uma história que
concentra-se numa parte muito interessante
da história americana:
o catálogo Sears Roebuck.
A companhia Sears Roebuck
inventou (ao menos nos EUA)
essa ideia de vender
grandes quantidades de bens de consumo,
não diretamente por uma loja,
mas por um catálogo impresso
que era distribuído ao redor do país.
Então, se você era um fazendeiro
no outono de 1909,
você não conseguiria
necessariamente ir a Chicago
para comprar coisas do dia a dia
de que precisava:
agulhas e linha,
alfinetes e chicotes de charretes
e barbeadores Remington, etc.
Então o que se fazia era consultar
o catálogo da Sears Roebuck & Co.,
e daí pedia, por correio,
todas as coisas de que precisava.
E isso revolucionou, claro,
o mercado consumidor,
algo como um Amazon Prime ou Amazon.com
do começo do século XX.
De fato, o catálogo Sears Roebuck
existe há muito tempo,
desde lá no final dos 1800's
até o final do século XX.
Ele pode até mesmo existir
em alguma forma, hoje,
embora, claro, compras por correio
tenham caído em popularidade,
já que, hoje,
usamos a Internet.
Vou falar em particular sobre um artigo
escrito em 1981, por Elliott Montroll,
chamado "On the entropy function
of sociotechnical systems".
E é interessante, em parte,
porque é uma das primeiras vezes
que alguém tentou elaborar
uma hipótese sobre sistemas sociais,
sobre sistemas vivos,
por via de argumentos de Máxima Entropia.
Então isso é o que Montroll fez:
Montroll olhou para os preços
de produtos no catálogo Sears Roebuck
(de fato, ele tomou os dados
de outra fonte),
e o que está plotado aqui
é ano a ano.
Então isso é 1916,
isso é 1924,
isso é 1974.
E o que ele fez foi,
ele plotou a distribuição de preços,
a probabilidade de que algum produto,
no catálogo Sears, tenha um custo c.
Ele plota isso numa escala log.
Então isso é o log do preço
(e, de fato, ele usa log na base 2),
e isso vai de -6
(isso é 1/64),
até +6, 64 dólares,
no caso de 1916.
E ele plota a distribuição de produtos.
Então aqui, por exemplo, há 60% de chances
de escolher um produto no catálogo Sears
em 1916, ao acaso,
que custe próximo de
log₂ dólares igual a 0,
ou seja, que custassem próximo de 1 dólar.
Então 60% dos produtos
no catálogo custavam um dólar,
e podemos ver que
a distribuição decai nos extremos:
há muito poucos produtos
que custam mais que 60 dólares
e muito poucos que custam
na ordem de centavos.
Então a primeira coisa que ele notou
é que a distribuição parece Gaussiana...
(ou normal).
E se prestar atenção à aula anterior,
você vai perceber que
isso aqui é o log do preço,
então, de fato, a distribuição de preços
no catálogo Sears
é log-normal.
Em outras palavras,
se tomar o logaritmo do preço,
para verificar a distribuição,
ela será Gaussiana.
Então vamos fuçar um pouco
na distribuição log-normal.
Ela parece com P(x) proporcional
a exp(-(x-𝜇)²/2𝜎²)
Chamei 𝜇 de "x barra" ali,
mas 𝜇 é a média da distribuição
(o chamamos de média).
E 𝜎 é o que chamamos
de variância.
Vamos expandir isso um pouco:
Vou escrever isso como
e elevado a (-x²/2𝜎² ...
... + 2x𝜇/2𝜎² ...
(que vem do termo cruzado)
... -𝜇²/2𝜎²)
Tudo que fiz foi expandir
(x-𝜇)²/2𝜎².
Então vou reescrever isso
e elevado a (-𝜆₁ x² ...
... + 𝜆₂ x + 𝜆₃)
[ exp(-𝜆₁ x² + 𝜆₂ x + 𝜆₃) ].
Escrevendo assim,
vemos que a log-normal
é simplesmente a distribuição
de máxima entropia
se restringirmos duas coisas:
1) restringimos x²,
e 2) restringimos x.
E, claro, restringindo ambos
é equivalente a restringir a variância
— que é o valor esperado de (x - <x>)² —
e a média [<x>].
Restringir os últimos é equivalente
a restringir os primeiros,
pois você pode, claro, expandir isso aqui:
então fixando <(x - <x>)²>
e a certos valores
é o mesmo que fixar [<x> e <x²>]
a certos valores.
Então a distribuição log-normal é,
secretamente,
e secretamente sempre foi
o tempo inteiro,
mais uma distribuição MaxEnt.
Escrevendo ela assim,
e percebendo que essas
constantes —
aqui e aqui —
essas constantes são
multiplicadores de Lagrange
cujos valores corretos
foram descobertos.
Conclui-se que a distribuição log-normal
restringe estas duas quantidades.