我们讲过信息是比特,用来测量信息 我们已经讨论过计数,所以我们可以用比特数0 0 0 1,1 0 1 1, 从0数到3,取2模。 我们已经讨论了标签问题, 我们可以用条形码来标记东西。 最后我们讨论了比特是如何物理化的, 我们电脑里的所有信息,我所传达的所有信息 通过我声带的振动和空气的振动 实际上是物理系统,信息的物理表现。 我们还谈到了一个150年前的发现, 所有的物理系统都携带着信息, 这些信息量是可以量化的。 比特数是可能性数以2为底的对数, 讽刺的是,这个结果被刻在了玻尔兹曼的坟墓上。 所以现在我想给你们比特的另一个方面,这是一个非常20世纪的方面 信息的比特。 这就是信息和概率之间的关系。 概率这个东西我们都很熟悉也很困惑, 我总是对概率感到困惑。 众所周知,人类对概率的直觉很差, 我们高估了真正可怕的事件发生的可能性, 我们低估了美好、美好、正常事件发生的可能性。 当然,从进化的角度来看,高估了某些事件发生的可能性 就像一只剑齿虎从树上掉下来,把牙齿咬进你的脖子, 这可能是一件好事,这可能就是原因。 这里有一个简单的概率概念,我来演示一下。 我们举个正面和反面的例子。 我这里有一枚锃亮的新硬币是圣达菲乐队的一个成员送给我的 她也没让我还,所以我多了五美分。 要么是正面,要么是反面。 你觉得呢?是正面还是反面的概率是多少? 我认为是五五开。但是为什么呢? 为什么是1 / 2 ?是正面还是反面的概率。 是反面,我发誓。 正面和反面的概率有两种概念。 一个概念是,我认为这是最好的,最直观的概念,当我 像这样翻转,我没有在电视上看,我不知道我翻转得有多用力, 我把它放在那之前没看见。 我没有理由更喜欢正面而不是反面。 正面和反面是先天的它们的权重是相等的。 正面。它是正面,现在它是正面的概率是1, 这就是概率的有趣之处。 首先你不知道,你有概率。 这些被称为先验概率或先验概率。 所以正面的概率等于反面的概率是1 / 2, 因为没有理由更喜欢正面而不是反面。这是一个很好的论点。 这是正面或反面的先验概率,是50% 但是关于为什么出现正面和反面的概率是50%还有另一种说法。 我这样试一下,把这个硬币扔几次。 反面。 正面。 正面。 正面。 反面。 正面。 反面。 正面。 正面。 所以10次投掷中有7次正面,3次反面。 这有点无聊,这就是问题所在。 很有可能,这很无聊,很令人困惑,要弄清楚发生了什么, 你得做很多次。 因为我不认为你会同意这枚崭新的美国镍币 得到正面的概率是7 / 10,得到正面的概率是3 / 10 有反面。 这只是运气使然, 或者掷硬币的运气。 碰巧有7个正面3个反面,如果是抛硬币的话 一枚硬币十次,是相当合理的。 所以如果我把这个硬币抛很多次, 但我不打算这么做,因为我知道这会很无聊,你会觉得很无聊的。 如果我抛硬币,应该说是均匀硬币, 我应该指出,在我在麻省理工学院的课堂上,学生们一开始似乎都是 相信我说的话,但经过几次讲座后,他们变得非常不信任我。 我不知道为什么,我看起来像个值得信赖的人。 不管怎样,我抛一枚均匀硬币m次,我们看正面和反面的次数 正面次数加上反面次数的和等于m。 我只是把它翻了十次。 我们把频率称为, 或者是正面出现的频率 就等于正面的个数除以m。 投掷10次,得到7个正面,频率是0.7。 反面出现的频率,你们可以很好地猜到,是反面出现的次数除以m, 这就等于1减去正面的次数除以m。 根据个人经验,我们期望的是,如果我们继续翻转 硬币很多很多次。 嗯,如果我抛100次,我当然不期望正好得到50个正面, 频率正好是0.5,与概率匹配。 但我希望得到比0.7好一点的结果,也就是7 / 10。 这看起来,你知道,不太可能,如果我抛100次,我将得到70个正面。 这完全有可能,为什么不呢? 我将给出它的公式。 所以正面的期望次数,也就是反面的期望次数,因为 他们之间没有什么可选择的 等于50% 我把它翻转100次,例如,m等于100。那么m / 2等于50。 所以我希望得到大约50,然后我要用这个符号,加或减, 我一会儿会解释这是什么,加上1 / 2乘以根号m。 实际上,你期望的是它大致在这个区间内。 翻转100次,100的平方根是10。 我预计大概在5个以内,可能更多,可能更多7到8个 但如果有70次正面30次反面,我会很惊讶。 我认为更可能是,60次正面,40次反面,但更可能是 55和45。 这就是你能做的。 我们来问问为什么会这样。 如果我看一下所有可能的序列 H, H, H, H, H, H 你可能会注意到,其中的前10个几乎是我得到的 我在抛硬币。 点,点,点,这是一种意思,等等。 继续下去,然后我们会有n个这样的, 我们要计算可能序列的个数 正好有m_h个正面和m_t个反面。 当然,因为要么是正面,要么是反面, 至少除非它侧身着陆,我认为这是不可能的, 这个加起来等于m。 所以我要数有m_h个正面,m_t个反面的可能序列的个数, 这两个加起来等于m。 我们要发现的是,没有那么多的序列是正面正面正面。 反面。 所以会有很少的序列几乎都是正面和 几条反面。 同样的,也会有很少一部分序列几乎全部都有 反面和几个正面,会有很多序列有反面和几个正面 正面和反面的次数大致相同。 所以你可以看到,要把这个和信息理论联系起来, 每个序列就像一个0和1的序列。 你可以称正面为0,反面为1, 这是一个很长很长的位串。 所以我们可以把信息的概念联系起来, 具有特定模式的可能序列的数量, 在这种情况下,有特定数量的正面和反面 概率。