让我们继续看看信息和概率之间的关系。 概率就是抛硬币,正面,正面,反面,谢天谢地。 事实上,顺便说一下,我有一个合法的两个头像的硬币发行的美国造币厂。 你能猜出它是什么吗? 这实际上是新罕布什尔区,乔治·华盛顿就在它的一边 另一面是《山中老人》 山上的老人是一个看起来像头的岩层, 不幸的是,它在十年前倒塌了, 所以现在他们放了一枚新的新罕布什尔州硬币。 我还有一枚合法的美国25分硬币,上面有五个正面,我希望你们能考虑一下这是什么25分硬币。 我们来看看这两者的关系 信息和概率。 概率,我们可以把它看成是先验概率,也就是概率 正面的概率是反面的概率是1 / 2,因为没有特别的理由 抛硬币时选择正面还是反面。 但是我们也可以从频率的角度来考虑。 如果我们有一个很长的正面和反面序列,我试着让它随机,但是 我有一种奇怪的感觉这和我之前写的正面和反面的序列完全一样。 我的学生抱怨说,每当我在黑板上随机写一串0和1时, 总是相同的序列,不可能是完全随机的,对吧? 无论如何,我们能做的是,我们可以说,让我们取一个非常非常长的序列。 我们来数一下正面和反面的次数, 正面出现的频率等于正面出现的次数 除以序列的总长度。 反面出现的频率是一样的。 然后我们问,我们有这样的直觉如果硬币是均匀的, 几乎所有我们能生成的序列 大概有50%是正面和反面。 让我在数学上更精确一点。 让我们看一下长度为m的抛硬币序列的总数, 正好有m_h个正面和m_t个反面。 这两项之和等于m,序列的总长度。 现在这个序列的总个数是一个叫做m选m_h的数。 这是一种方法,如果我有一个长度为m的序列,我称正面为0和 反面一,它是长度为m的二进制序列中恰好有m_h为0的个数 和m_t。 它们是一样的因为如果我选了恰好有m_h的数 正面和有m_t个反面的序列的个数是一样的。 那么这个数是多少? 它等于下面的式子: 选择的方法数,这叫做m选m_h, 这是一个数学公式,它的发音就像这个带括号的有趣的东西 m在上面,m_h在下面,它被称为m选择m_h,因为它是数字 从m个可能的点中选择m_h个点或位置的方法。 所以我们有0 0 0 1 1 0, 我又陷入了同样的可能性。 我们有一大堆不同的位置,我们要数位置的个数 这里可以放0。 所以我们有一定数量的0和 我们想用一种特殊的方式来表达它们。 现在这个总数就是拥有这个m_h数的序列的总数 正面在那边。 所以这个数,我把它写下来, M选m_h等于M !/ m_h !* (m-m_h) ! 等于m!在m_h !* m_t !。 我用这个有趣的符号加上感叹号。 感叹号表示如果我有一个数字,m!等于1乘以2乘以3 乘以四倍……乘以m-1乘以m。 它是所有到m的数的乘积。 例如,2!等于1乘以2 = 2。 3! 等于1乘以2乘以3等于6,以此类推。 这些数字变得非常非常快。 所以这个数m选m_h, 米!是m个对象重新排列的方法总数。 如果我们有一定数量的0和1,我们可以重新排列这m个元素 一种特殊的方式,但是如果我们在第一个位置和第二个位置都有一个0 我们不关心这是这个0还是这是另一个0。它们都是零。 所以我们要除以0之间重新排列的次数。 这就是m_h!-这是0重新排列的次数, m_t !是1重新排列的次数。 恰好有m_h为0和m_t为1的序列的总数就是总数 重新排列这些序列的方法 除以重新排列的次数 0除以1重新排列的次数。 这是事实,如果你觉得不合理,就忍着吧。 现在我们有了一个很好的数学公式。 这是另一个有趣的事实。 我现在要定义一个概率。 正面的概率,记作q。 因为我们之前说正面的概率是1 / 2,反面的概率是1 / 2。 所以我们把这个定义为正面的个数除以m。 这是正面的频率,所以是 我们观察到的是正面的次数。 观察到的正面的概率。 但它只是一个频率,我们不知道它是不是概率。 1-q(h)等于q(t)等于反面出现的频率。 这是信息论的基本公式。 我再说一遍,信息论的基本公式。 S代表熵,I代表信息,这两种写法都一样,因为,记住, 熵,这个人们在19世纪发现的量就是信息。 标记原子和分子的不同可能结构所需的信息。 在这种情况下,我们试图标记出正面和反面的可能性的总数, 所以这个等于 -q(h) log2q (h) -q(t) log2q (t) 这是一个有趣的公式。 这些是负号,这些是对数,这些是概率,等等。 我把它写成a 特定的情况下。 假设q(h)正好是1 / 2,让你们感觉一下它是什么。 所以正好有一半的序列是正面。 假设q(t)是一样的,因为它是1减去这个,这是q(t) 然后这个量S或I,信息,熵,同一枚硬币的两面。 所以I等于-0.5 log以2为底0.5的对数,因为这是0.5,这是0.5。 然后是-0.5,这是q(t) log以2为底0.5的对数。 有两个,每个乘以0.5。 这等于-log以2为底0.5的对数,因为我把它们加起来了。 log以2为底0.5的对数,这是2必须取0.5的幂, 这是-1。 它等于-(-1)因为2^(-1)等于0.5,它等于1,它实际上有一个单位, 它是一个比特。 所以这个公式,我不会说它神奇,它只是数学上的, 但它非常有用。 这个公式说,如果我有一枚硬币,我抛它,正面的概率是0.5, 反面出现的概率是0.5,那么包含的信息量是 如果你愿意,在一次抛硬币中 生成的信息量 靠抛硬币,是一个比特。 这次碰巧是反面。 因此,抛掷硬币,正面出现的频率是反面出现的频率是0.5, 给你一点信息。 现在,如果我们回到关于概率的计数论证,我们发现 这是描述一个特定数字的排列方式所需要的位数吗 M_h(正面)记住这是一个数字,我们把它定义为m,就是次数 描述这个的比特数等于m乘以(-q(h) log以2为底q(h) -q(t) log以2为底q(t)) 所以这就等于m乘以信息量。 我一直想把它叫做魔法,但我不相信魔法。 这个信息的数学公式实际上是一种计算可能性数量的方法。 我们看得到恰好m_h次正面的可能方法的个数。 我们取这个对数,这就是这个特定的信息的比特数 序列,我们发现它等于m,抛硬币的总次数,乘以这个量, 这些信息。 总结一下,信息论的基本公式 信息量,也就是熵的量,是否等于,如果我有 有两种可能,就是-q(h) log q(h) -q(t) log q(t) 如果有更多的可能,我们称它们为k种可能的结果, 那么信息量等于-从I = 1到k的所有可能结果的和 Q (i) log以2为底Q (i) 我们只是通过计算构造的可能性得到这个结果 这些频率。 这个非常有用的公式是所有信息论的基础,包括数学 通信理论,包括计算理论。