Home > psychology > 我们都有一个贝叶斯的大脑

我们都有一个贝叶斯的大脑

将近一个月,总算是把 Making up the Mind: How the Brain Creates Our Mental World 看完了。其中有一部分讲述Bayesian 公式的部分尤为精彩。

这里从wikipedia摘录一段贝叶斯的一段介绍:

贝叶斯(1702-1763) Thomas Bayes,英国数学家.1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献.

贝叶斯定理就是

p(h|D)=\frac{p(D|h)p(h)}{p(D)},

其中,h是hypothesis(假设,推断),D是data, 即我们观测到的信息。

在现实生活中,我们观测到的结果D,可能是有很多的可能的原因导致的h_1, h_2, h_3,那么我们的大脑总是能找到一个概率最大的可能,也就是一个最靠谱的猜测。

对于贝叶斯公式来说,p(D)是一个常数,所以可以不考虑。因此,贝叶斯公式变成p(h|D)\propto p(D|h)p(h),也就是由因推果的概率乘以这个假设的先验概率。

举一个例子:

我看到我的好朋友Bill在等公交车,这时根据Bill在等公交车这个事实(D),我做出了猜测:他要回家(h_1),或者他要去逛街(h_2)。这时无论是h_1还是h_2所对应的p(D|h_1)还是p(D|h_2)是相等的,因为这两个假设都可以推出来这个Bill在等公交车的事实(D)。所以,我们做出的判断就要依据先验概率p(h)。可能,根据现在这个时间(周三),我的主观先验知识认为Bill是要放学回家而不太可能(p(h_2)是小概率的)现在去逛街,所以坐公交车。

因此,先验知识,即平时的经验,在人们在做出判决时起了关键作用。这也解释了为什么有经验的人为什么能够做出更靠谱的猜测或者决策。

下面,再举一个google纠错的例子(摘自 数学之美番外篇:平凡而又神奇的贝叶斯方法

比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?到底哪个猜测可能性更大呢?幸运的是我们可以用贝叶斯公式来直接出它们各自的概率,我们不妨将我们的多个猜测记为 h1 h2 .. ( h 代表 hypothesis),它们都属于一个有限且离散的猜测空间 H (单词总共就那么多而已),将用户实际输入的单词记为 D ( D 代表 Data ,即观测数据)。

对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下 P(h) * P(D | h) 这个值,然后取最大的,得到的就是最靠谱的猜测。

不管怎样,一个最常见的替代方案就是,选择离 thew 的编辑距离最近的。然而 the 和 thaw 离 thew 的编辑距离都是 1 。这可咋办捏?你说,不慌,那还是好办。我们就看到底哪个更可能被错打为 thew 就是了。我们注意到字母 e 和字母 w 在键盘上离得很紧,无名指一抽筋就不小心多打出一个 w 来,the 就变成 thew 了。而另一方面 thaw 被错打成 thew 的可能性就相对小一点,因为 e 和 a 离得较远而且使用的指头相差一个指头(一个是中指一个是小指,不像 e 和 w 使用的指头靠在一块——神经科学的证据表明紧邻的身体设施之间容易串位)。OK,很好,因为你现在已经是在用最大似然方法了,或者直白一点,你就是在计算 那个使得 P(D | h) 最大的 h 。而贝叶斯方法计算的是什么?是 P(h) * P(D | h) 。多出来了一个 P(h) 。我们刚才说了,这个多出来的 P(h) 是特定猜测的先验概率。在统计词库中我们可以雄辩地指出了 the 是更靠谱的猜测,因为the的使用概率肯定要大于that。

Bayesian公式是一个神奇的公式,慢慢会发现我们的大脑会自动地用这个公式做判断。

  1. No comments yet.
  1. No trackbacks yet.

Leave a comment