韩寒代笔的概率问题科普文

bridged · 发表于 3-2-2012 03:02:36

@maowy

概率相乘和适用条件 (2012-03-02 18:33:04)转载▼
标签：杂谈
昨天@破破的桥问我，有什么讲概率相乘的书推荐没，我实在想不到什么书推荐，就按照@倍魄的概率相乘的逻辑构造了一个佯谬。命题如下：
“全国方姓人口占总人口比例为0.36%，名字里有个 “是” 的人口占总人口的比例恐怕远低于 0.001%，名字里有个“民”的比例高一点，就算0.05%吧，三者概率相乘，其概率远低于10亿分之一，所以方舟子不可能叫方是民”
这个命题的荒谬一见可知，方舟子的确本名方是民，大家都知道的，为啥在这儿经过这个概率计算就没了呢？（那些认为我概率没学好的同学，请仔细读一下下文）
@倍魄给出了一个解释，“假设你那三个概率条件都是对的，三者相乘，得到的概率是在全国人口中，随机抽取一个人，这个人恰好叫方是民的概率。这个概率非常小。”的确如@倍魄所说，这个概率非常小。在全国人口中，随机抽取一个人，这个人恰好是方是民的概率很低很低。低到多少呢？1万亿分之18，写成分数是18/1000000000000，也就是1万亿个人中，只有18个人可能叫这个名字。那么我们用这个算法，在全国人当中抽取了13亿人，这个概率会变成多少？会变成13亿*18/1万亿=2.34%。我们抽查了13亿人，只有2.34%的概率是有一个人叫方是民，那是不是说明方舟子叫方是民的概率很低？
然后@倍魄又说了，“你假设的三个概率，只是你臆想的概率，姓方的概率也许网上能查到，但“是”和“民”的概率，只是你假设的。关键问题是，“随机事件”这个概念。如果你找一个人，是随机抽取的，那他叫方是民的概率当然很小。如果你指着方舟子，他当然叫方是民。”好，按照倍魄的说法，我这个概率取的有问题，是我臆想的概率，姓方的概率是0.36%（的确我是从网上查的），“是”和“民”的概率只是我假设的。好吧，我的确不知道名字当中有“是”和有“民”的人的数目是多少，那是不是我概率拍脑袋选错了呢？其实概率很高？我们可以用另一种方法来检验一下这个说法。我们可以做一个替换，把“方”换成“武”，名字里也不是“是”和“民”，而是“曌”，没错，就是武则天那个“曌”。古往今来，全部中国人按50亿计算，名字中有“曌”的比例是多少呢？如果再没有别人用这个“曌”做名字，那就是50亿分之一。武姓人口按照人口普查结果，占比0.18%，比方姓还少，那有一个人叫武曌的概率是多少？算出来结果是一个比有人叫“方是民”的概率还低很多的一个值，事实上，这个值是万亿分之0.36。我们随机遇到50亿人，有一个人叫武曌的概率是0.18%。
@倍魄到这时候反应过来了，他说“能不能用概率直接相乘，是要看这几个概率是否相关。比如，姓胡的人，名字第二个字就会受到限制，这样就是概率不独立。你想反驳我，应当沿着这个方向。。关于韩寒，我的解释是他是水货，他不谈文学和创作不是随机事件，是必然事件。他的明智是不谈不懂的东西以防自取其辱。”
我很高兴看到倍魄认识到这一点，终于知道了这里面概率不独立。好，那我们从这儿开始进入正题。
这个命题的错误正如倍魄指出的，不能直接进行概率相乘，因为一旦一个人姓“方”确定以后，那名字当中有“是”的概率，应该是在所有姓方的人中进行统计，确定概率。比如说全国有0.36%也就是468万人姓方，然后名字当中有“是”的概率就是在这468万人当中去找，比如说全国468万人当中，只有方舟子的名字第二个字是“是”，那名字第二个字是“是”的概率就是468万分之一。名字当中有“民”的概率，应该是在姓名第一个字是“方”，第二个字是“是”的人中间做统计，如果全国只有一个人名字是“方是”打头的，第三个字是“民”的概率就是100%。所以合起来一个人名字叫方是民的概率是13亿分之一，乘以13，正好我们遇到13亿人，能确定其中有一个人叫“方是民”，就是方舟子本人。
名字的几个字之间有相关性，不能直接用概率相乘计算大家都看明白了，倍魄及其粉丝也对此有正确的认识。好，我们继续下面的命题。请看以下命题：
1.一个人叫方是民的概率是13亿分之一
2.一个人是福建高考语文状元的概率是34/（(10万)^34）（按照1977年到现在一个高考语文状元，高考34年，每年福建高考10万人计算）
3.一个人能拿到生化博士的概率是。。。难倒我了，这个数字谁来统计一下吧
4.一个人办了一个知名网站的概率是。。。
这几个事件的概率都很低，然后我们能就此相乘并因此推断这样一个人不存在么？
不能。为什么？因为这几个事情并不独立，不能这样进行概率相乘！在我们确定了13亿人当中有一个人叫方是民以后，其他的2,3,4命题的概率都变成了条件概率，在叫“方是民”的人中间，拿福建高考语文状元的概率是1，这件事情是确定的，同样，拿到生化博士的概率也是确定的1，当然了，我们知道方舟子没有拿数学博士，所以拿到数学博士的概率就是0（如果方舟子的确拿到了数学博士，我愿意就此道歉并把这个数学博士换成物理博士等其他方舟子没有拿到的博士学位）。后面的事情就都变成确定的了。
好，我们回到这次争论的起因。
倍魄的概率相乘法的论述如下：
　　“那好，这就用到概率了。假设一个人心情不好的概率是1/4，遇到怀有敌意提问的概率是1/2，遇到不合适的谈话对手的概率是3/5，遇到碰巧不懂的文学问题的概率是1/9，没休息好记忆力差的概率是1/3，那么，韩寒连续5次都不谈文学和创作的概率就是0.278%。假设韩寒一年接受5次采访和演讲邀请，“13年来韩寒从来不在演讲和访谈中谈文学和创作”的概率就是13个0.278%相乘。”
倍魄犯的错误就在于他认为每件事情概率是独立的，可以相乘。这就犯了和前文一样的错误。
然后倍魄又说了“有人反对，说“今天正好心情不好”和“今天对方怀有恶意”不是独立概率事件。这种反对意见有道理的地方，在于反对者知道有概率相关这回事。但你说它们并非概率独立，请给出证明，谁主张谁举证，我看不出它们之间是概率相关的。”
这就是耍无赖了，你看不出它们之间是概率相关的那他们之间就不是概率相关的了么？相关不相关不是你倍魄说了算，而是要严格证明的。否则，我在上文里说“我看不出它们之间是概率相关的”，是不是就能证明方舟子不叫方是民了？
我们把这个命题稍微改造一下就可以知道倍魄犯的错误是什么。假设一个人心情不好的概率是1/4，遇到怀有敌意提问的概率是1/2，遇到不合适的谈话对手的概率是3/5。。。。最后计算概率的时候应该是（一个人心情不好的概率）*（一个人心情不好的情况下遇到怀有敌意的概率）*（一个人心情不好的情况下遇到一个人怀有敌意，这个人是个不合适的谈话对手的概率）*。。。。。这才能用概率相乘，而不是像倍魄那样，直接去1/4*1/2*3/5*1/9。。。。
要说明这个问题，我再举一个“倍魄”文中的例子说明其错误。倍魄在他的文章“作假者害怕归纳逻辑”中说“在自由演讲中，有多少人会谈自己熟悉的喜欢的东西，假如经统计前者概率为90%”，这个统计应该是说100个人当中有90个人在自有演讲中谈自己熟悉的喜欢的东西，有10个人不谈。然后倍魄遇到了一个人，这个人没谈自己熟悉和喜欢的东西，而是在骂人，倍魄遇到了他五次，五次这个人都没谈自己熟悉的喜欢的东西，而是总在骂人，然后倍魄说，这个人是假的，因为他5次都没谈自己熟悉的喜欢的东西，10%的5次方，10万分之一的概率，这个人是假的。问题是，前面就是倍魄说有90%的人会谈自己熟悉的喜欢的东西，10%的人不会谈，他遇到了其中一个，却又不承认了，认为这个人是假的。这不是很荒谬么？
这里我引用的这些句子摘自倍魄的博文，自认逻辑比较好的都可以去看看。我就不多说了。

这里再强调一下，概率相乘是有严格的限制条件的，那就是事件独立。在你认为一个人同时是赛车手和作家的概率很低的时候，你也可以认为一个人高中退学的概率很低，你同样可以认为一个人写出长篇小说的概率很低，但是你要把这三个概率相乘的时候，你要小心，你应该用的概率是（一个人是赛车手同时是作家的概率）*（一个人是赛车手同时是作家的情况下，是个高中退学生的概率）*（一个人是赛车手同时是作家，而且高中退学的情况下，写出长篇小说的概率)。这其中，第一个括弧里的概率很低，但一旦确定了是韩寒，第二个括弧和第三个括弧里的概率你就要仔细掂量一下了。如果你认为韩寒是自己写的，那这俩概率值是1。如果你认为韩寒是别人代笔的，那这俩概率值是0。一切全取决于你自己，你会发现，你绕了一圈又绕回来了。这其实是个套套逻辑。你相信韩寒是自己写的，这些都能解释得了。你不相信，那你也能说得通。
看了这么长，你还确定你能用概率相乘确定韩寒代笔么？

@被打飞

弱质疑和忽悠能“串”成强证据链吗？并浅析阴谋论得以奏效的数学基础。

@被打飞

方韩争方兴未艾，但真正有水平的发言不多。昨天我的老朋友 @破破的桥的文章《韩寒代笔探讨：强质疑、弱质疑、和忽悠》则毫无疑问的算一篇（我感觉是最好的一篇）。

http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html

概括来说，这篇文章把“质疑”分为三种，强质疑（找到发生概率仅为0.1%或更低的事件，下称强疑点），弱质疑（找到发生概率20%的事件，下称弱疑点），忽悠（拿发生概率50%甚至更高的事件当疑点）。他指出，目前质疑派并未提出强质疑，有的只是弱质疑和忽悠。

这篇文章写的非常之好，观察一下“质疑派”的反应，似乎也承认或默认目前没有发现强疑点。不过，我看来可惜的一点是，破桥文章并没有讲清弱疑点为什么“弱”的关键因素。

果然，很快不少人提出，弱疑点能够串起来增强质疑力，形成力度等同于强疑点的“证据链”。其中，@虚逐子的反驳文章《只见树木不见森林》是典型。这篇文章甚至用数学手段示范了如何将忽悠级别的“疑点”组合成强证据链的。

一应用到数学，就有一个好处：正误标准一清二楚，用对了就是对了，不对就是不对，非黑即白，不存在中间状态。我们下面就来检查一下此文中数学的应用。

@虚逐子原文如下：

http://blog.sina.com.cn/s/blog_809332ae01011o5v.html

“我们来看看证据链是如何显著增强孤立“忽悠”的可靠性的。有这么四个“忽悠”：韩寒不知道《三重门》名字的来源；《求医》描述了一个他没出生年代的医院场景；病情描述和疥疮不符；视频访谈谈到赛车和女人时可以谈得眉飞色舞，但是谈到文学，特别是谈到以他的名义出版的那些作品时，他就一问三不知。假设韩寒没有代笔，这四个质疑是独立的，每一个几率是50%，50%的四次方=6.25%，这已经是很强的证据。并且形成了一个完整的指向韩文代笔的证据链，其可能性93%以上。如果进一步增加独立的或者弱相关的证据，这种可能性会更多，也许会达到能够接受的可能性。”

他这段写的有点不清不楚，甚至还存在基本概念上的混淆。不过未必人人都受过严格的概率学训练，不强求。我先帮助他把意思说的明确和严格一些。

@虚逐子的意思是，假定从韩寒作品里找到ABCD四个疑点，如果韩寒真的没人代笔，每个疑点出现的可能性仅为50%，且相互独立。那么韩寒没代笔情况下该四个疑点同时出现的概率为50%的四次方，即6.25%，这是个较小的数字，反过来似乎说明了韩寒没代笔的“不可能性”。在统计学上，这种的数字小于5%，则认为可以构成“无代笔”的强证据。

（对概率不熟悉者此段可跳过当然，后面@虚逐子网友画蛇添足的将此解释为“其（代笔）可能性93%”以上，是个错误，反应出他不理解逆概公式。但这不是个关键。因为统计学上，对某个假设的排除可直接根据原始p值，即这里计算得到的6.25%来进行，并不用计算逆概。）

很可惜。这种计算是完全错误的。为什么错？为什么忽悠和弱疑点不能这样叠加成强疑点？@破破的桥的解释是，这些弱疑点不独立（也就是说，某个出现的话，其他的更有可能出现），因此概率上不能直接相乘。这是原因之一。但不是主要原因。因为既然弱疑点能找到很多，不排除其中有真正独立的，几个独立的一乘下来，证明力不就指数上升，真的形成强证据链了吗？

其实，弱疑点串不起来关键原因很简单：未考虑总样本数。一个简单的例子就能说清：扔硬币。假定我每扔一枚硬币，如果不作弊的话，正反面概率各为50%。我扔了100次，每次都把结果记录下来。最后正反面各约50次。然后你想来“质疑”我，采取一种方案，偷偷把我的记录中，所有出现硬币“反面”的结果抹去，换句话说，只把“正面”的结果拿出去给人看。然后别人会惊奇的发现，50次正面！如果没作弊，这样的概率是多少呢？50%的五十次方，实际上就是零。因此一般人都会感觉我肯定作弊了。但是，如果我告诉大家这五十次正面是我通过扔一百次硬币得到的，大家马上就明白：这没什么不正常。

聪明的读者可能已经看出来了，这已经解释了@虚逐子方法错在何处。下面我们再不厌其烦的针对他的具体例子做些较严格的数学计算。

为展示虚竹子的错误和运算方便，我们不妨把50%这个数值再调小一点，变成10%。也就是假定虚竹子真的找到了4个“弱疑点”，而不是什么忽悠。按照虚竹子的计算，如果韩寒没代笔，则四个疑点同时出现的概率将是10%的四次方，也就是万分之一，这无疑是很小的一个值，似乎更可以排除“无代笔”的假设。

但是，别忘了，这四个疑点是翻遍了韩寒的大量作品和访谈才找到的。为了描述方便起见，假定这四个疑点是韩寒作品中出现的四句话。而韩寒作品中与代笔问题有关联的话共有100句（这显然保守了），如果韩寒无代笔，则每一句达到此可疑程度的概率均为10%。那么问题正确的提法应该是：如果韩寒无代笔，找到4句以上此种可疑程度的话概率为多少？我们来计算一下。为简便起见，仍然不考虑相关性。

先用常识判断。既然每一句如此可疑的概率为10%，则100句中如此可疑的话总数应为

100×10%=10句

能挑出四句或更多的可能性极大。

再看看数值计算，具体公式这里不演示了，可利用二项分布或其正态近似。粗通统计学的本科生都应该会算，否则相应课程考试无法及格。答案约为98%。

换句话说，因为没考虑产生疑点的“样本总量”，将98%的可能性，误算成万分之一的可能性！

实际上，在统计学中，这叫survivial bias。也就是说，专挑可疑的，但不看这些可疑事件是从多大样本量里挑出来的。而样本量足够大后，总能挑出来足够多，放在一起挺吓人的。但其实什么都说明不了。

这就是“弱质疑”到底弱在哪里的真正原因。有趣的是，我认为这正是一切深文周纳的阴谋论得以奏效的本质原因。有点可疑但不那么可疑的事情单独挑出来放在一起，对旁观者造成很大震撼，这时候，就算别人指出还有很多事不可疑，但人类心理天然反应，对那些不可疑的事情不大关心，但就是惦记着可疑的那些。此时，懂一点数学，就能有效的防止被忽悠。（我这好像成了现场反驳韩寒的数学无用论？）

帐号		自动登录	找回密码
密码			注册