一路 BBS

 找回密码
 注册
搜索
查看: 1070|回复: 0
打印 上一主题 下一主题

音频分析大戏——兼论方韩大战中的科学精神

[复制链接]
跳转到指定楼层
楼主
发表于 3-29-2012 17:28:34 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
音频分析大戏——兼论方韩大战中的科学精神  by cloudsforest

引子

这篇文章写写停停,倒不是素材的问题,而是一直犹豫该不该发。方舟子先生作为打假斗士和科普先锋,拥有大量的粉丝。不论是他还是他的粉丝,网络上骂战的能力都超强,个人实在不想去捅这个马蜂窝。不过今天看到方先生接受《环球企业家》杂志的专访(http://blog.sina.com.cn/s/blog_474068790102dz2c.html),题为《方舟子真面目》,颇多感慨,因此觉得这篇文章还是有必要写完。方先生在这篇访谈中说到了一些我非常认同的观点,比如“科学最理想的状态亦在于允许完全自由的辩论,而言论自由则是打假的最佳良药。”“做科学研究的本质就是严谨,而非一团和气。” “科学思想还没有成为中国社会思潮的主流,真正掌控社会走向的精英群体至少应该有科学素养。”我希望方舟子先生的这些话能够成为我对他质疑的护身符。在文章结尾,记者问方舟子:“你希望一百年之后,人们如何谈论你?”方舟子回答说“一个对传播中国科学精神有贡献的人。”嗯,这是非常令人感动的目标,但是我非常怀疑以现在的趋势发展下去,方先生是否能够实现他的理想。

序曲

很多人大概都知道,方舟子认为韩寒在一次录音中自证代笔。这件事情有些滑稽,一段几年前的录音,因为据说有人听到韩寒说“再代写”这几个字,而成为铁证。当事人术术的亲自澄清,方舟子是不愿意听的,利益相关者嘛。可惜原作音效实在不佳,为了说服他人,各方人士争相上台,演出了一场“理性分析”的大戏。这场戏的发展却让我看清楚了很多东西….

第一幕

首先韩寒在录音录音中到底说了什么,在方舟子的微博上就出现过两个几乎完全不同的版本。他曾经指责过听出“单”的人是幻听,不过他钦点的这两个版本居然也有绝大多数地方都不一样,不禁要怀疑这到底是怎么回事呢。我们先把“代”字放在一边,听一听术术在电话中说的一句话,这句部分模糊部分清晰的录音被方舟子听出了两个版本:

1.      “这个不过是图个安你的名字,替你拿笔。”

2.      “并不是说什么,就是图你【?】安个名字,又不是第一次了。”

很明显,这两句话的差别之大,尤其是“替你拿笔”和“又不是第一次了”,不知道是什么样的逻辑才能同时接受这两种说法。而事实上,我用音频处理软件截取了这一段,反复聆听,这一处说白了其实根本就是噪声。方先生这种诡异的听力水准,实在是让我叹服!这一句话中 “图个安宁”的“图个安”碰巧是非常清晰的。结果听力水准极高的方先生,突然又把它听出了“图你安个”这种词序完全颠倒不知所云的结果。目的我们大家很清楚,就是要构成“安个名字”这样的所谓代笔铁证。只是“个”和“安”的位置,真心真心真心真心是只有幻听者才会听反了的。如此赤裸裸的“听见”与“听错”的对比,基本上除了构陷这两个字,中国的词典中已经找不出更好的词来形容他了。(方舟子曾经说过“什么叫构陷?只有捏造过一个材料出来,那才叫构陷”)

第二幕

原以为这件事情已经够匪夷所思了,在这一个半月之后的今天,我才发现这出戏才刚刚开场。接下来登场的是一个叫做@狮鹫扔大锤的网友,他从土豆网上找到了一段视频,这段视频中把那个关键时刻做了重复处理,结果所有人都听到了韩寒很清晰地在重复“dai”,多么的“铁证”啊(“铁证”其实是“铁杆粉丝提供的证据”的简称)。方舟子转发这个证据时的评论是“这个很强。新浪前编辑@术术之所以非要把“代写”说成“单写”,是因为她知道“代写”意味着泄密。我们证明了就是“代写”,秘密也就揭开了。”显然认为自己已经揭开了维护韩寒的利益集团。

可是不久之后,@荒原的草窝经过细致的波幅对比研究发现,制作视频的人并没有老老实实地再重复dan这个音,而是非常巧妙地始终在重复“再”字的后半部分和“单”字的前面部分,于是就形成了如同aiDa_aiDa_aiDa_aiDa_aiDa_aiDa的连续播放,Da与后面的ai之间没有间隙,连着听起来就好像“代”了。(http://www.weibo.com/1225829512/y8ndRCcEz)这个事情中@狮鹫扔大锤辩称自己只是传播者不是制作者,不应该对此承担任何责任。这个无头的案子就这样不了了之了。

至此,我赫然发现对于方舟子来说,能够造成对手的伤害是第一要义,至于说事实到底是怎样的?他转发后哪管洪水滔天?

第三幕

方舟子的门下,如此技术流自然是不会少的,毕竟他的粉丝中“理聪”云集。几乎同一时间,一个叫做@天昊若钦的网友进献了名为《“单”-与-“代”-的摄谱图分析 Spectrograph》技术分析文章。此文现在已经开了天窗,甚至连@天昊若钦都在自己的微博上删掉了。不过反韩大本营凯迪上却还能寻到转帖。地址是:

http://club.kdnet.net/dispbbs.as ... e=1&1=1#8150757

当时方舟子先生对此文的评价很高,他说:“这是目前最科学的音频分析了。不过可以做得更好,即从韩寒本人的发音取样,视频的8:20处“戴dai眼镜”、18:11处“单dan独列举”是不会有异议的对照样本。”很可惜,这篇文章已是错到连作者都不好意思留存,根本不是方舟子所说可以做得更好这样简单。而方舟子提的一点意见在我看来只不过是他看不懂这篇文章,但为了肯定它所采用的虚抑实扬的手法。

此分析的目标是进行摄谱图分析,以确定音调,他试图证明韩寒发的是4声,而非1声。事实上,因为方言、连读、录音条件等影响,即使能够证明这是4声,也不能说明这个字是“代”。不过这篇文章最严重的错是在判断音调的原理上。因为语调分析要基于基频,人声的基频在40-300hz之间,而这位尚在读本科的同学随手为之的连线都飙到快800hz了,这怎么区分得了是噪声还是共振峰还是别的神马?声谱图用matlab很好画,可是是@天昊若钦不具备音调计算的基本知识,彼时连音频分析的专业免费软件Praat都没有听说过。一般来说,音调确定的基本算法是Autocorrelation Algorithm或者Harmonic Product Spectrum。从来没有看过随手连线法。

@天昊若钦一根绿线这样画过去,就决定了音调。假如把他给的绿线移去,交给100个人来画线,大概能够目测出七八十种连线的方式吧。比如@牟环宇-Kenny 网友就给出了他的解法http://www.weibo.com/1978129297/y80OKgEPZ ,看起来好像是第二声哦。据@方舟子老师说这是现在最科学的方法,当然日心说也曾经是最科学的呢。这要是在大学交作业,肯定会被打0分退回来的。因为最基本的拟合运算都没有。说句不客气的,这种糊弄人的的手法,在骗大妈大爷买股票的那些股评家那里比较常见。

就是这样糟糕透顶的东西,我看到方舟子微博中那些据说是全国最理性的网友们,围着称赞说“理工宅又立新功”、“专业. 证据确凿 . ”、“这下韩2死了吧”等等等等。我很想高呼一声,尼玛,你们懂个屁。我也私下与这位自称不专业的@天昊若钦同学多有沟通,希望他能够承认自己的错误,不要用自己的不专业毁人清誉。可惜我得到的答复是,他还要继续努力,但事实上还是认为自己是对的。期间我们这些真正的理工科科研人员由于关注者寥寥无几,辟谣的声音非常微弱,没有多少人转发,根本没有造成任何声浪。我倒是很奇怪,方舟子先生推崇的科学精神到底在哪里?是他认定的科学和专业就等于科学和专业了吗?

第四幕

经过两周据说是彻夜苦读,@天昊若钦又给出了他第二个解法《对噪音环境中低声说话状态下的谈话内容鉴别的探索》(下简称为《探索》),这一次篇幅更加恢弘,把论文的八股文形式做得非常逼真。于是方舟子先生给出了更高的评价,他先后两次转发此文,第一次其实图片非常小,其中附图的说明非常模糊,在这种情况下方舟子评价到“技术流中这篇最强悍。”我实在不明白他到底是怎么看清楚的。大概是很多人抱怨看不清,于是方舟子又转发了第二次,这一次的评价更高,他说“这个看得清楚,文章可作为论文发表。”敢情第一次他真的没有看清楚啊。方先生论文打假无数,他就是这样推荐的可以发表的文章吗?那么这篇文章到底是什么水平呢?

我们抛却那些有的没的的原理介绍,这些东西只要歌词大意差不多就ok了。因为原理一般来说是抄书的,怎么会错呢?但是如何使用这些原理和方法,分析的角度正确与否,使用方法是否恰当,这就大有讲究了。为了不把大家绕糊涂了,我们挑其中几个一般人民群众都能搞明白的地方解释一下,大家就能知道这位同学是有多不专业了。特别注明我会很厚道地去列举那些绝对是非常关键的问题,是直接导致天同学做出错误分析的那些要点。

1.《探索》一文在第三页中写道“/an/的特征…还可以看到因发鼻音时软腭下垂而导致的F3上升”后面跟了一个引文,是《音系学基础》第46页。我无聊地把这一页打开看了看,原文说的是“发鼻化元音时软腭下垂,F3的频率就会升高”。原来这位同学根本没有搞明白什么叫做鼻化元音。鼻化元音(普通话中只在儿化音中出现)和以鼻辅音收尾的鼻韵母(如an或者ang)是不同的,但是他想当然地把它们认为成一个东西。以此把F3的走向作为判据的分析当然就是错误的。

2. ai在发音的时候,大家都知道是a 和 i的音的组合。所以在共振峰谱上可以看到明显的a共振峰向i共振峰移动的痕迹。但是鼻韵母发音时元音同后面的鼻辅音不是生硬地结合在一起,而是有机的统一体。发音时,逐渐由元音向鼻辅音过渡,逐渐增加鼻音色彩,最后形成鼻辅音。鼻韵母的发音不是以鼻辅音为主,而是以元音为主,元音清晰响亮,鼻辅音重在做出发音状态,发音不太明显。an与ai的共振峰谱如下所示:




很难想象一个连an纯净的共振峰谱都没有看过,把an当成是鼻化音的人能够知道an与ai在共振峰谱上的差别在哪里。这样的人能够做出合理的分析吗?他列举的那些所谓判据(比如F4这种不靠谱的频段也被加入)很多如果不是他自己的臆测,也极不适合高噪声的应用背景。

3. 《探索》一文使用共振峰包络线来取代共振峰谱的分析是很不合理的。共振峰是时间与频率的二维图像,能够全面看出声音频率随时间的变化;而包络线只是某个特定点的频谱。如果是一个单元音,因为没有什么变化,确实可以选取频谱稳定时某个特定的时间点来进行包络线的分析。但是对于双元音或者鼻韵母,这样孤立地拿两个时间点来分析是非常容易出错的,比如转化的时间点,噪声的干扰等等。就好比上面的两张图,如果仅仅拿两个时间点,以《探索》一文列出判据,十之八九是要把它们归为一个音的。

如此罗列下去,我可以说上十条八条。我自己做了Praat的分析,通过和合成的标准发音相比,可以基本证明这个音不是dai,但是我不敢百分之百地确认这个音就是dan。Dan与dai最显著的分别在于F1从起始到最后结束时下降的波形,这一点我通过合成的人声也做了验证。而且对于一个有大量噪声的音源,我们能做的其实非常有限。假如只是一种探索,我并不反对,但是如果连基本概念,基本方法都没有搞明白,以为读了几篇文献就可以胡乱运用起来,这种浮躁的治学态度实在是需要被批评的。

@天昊若钦还是一个本科学生,他爱好科学分析、愿意去一探究竟的精神一开始我个人在心里还是赞赏的。但他在我好言相劝之下依然故我,甚至我问他为何不对第一次的音调分析做出道歉与澄清时,他居然狡辩说第一次是共振峰分析,试问第一篇文章何来的共振峰这几个字。我认为这就已经不是治学能力高低,而是治学品德的问题,对他也不抱任何可以改进以及沟通的希望。

结语

某些人推崇的所谓的科学精神、技术流,其实无非是些图表控、姿势控而已。至于方法到底对不对,到底合理不合理,方法使用的边界在哪里,这些人一来未必真看懂了,二来也不想懂。科学精神沦落到成为被人随手操起的大棒,“科学精神”的内涵在这些人脑中早已消失殆尽,而只剩下这四个惨白的字。

方先生既然标榜自己的科学精神,却不问文章内容,只因结论符合自己的意思就拿来为己所用,攻讦自己的对手。这种精神与科学毫无关系,拜托请不要再提起了。在这一次韩寒攻坚战中,方先生屡次用错误的所谓理科分析来质疑韩寒。比如所转的有篇文章连统计学中的p值代表的含义是什么都不明白,另一篇文章连归一化都不知道就来做词频分析,还有非独立事件概率连乘的谬误。方老师的几篇此类分析都已经开了天窗,但从未听到方先生为此做过纠正,为此道过歉。我人微言轻,也不奢望方老师会注意到此文,但仅仅有卑微的一个愿望,就是:科学二字在我心中一直很神圣,希望方老师不要再使用所谓科学分析来打科学和理性的脸了。

著名公知@肖鹰_Tsinghua 曾经说过说" 【一个没有自省的民族,就是一个反智的民族;一群没有自我批评体质的公知,就是反智的生物。】我觉得说的非常好。现在转过这些伪科学分析文章的谁举手自我批评一下?

最后,我对方先生的某些做法不满,但我与他在很多科学问题上的立场碰巧是一致的。特此声明。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表