一路 BBS

 找回密码
 注册
搜索
查看: 1258|回复: 0
打印 上一主题 下一主题

语言学分析:韩寒与韩仁均作品区分度高达95%

[复制链接]
跳转到指定楼层
楼主
发表于 3-8-2012 17:51:57 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
标签: 韩寒 《四世同堂》 区分度 《三重门》 代笔 司法语言学       
一  元首的愤怒
最近两月,方舟子言辞凿凿轰轰烈烈地指控韩寒早期作品是代笔之作,核心是韩寒的成名作《三重门》和《杯中窥人》,矛头直指韩寒父亲韩仁均。一开始本支部就明确指出,方舟子这种所谓的质疑是捕风捉影的舟子疑邻,方舟子这种所谓的文本分析是无知臆想的胡乱猜疑。然而,这么弱智可笑的分析判断却有许多人信以为真,从而爆发了一场空前的科学文革的理性魔怔。关于方舟子发动的这场网络文革,近两个月本支书写了一千多条微博,屈指一算,该有十来万字,抵《一座城池》或《他的国》了。Ich habe in Wasser geschrieben und in den Wind gesprochen(都写在水里说在风中了),元首出离了愤怒。http://v.youku.com/v_show/id_XMzUzMDIyODc2.html

二  韩寒的指纹
复旦大学苏杰博士最近对《三重门》进行了语言学分析,并首次提出了专门区分韩仁均的韩寒的文字指纹(Idiolect)- “谁知-光-这人-没想到-不幸”(http://www.weibo.com/u/2154631030),这为终结韩寒代笔的喧嚣提供了一个税利的科学武器,也是我制造这颗原子弹的核原料。
苏杰通过比对《三重门》和韩仁均作品所得出的个人用语偏好,排除了《三重门》是韩仁均代笔。苏杰所用的语言学分析原理无疑是正确的,得出的结论也是很有说服力的。但苏杰提出的韩寒文字指纹是从《三重门》中提取的,这有先射箭后画靶的凑数据和循环论证之嫌。为彻底消除这个疑惑, 本书记重作冯妇再射技术流,用此指纹对《三重门》以外的韩寒的另外六部作品进行了语言学分析。此外,还顺便对第三方作家的三部长篇小说进行了类似的分析。

三  分析的材料
在本文所用的分析材料中, 《三重门》和韩仁均作品的分析结果来自苏杰(http://www.weibo.com/u/2154631030?from=profile&wvr=4),韩寒的7本书是在网上所能找到的韩寒的全部完整长篇作品。第三方作家作品例子是从挑战者@中国商军的例子中(http://blog.sina.com.cn/s/blog_a28d244c0100y2bz.html)随机取样的。简言之,本文所用的全部分析资料都是网上可以免费下载的,即任何人都可以核对验证。重要的是,本文所用的全部分析资料对于韩寒文字指纹-谁知-光-这人-没想到-不幸- 完全是随机抽样,也是抽样的全部。
四  分析的方法
4.1  科学原理:司法语言学(Forensic Linguistics)。参见苏杰的微博:(http://www.weibo.com/u/2154631030)。
4.2  核心技术:韩寒文学指纹“谁知-光-这人-没想到-不幸”,由苏杰发现和发明。参见苏杰的微博:(http://www.weibo.com/u/2154631030)。
4.3区分度计算方法:
(A)韩寒 vs韩仁均的每个词的区分度加权系数定义如下:正反类:0.3,“谁知”;有无类:0.2, “光”,“这人”,“不幸”;多少类:0.1,“没想到”。5个词的加权系数总和为1。
(B)韩寒自身作品比对,因5个词都是多少类,故每个词区分度加权系数相等均为0.2,总和为1。
(C)比对时,若两者频率差数值较小时,当无差异处理,区分度按0计算;频率差数值中等时,区分度按该词的加权系数的一半计算;频率差数值较大时,区分度按该词的加权系数计算。频率差数值是相对差值不是绝对差值。  所以,若5个指纹词的频率差都比较大,则两部比对作品之间的区分度是100%。
五  数据的列表



六 数据的讨论
表中的”频率“为16万字(和《三重门》等长)中该词出现的次数。
苏杰提出的韩寒的文字指纹-谁知-光-这人-没想到-不幸 不仅很好地(95%区分度)分辨了韩寒和韩仁均的作品。而且也良好地(80%左右)分辨他们的作品与第三方的。第三方与韩寒的区分度和与韩仁均的基本相等(80%左右),且位于韩寒对韩仁均的区分度(95%)和韩寒七部作品之间的区分度(30%)之间。需要指出的是,韩寒的文字指纹是仅为了区别韩仁均的作品的专门设计,若不能有效地区别第三方的作品,也属正常;若能,则是喜出望外。
苏杰提出的韩寒的文字指纹,是从韩寒的一部作品-《三重门》和韩仁均80%的作品(11万字)中提取的。如果说此指纹对《三重门》而言,指纹提取者有先射箭后画靶的凑数据之嫌疑,那么《三重门》之外的六部韩寒的作品和第三方的三部作品对于该指纹完全是随机抽样,也是抽样的全部。这九个随机抽样一致验证了该指纹良好的敏感性、稳定性和有效性。
《他的国》是韩寒7部作品中唯一一部与《三重门》区分度较大的作品(70%),这可能是这部近作和以前的作品语言风格差别较大,此指纹对其敏感度不是很好。但比起韩寒和韩仁均之间的平均区分度(95%)还是有显著差异。其实即使没有显著差异,也不能否认这个语言分析方法的有效性,因为假设检验中去真纳伪的两类错误是概率统计分析无法根除的误差。任何基于概率的统计分析方法都不可能保证分析结果有100%的确定性。严格地说,太阳明天从东方升起也不是100%确定性的事件,但若因此就今晚在世界末日之前几小时吃一瓶安眠药自杀那就迂腐得有病了。
七 分析的结论
比对所能获得的大量的也是所有的韩寒和韩仁均的作品,两者平均区分度高达95%,而韩寒作品之间的平均区分度只有30%,两者差别显著,即包括《三重门》在内的韩寒绝大部分作品和韩仁均的作品的差异是显著的。这说明:包括《三重门》在内的韩寒绝大部分作品肯定(beyond a reasonable doubt)不是韩仁均代笔的!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表