一路 BBS

 找回密码
 注册
搜索
查看: 1044|回复: 8
打印 上一主题 下一主题

用数据说话 看看Google是如何被陷害的

[复制链接]
跳转到指定楼层
楼主
发表于 6-24-2009 20:47:51 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本文通过一路BBS站telnet客户端发布

近日,央视爆出谷歌搜索出现大量黄色词条的信息。一个引起舆论强烈反响的例子是,在谷歌搜索“儿子”竟然也能搜索到黄色词条。那么,事情是怎么发生的呢?
下面我们来看谷歌是如何被陷害的:众所周知,谷歌关键词提醒是计算机自动摘取最近最流行的关键词来生成的。于是某些人利用这一点,大量在谷歌上搜索黄色词汇,陷害了谷歌。
在谷歌搜索趋势图,以及一些第三方的统计数据中,可以看到:
在央视曝光谷歌之前7天:
1.有人故意在谷歌大量搜索黄色词汇,使单日黄色词汇搜索量同比猛增 5950% ,单月
搜索总量与上月相比增幅达数千倍
2.这些搜索量100%来自北京
3.这些搜索量几乎呈线性急剧上升,理论上这些瞬时搜索量应该服从正态分布并是突发性
的,换句话说,这是有人故意为之。
[<p align="center">[<a target=_blank href="http://chinaz.com/upimg/userup/0906/2511562M351.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/2511562M351.jpg" border="0" onload="con_resize(this);">
[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/2511562M351.jpg
[</div>
[</p>以下再附上几张类似图表,请注意峰值全部在6月17日,即CCTV节目(6月18日)播出的前一天。
(全年统计)
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/2511563X306.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/2511563X306.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/2511563X306.jpg
[</div>
[</p>
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/251156493L2.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/251156493L2.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/251156493L2.jpg
[</div>
[</p>
(本月统计)
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/25115F3T03.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/25115F3T03.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/25115F3T03.jpg
[</div>
[</p>
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/25115H44b6.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/25115H44b6.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/25115H44b6.jpg
[</div>
[</p>
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/25115JA612.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/25115JA612.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/25115JA612.jpg
[</div>

[</p>
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/25115P462L.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/25115P462L.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/25115P462L.jpg
[</div>
[</p>
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/25115Q42624.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/25115Q42624.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/25115Q42624.jpg
[</div>
[</p>
为做对比,说明搜索引擎的统计应该是什么样子,我来附上一张对关键词“天气预报”的搜索统计图表,从图中我们可以看到,全年搜索量应该大致呈均匀分布,考虑到搜索引擎的普及使用,会有一个逐渐升高的趋势,但绝不可能出现在某个月份呈直线上升的情况。
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/25115RC418.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/25115RC418.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/25115RC418.jpg
[</div>
[</p>
那么,还有一种可能,是不是北京的人们在6月份,由于夏天到来,荷尔蒙分泌过多,导致对“儿子母亲不正当关系”这样的黄色词汇搜索过多呢?我们且来看这张对关键词“日本女优”的搜索统计图表,
[<p align="center">
[<a target=_blank href="http://chinaz.com/upimg/userup/0906/25115S92S2.jpg" target="_blank">[<img src="http://chinaz.com/upimg/userup/0906/25115S92S2.jpg" border="0" onload="con_resize(this);">[</a>
[<div style="display: none;">外部图片: http://chinaz.com/upimg/userup/0906/25115S92S2.jpg
[</div>
[</p>
可以看到,对关键词“日本女优”的搜索量全年大致呈均匀分布,甚至在近期有下降的趋势。那么,这种近期全民荷尔蒙分泌过多的情况也应该被排除了。并不是说对所有黄色信息都有大量的搜索需求。搜索数量呈急剧上升的关键词,只局限在媒体大书特书的几个词汇之中,特别要注意的是其急剧上升阶段和峰值都在媒体报道之前,显然,这不是自然的结果,那么,答案是什么呢?是谁让谷歌如此低俗?
(文/cksle,原文地址:[<a target=_blank href="http://blog.sina.com.cn/s/blog_60676a3f0100e0xk.html">http://blog.sina.com.cn/s/blog_60676a3f0100e0xk.html[</a>)

--
回复

使用道具 举报

沙发
发表于 6-24-2009 20:50:32 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布

这个技术手段其实不高明的
因为证据太明显了
我以前的公司屏蔽自己公司的负面新闻的时候,也是这种手段
两三天就可以弄得很干净了

老实说,我很怀疑他们是不是有更高明的手段

【 在 bridged (断桥:要自强) 的大作中提到: 】
: 近日,央视爆出谷歌搜索出现大量黄色词条的信息。一个引起舆论强烈反响的例子是,在谷歌搜索“儿子”竟然也能搜索到黄色词条。那么,事情是怎么发生的呢?
: 下面我们来看谷歌是如何被陷害的:众所周知,谷歌关键词提醒是计算机自动摘取最近最流行的关键词来生成的。于是某些人利用这一点,大量在谷歌上搜索黄色词汇,陷害了谷歌。
: 在谷歌搜索趋势图,以及一些第三方的统计数据中,可以看到:
: ...................

--
回复 支持 反对

使用道具 举报

板凳
 楼主| 发表于 6-24-2009 21:02:55 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布


这事本来就很有疑问,因为搜“母子乱伦”可能,搜“儿子和母亲不正当关系”不像是网民的搜索习惯,怎么可能成为热门搜索,此文一出感觉符合了我这个猜想,我上trend看了,数据也确实如此。

参见:
http://www.google.com/trends?q=%E5%84%BF%E5%AD%90%E5%92%8C%E6%AF%8D%E4%BA%B2%E4%B8%8D%E6%AD%A3%E5%BD%93%E5%85%B3%E7%B3%BB&ctab=0&geo=cn&geor=all&date=mtd&sort=0
儿子和母亲不正当关系的搜索跟踪结果,发现长期无人搜索,只是6月10-17突然暴增,而且全是北京的。

http://www.google.com/trends?q=%E6%AF%8D%E5%AD%90%E4%B9%B1%E4%BC%A6&ctab=0&geo=cn&geor=all&date=mtd&sort=0

母子乱伦的搜索跟踪结果,正常分布。

干这事的很高明,起码是知道Google trends的一些基本规律,绝非网络菜鸟。和那个boobs一样,天哪,这英语水平。。。


【 在 Julius (周仓) 的大作中提到: 】
: 这个技术手段其实不高明的
: 因为证据太明显了
: 我以前的公司屏蔽自己公司的负面新闻的时候,也是这种手段
: 两三天就可以弄得很干净了
: 老实说,我很怀疑他们是不是有更高明的手段
: 【 在 bridged (断桥:要自强) 的大作中提到: 】
: : 近日,央视爆出谷歌搜索出现大量黄色词条的信息。一个引起舆论强烈反响的例子是,在谷歌搜索“儿子”竟然也能搜索到黄色词条。那么,事情是怎么发生的呢?
: ...................

--


※ 修改:.bridged 于 Jun 25 01:03:31 修改本文.[FROM: 71.230.0.0]


※ 修改:.bridged 于 Jun 25 01:07:33 修改本文.[FROM: 71.230.0.0]

※ 来源:.一路BBS yilubbs.com.[FROM: 71.230.0.0]

※ 修改:.bridged 于 Jun 25 01:09:33 修改本文.[FROM: 71.230.0.0]
回复 支持 反对

使用道具 举报

4#
发表于 6-24-2009 22:43:05 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布

和同学甲的对话:

同学甲:
“3.这些搜索量上升是完全线性的,理论上这些瞬时搜索量应该服从正态分布并是突发性的,换句话说,这是有人故意为之。”
这句话我完全没看懂,正常的话应该是一条上下起伏的曲线吧,如果是五毛党,我比较倾向于看到一个突然的大上升,但是也有一些小起伏,为啥是线性的啊……难道五毛党今天完成10,明天20,后天30,为了制造出一个完美的线性这么来搜索的么……

dikaios:
我给个假说吧,受“先射箭后画靶心”的joke启发
首先,焦点访谈必须等到“儿子母亲不正当关系”在“儿子”联想词里排到第一位以后才能炮打孤狗,所以节目的播出日期要待五毛的工作效果而定。五毛们第一天成绩不明显啊,关键词排行没上去,所以第二天加人了,或是加工作量,还不行,第三天再加……一直加到可以播节目了为止。
又因为往这个项目上加人手或者加工作量是以其他项目的“损失”为代价的(比如对天涯或者其他论坛的投入相应减少),所以领导每天对加人加量都有个预估值或者容忍值,而且这个值基本是不变的——比如每天早晨布置工作的时候都会觉得“昨天已经有那么多人了,今天只要再多派上两个人应该就够了吧”,结果每天加两个,每天加两个,就这么线性起来了。
另外,google对同台机器搜索同一关键词的数据统计是有短时限制的(Our system also eliminates repeated queries from a single user over a short period of time, so that the level of interest isn't artificially impacted by these type of queries),这就保证了,假设五毛在“上班”时间里不间断地搜索同一个词,则他们之间在操作熟练度、偷懒度上的个体差异不会导致最后个体贡献上的差别,从而人手的线性增加可以获得搜索量的完美线性增长(=人手×上班时间/允许重复统计的时间间隔)


【 在 bridged 的大作中提到: 】
: 近日,央视爆出谷歌搜索出现大量黄色词条的信息。一个引起舆论强烈反响的例子是,在谷歌搜索“儿子”竟然也能搜索到黄色词条。那么,事情是怎么发生的呢?
: 下面我们来看谷歌是如何被陷害的:众所周知,谷歌关键词提醒是计算机自动摘取最近最流行的关键词来生成的。于是某些人利用这一点,大量在谷歌上搜索黄色词汇,陷害了谷歌。
: (以下引言省略...)

--
回复 支持 反对

使用道具 举报

5#
发表于 6-24-2009 22:48:16 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布

和同学乙的对话:

同学乙:
说实话,从纯学术的角度来讲,我觉得这个结果太完美了,太像做出来的了。。。
就没人觉得那个线性结果很诡异吗。。。而且我也实在不太相信之前的数据为0的统计。。。
人民群众是不是本就更容易相信自己秉持的观念得到验证嘛
真相这种东西我从来就不觉得就具有那样神话般的意义
尤其是所谓大众的真相...

dikaios:
0表示搜索量太少无法在图表中显示。你觉得这个结果是谁“做出来的”,google吗?还有,才发现你这么cynical哈……

同学乙:
一点点吧,相比你坚信此事是政府所谓,我觉得我至少还中庸的多,呵呵
你就不觉得存在有人为了应和网民心态做出这个结果的可能吗,呵呵

dikaios:
我不否认有这种可能啊,但这根本不是问题关键所在——
因为即便承认“存在不同可能性”,也还存在“各种可能性概率大小”的问题,以我们政府一贯荒诞的行径来看,此事是五毛所为的概率显然要远高于其他人所为的概率;
再退一步,就算你认为“有人为了应和网民心态做出这个结果”的概率不比五毛党的概率低,仍然存在“如果某种特定可能为真,对我们来说意味着什么?”这样一个更为根本的问题:如果这个结果是有人为了应和网民心态而造出来的,那么这充其量不过是一次谣传与泄愤,对网民的利益没有任何损害;但如果是政府公权力所为,便是对公民基本权利的有预谋的侵犯,性质大大不同了。手握公权力的人,永远值得我们更加的警惕,这不是针对某个特定的政府,而是各国皆然的事情。从法律上说,“无罪推定”本来就只对个体而不是对公权力适用,后者理所应当是要被监督和质疑的。
你的说法让我想起邓玉娇杀官的时候,也颇有些自称“中庸”的人跳出来说“你们凭什么坚信邓贵大在施暴?你们凭什么坚信邓玉娇不是抽疯?我们要公平嘛,事实没有清楚之前不要妄下评论嘛”——这种自以为在个体与公权力之间“一碗水端平”的态度,很抱歉,不叫中庸,叫乡愿
又,所以这里涉及的不是“人民群众更容易相信自己秉持的观念得到验证”的问题——人民群众的反应,不是出于盲目的观念自我催眠,恰恰相反,是由于嗅到了这个事件中某种可能性所蕴含的巨大风险而自发启动了自我保护机制。恰恰不是非理性。恰恰是理性。

同学乙:
还是学术,看到一个现象,解释起来总是容易的,而且通常会走向最容易解释的那个方向

dikaios:
要说学术的话,有个词叫“观察渗透理论”(the theory-ladenness of observation),说的是我们对现象的观察和解释永远受到已有的”背景理论“的影响。通俗点说,就是屁股决定脑袋
所以对现象的解释“通常会走向最容易解释的那个方向”这种说法是没有意义的,因为每个人的背景理论不同,他们所以为的“最容易解释的方向”自然也不同
“共匪”派眼里“最容易解释的方向”自然是政府又在玩拙劣的阳谋,可“党妈”派眼里“最容易解释的方向”却是孤狗心怀怨望谤讪朝廷。不是东风压倒西风,就是西风压倒东风,所谓“中立”的立场,是不可能有的


【 在 bridged 的大作中提到: 】
: 近日,央视爆出谷歌搜索出现大量黄色词条的信息。一个引起舆论强烈反响的例子是,在谷歌搜索“儿子”竟然也能搜索到黄色词条。那么,事情是怎么发生的呢?
: 下面我们来看谷歌是如何被陷害的:众所周知,谷歌关键词提醒是计算机自动摘取最近最流行的关键词来生成的。于是某些人利用这一点,大量在谷歌上搜索黄色词汇,陷害了谷歌。
: (以下引言省略...)

--
回复 支持 反对

使用道具 举报

6#
发表于 6-25-2009 06:55:44 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布


不是这样的,线性是为了制造出每天上升的数据,只有一周里每天都上升一定比例的,才会计入周热门关键词,一次性点太多是没用的,因此线性上升是唯一能在最短时间内实现目的的方法。这个人必然是非常熟悉trends的人。

事情最后很简单,找个Google的员工问问搜索的那个ip反查地址就行了。当然这个权限也许只有总部才有,查到了也未必会说出来。

【 在 dikaios (尋路得路 惡衣惡食) 的大作中提到: 】
: 和同学甲的对话:
: 同学甲:
: “3.这些搜索量上升是完全线性的,理论上这些瞬时搜索量应该服从正态分布并是突发性的,换句话说,这是有人故意为之。”
: 这句话我完全没看懂,正常的话应该是一条上下起伏的曲线吧,如果是五毛党,我比较倾向于看到一个突然的大上升,但是也有一些小起伏,为啥是线性的啊……难道五毛党今天完成10,明天20,后天30,为了制造出一个完美的线性这么来搜索的么……
: ...................

--

※ 来源:.一路BBS yilubbs.com.[FROM: 130.203.0.0]

※ 修改:.bdzs 于 Jun 25 10:57:15 修改本文.[FROM: 130.203.0.0]
回复 支持 反对

使用道具 举报

7#
发表于 6-25-2009 08:09:35 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布


发信人: tongban (铜板), 信区: ITExpress
标  题: 没配置insights的看一下这里“儿子母亲不正当关系”
发信站: 水木社区 (Fri Jun 26 00:07:45 2009), 站内

关键词:儿子母亲不正当关系

6月10号之前是0搜索量,然后逐步上升,到6月17号峰值,然后逐步下降

http://www.google.com/insights/search/#q=%E5%84%BF%E5%AD%90%E6%AF%8D%E4%BA%B2%E4
%B8%8D%E6%AD%A3%E5%BD%93%E5%85%B3%E7%B3%BB&date=today%201-m&cmpt=q


关键词:高也

6月18号之前是零搜索量,CCTV播出后,19号大家人肉,出现峰值,之后传播成为热词
http://www.google.com/insights/search/#q=%E9%AB%98%E4%B9%9F&date=today%201-m&cmp
t=q



【 在 bdzs (bdzs) 的大作中提到: 】
: 不是这样的,线性是为了制造出每天上升的数据,只有一周里每天都上升一定比例的,才会计入周热门关键词,一次性点太多是没用的,因此线性上升是唯一能在最短时间内实现目的的方法。这个人必然是非常熟悉trends的人。
: 事情最后很简单,找个Google的员工问问搜索的那个ip反查地址就行了。当然这个权限也许只有总部才有,查到了也未必会说出来。
: ...................

--
回复 支持 反对

使用道具 举报

8#
发表于 6-26-2009 04:01:01 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布

其实不是线性上升。这是对 google trends 图表的误解。
google trends 是简化的统计数据,比如,统计的间隔时间如果是3天,那么第二天的数据就没有,而显示为第一天到第三天数据的一条折线。

【 在 dikaios 的大作中提到: 】
: 和同学乙的对话:
: 同学乙:
: 说实话,从纯学术的角度来讲,我觉得这个结果太完美了,太像做出来的了。。。
: 就没人觉得那个线性结果很诡异吗。。。而且我也实在不太相信之前的数据为0的统计。。。
: 人民群众是不是本就更容易相信自己秉持的观念得到验证
: (以下引言省略...)

--
回复 支持 反对

使用道具 举报

9#
发表于 6-27-2009 04:54:42 | 只看该作者

Re: 用数据说话 看看Google是如何被陷害的

本文通过一路BBS站telnet客户端发布

不用说别的,大家可以真的搜索一下“儿子母亲不正当关系”,说实话搜不出什么乱伦色文来的。没法想象一个其实没法给出什么实质性结果的搜索会在联想词的第一位出现。

【 在 lihlii 的大作中提到: 】
: 其实不是线性上升。这是对 google trends 图表的误解。
: google trends 是简化的统计数据,比如,统计的间隔时间如果是3天,那么第二天的数据就没有,而显示为第一天到第三天数据的一条折线。
: 【 在 dikaios 的大作中提到: 】
: : 和同学乙的对话:
: (以下引言省略...)

--
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表