|
Re: 用数据说话 看看Google是如何被陷害的
本文通过一路BBS站telnet客户端发布
和同学甲的对话:
同学甲:
“3.这些搜索量上升是完全线性的,理论上这些瞬时搜索量应该服从正态分布并是突发性的,换句话说,这是有人故意为之。”
这句话我完全没看懂,正常的话应该是一条上下起伏的曲线吧,如果是五毛党,我比较倾向于看到一个突然的大上升,但是也有一些小起伏,为啥是线性的啊……难道五毛党今天完成10,明天20,后天30,为了制造出一个完美的线性这么来搜索的么……
dikaios:
我给个假说吧,受“先射箭后画靶心”的joke启发
首先,焦点访谈必须等到“儿子母亲不正当关系”在“儿子”联想词里排到第一位以后才能炮打孤狗,所以节目的播出日期要待五毛的工作效果而定。五毛们第一天成绩不明显啊,关键词排行没上去,所以第二天加人了,或是加工作量,还不行,第三天再加……一直加到可以播节目了为止。
又因为往这个项目上加人手或者加工作量是以其他项目的“损失”为代价的(比如对天涯或者其他论坛的投入相应减少),所以领导每天对加人加量都有个预估值或者容忍值,而且这个值基本是不变的——比如每天早晨布置工作的时候都会觉得“昨天已经有那么多人了,今天只要再多派上两个人应该就够了吧”,结果每天加两个,每天加两个,就这么线性起来了。
另外,google对同台机器搜索同一关键词的数据统计是有短时限制的(Our system also eliminates repeated queries from a single user over a short period of time, so that the level of interest isn't artificially impacted by these type of queries),这就保证了,假设五毛在“上班”时间里不间断地搜索同一个词,则他们之间在操作熟练度、偷懒度上的个体差异不会导致最后个体贡献上的差别,从而人手的线性增加可以获得搜索量的完美线性增长(=人手×上班时间/允许重复统计的时间间隔)
【 在 bridged 的大作中提到: 】
: 近日,央视爆出谷歌搜索出现大量黄色词条的信息。一个引起舆论强烈反响的例子是,在谷歌搜索“儿子”竟然也能搜索到黄色词条。那么,事情是怎么发生的呢?
: 下面我们来看谷歌是如何被陷害的:众所周知,谷歌关键词提醒是计算机自动摘取最近最流行的关键词来生成的。于是某些人利用这一点,大量在谷歌上搜索黄色词汇,陷害了谷歌。
: (以下引言省略...)
--
|
|