“87.53”这一数字近来
走红网络:调查100个人,为什么会出现87.53%结果呢?这没什么奇怪,因为统计是编的,而编者可能数学没学好,他/她信守写了一个完全不合逻辑的数据,结果贻笑大方。
如果真的是随机调查,那么:第一结果肯定应符合实际,第二它也会呈现出某种统计规律,比如本福特定律(0到9的使用概率呈从高到低分布,排在前面的使用频率最高,排在后面的使用频率越低)。今年6月举行的伊朗大选,美国的研究人员分析了各个选区候选人所得票数的个位数字,结果发现与本福特定律不符,于是断言大选舞弊的可能性超过九成五。
如果统计是编出来的(或者不是编出来的),结果也会呈现出规律,因为数字是有限的,比如统计常用xx.xx%的格式,共包含10000个数字,当样本量够大(超过10000)时,编出来的结果肯定会出现重复,这是抽屉原理所决定的。抽屉原理的简单表述是“若有n个笼子和n+1只鸽子,所有的鸽子都被关在鸽笼里,那么至少有一个笼子有至少2只鸽子”。87.53%并不神奇,鉴于gov.cn各网站已经积攒了足够多的统计数字,你可以搜索类似的数字(使用Google site:Gov.cn),比如17.53%(10,400个结果)、27.53%(55,700)、37.53%(7,030)、47.53%、57.53%、57.53%、67.53%、77.53%、87.53%(4,750)、97.53%;或者你也可以随手写一个如12.34%。如果有人足够闲,可以写个小程序,遍历全部xx.xx%在gov.cn的分布情况,看看是不是真的有特别被偏爱的数字,至少87.53%并不够神奇。
---------------以下为本人瞎写----------------
我不够闲,但是本着严肃的八卦精神,还是写了个小程序把数据爬了一下。为了体现数据的严肃性,爬了xx.yy%(0.01%~99.99%)在以下几个网站中返回的结果个数。(使用site:xxx.com作为搜索参数进行限定)
sites=c(“all”,”gov.cn”,”stats.gov.cn”,”163.com”,”sohu.com”,”xinhuanet.com”,”wikipedia.org”)
“gov.cn”,”stats.gov.cn”,”163.com”,”sohu.com”,”xinhuanet.com”,”wikipedia.org”
作为对照,又爬了Google收录的所有网站中返回的结果数。获取的全部数据我放置在了 http://chemhack.com/data/googleNums/ (逗号分割文本格式)。
注:Google本身并不搜索百分号(%),不管你搜索5.04还是5.04%,获得的结果都是一样的。
写了个R脚本,画张图,给个整体印象。x轴就是统计数字(xx.yy%),y轴是他们出现的次数。

情理之中,意料之外,统计局(stats.gov.cn)的图形是最漂亮的。不过其中奥秘之处还有待高人分解。