msgbartop
ChemHack.com中文版
msgbarbottom

17 十二 09 统计数字是不是拍脑袋出来的?87.53%

以下来自Solidot:
“87.53”这一数字近来走红网络:调查100个人,为什么会出现87.53%结果呢?这没什么奇怪,因为统计是编的,而编者可能数学没学好,他/她信守写了一个完全不合逻辑的数据,结果贻笑大方。如果真的是随机调查,那么:第一结果肯定应符合实际,第二它也会呈现出某种统计规律,比如本福特定律(0到9的使用概率呈从高到低分布,排在前面的使用频率最高,排在后面的使用频率越低)。今年6月举行的伊朗大选,美国的研究人员分析了各个选区候选人所得票数的个位数字,结果发现与本福特定律不符,于是断言大选舞弊的可能性超过九成五。
如果统计是编出来的(或者不是编出来的),结果也会呈现出规律,因为数字是有限的,比如统计常用xx.xx%的格式,共包含10000个数字,当样本量够大(超过10000)时,编出来的结果肯定会出现重复,这是抽屉原理所决定的。抽屉原理的简单表述是“若有n个笼子和n+1只鸽子,所有的鸽子都被关在鸽笼里,那么至少有一个笼子有至少2只鸽子”。87.53%并不神奇,鉴于gov.cn各网站已经积攒了足够多的统计数字,你可以搜索类似的数字(使用Google site:Gov.cn),比如17.53%(10,400个结果)、27.53%(55,700)、37.53%(7,030)、47.53%、57.53%、57.53%、67.53%、77.53%、87.53%(4,750)、97.53%;或者你也可以随手写一个如12.34%。如果有人足够闲,可以写个小程序,遍历全部xx.xx%在gov.cn的分布情况,看看是不是真的有特别被偏爱的数字,至少87.53%并不够神奇。

---------------以下为本人瞎写----------------

我不够闲,但是本着严肃的八卦精神,还是写了个小程序把数据爬了一下。为了体现数据的严肃性,爬了xx.yy%(0.01%~99.99%)在以下几个网站中返回的结果个数。(使用site:xxx.com作为搜索参数进行限定)

sites=c(“all”,”gov.cn”,”stats.gov.cn”,”163.com”,”sohu.com”,”xinhuanet.com”,”wikipedia.org”)

“gov.cn”,”stats.gov.cn”,”163.com”,”sohu.com”,”xinhuanet.com”,”wikipedia.org”

作为对照,又爬了Google收录的所有网站中返回的结果数。获取的全部数据我放置在了 http://chemhack.com/data/googleNums/ (逗号分割文本格式)。

注:Google本身并不搜索百分号(%),不管你搜索5.04还是5.04%,获得的结果都是一样的。

写了个R脚本,画张图,给个整体印象。x轴就是统计数字(xx.yy%),y轴是他们出现的次数。

All Img

情理之中,意料之外,统计局(stats.gov.cn)的图形是最漂亮的。不过其中奥秘之处还有待高人分解。

Reader's Comments

  1. |

    8753的事情略有耳闻,不过估计是一个抄一个,法不责众,最后都不承担责任..

  2. |

    赞科学精神!

  3. |

    路过顶贴 顺便做个推广 希望管理员别介意 谢谢

  4. |

    很有意思,谢老大精神值得学习。

  5. |

    [...] 前一段时间网上盛传gov喜欢用87.53%这个统计数字,那么这个传闻到底是不是真的呢,于是有位寂寞人士用java编了个程序到google上统计从 0.00%到99.99% site:gov.cn所能搜索到的网页总数。而我昨天接触到R的一个叫做RCurl的包,支持http等多种传输方式,于是我就用这个包做了程序做了和 他同样的工作–不过完全在R中完成,从数据的采集到整理统计,一气呵成,可见R扩展性的强大: [...]

Leave a Comment