(本来想聊一下 “疫情最严重的郡里, 93%支持特朗普” 这条新闻。但那就不是短评了, 所以放在下一回)
今天想来聊一下最近看到的关于本福特定律的新闻。重点是介绍些大家不熟悉的知识。最大的目的是让你知道新闻里那个其实只是简单版的本福特定律。
路透社的结论显然是对的, 拿本福特定律去测试某个地区的投票数的分布显然是个非常低级的错误。自从10多年前,我从 我办公室的旁边的饮水机的对面那个教授 那里听说了这个定律之后,几乎每年的概率课我都会介绍一下本福特定律。 它不是数学定理,所以不能证明,但它本身很有趣,非常优美,既然你都听说了这一个名字,不妨来见识一下它的美妙之处。
简单回顾一下新闻,某日网上有人质疑拜登在密尔沃基这个地区的476个投票点的得票数不符合本福特分布。那什么是本福特分布,它是说这些数(这476个数)里应该有30%的数的首位是1。也就是476个数里有大约150个数的首位是1。 有17.5%的数的首位是2.......如果你觉得很奇怪,这是怎么回事呢?那恭喜,你的感觉是对的。这476个数就不应该依照本福特分布。
简单的说,虽然我们不确定生活中怎么样的一堆数据一定符合本福特分布。但如果它真的符合的话,它一定满足下面这个条件 (并还有很多其他条件):
如果这个条件都不符合,那一定和本福特没关系。(如果是100倍,那可能像本福特,但也不太像)回过来看新闻里的密尔沃基这个地区的476个投票点的得票数。拜登一共得了不到32万票,也就是每个投票点大致600张票。而且这个地区是深蓝区(拜登特别受欢迎的地区),所以基本上每个投票点他都有至少上百张票。这476个数里最大最小数的比可能只有10左右,那当然不符合本福特。那特朗普为什么相对符合呢,因为深蓝区啊,有些投票点可能他只拿到几张或几十张选票,所以就有机会比较像本福特。其他列举的什么芝加哥地区,宾州阿勒格尼地区(也就是匹兹堡)都是这样的一种情况, 那当然不符合本福特。
那为什么说本福特很有有趣。 因我们生活中的很多数据真的很好的吻合了本福特定律,
比如全世界各国的人口数, 就线%左右的国家的人口数首位是1 (比如中国,印度,尼日利亚,孟加拉,俄罗斯,墨西哥,日本,埃塞俄比亚。。。)
全宇宙的智能生物坐到一起开会,假设有上百亿个文明在我们的宇宙中, 每个文明汇报一下他们的所能利用的能源的总量 (类似科幻小说里检查一级文明, 二级文明。。。)。这样不是有上百亿个数字么。大大小小跨越了可能十几,二十个数量级。 我们用科学计数法来写这些数字, 比如
也就是写成 a 乘以 10的b次方的形式。 我们暂时只看a的那部分,因为这里a 总是在1 到9.9999...之间, 所以现在我们有了上百亿个这样不小于1,但小于10的数。
你作为工作人员(闲着没事)做了一下统计,你发现(在这上百亿的1到10之间的数)之中大于1.5 小于1.6 的数占了2.803%左右。 这时你的领导来了,说这一些数据有问题,能量么,不能用卡路里做单位,太俗,要用焦耳,显得高大上。 好吧, 领导的话不理解的也要执行,你重新换算了一下,1焦耳等于4.2卡路里, 再把这上百亿个数每个都写成科学计数法,再保留a部分。 你突然想看看这次有多少数大于1.5 小于1.6呢。结果。。。你可能已猜到了, 还 2.803%左右。
于是你开始对比其他的数字对,2.8 到3.5, 5.3到7.9. 然后你开始发现对于任意的两个数 c 和d,只要他们在1到10之间, 不管是焦耳还是卡路里,或是其他某个文明的能量单位,按上面的步骤计算, 最后(这上百亿个数的a部分)在 c 和 d 之间的数的比例一定会非常非常接近
我们在新闻里通常看到的简化版,比如首位数是1的情况,实际上的意思就是指这个数的a部分是在1到2之间,用上面的公式,log_10(2/1)=30.4% 左右。也就是前面提到的30%左右。
这里“不管用什么能量单位”比较抽象,其实数学的意思的, 这上百亿个数一起乘以一个固定的数(随便什么数),再做科学计数法,再保留a部分,你会惊奇的发现,诶, 和原来的分布竟然是一模一样的。 再乘再写再保留,还是一模一样。 。。。。这才是本福特定律的真面目。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
与中坚力量共成长,2024建信信托艺术大奖评委会特别奖获奖艺术家凌海鹏
5月23日,河南郑州(发布)。高三女孩提前保送至山东大学,语文能考130多分,作文满分60,能得57...
5月23日,河南郑州(发布)。高三“数学脑”女孩本硕连读,保送至上海交大。保送生选拔考试是全校唯一的...
E-mail: service@yynk.com
固话: 0769-88566677
友情链接:爱体育ios下载 | 爱体育官网ios下载 | 爱体育ios下载地址
扫码加微信