大数定律简单例子(大数定理简单的说是什么意思)

2024-04-04 15:48:55 综合百科 投稿:口天吴
最佳答案大数定律表表明:事件发生的频率依概率收敛于事件的概率p,这个定理以严格的数学形式表达了频率的稳定性。即当n很大时,事件发生的频率于概率有较大偏差的可能性很小。由实际推断原理,在实际应用中,当试验次数很大时,便可以用事件发生的频率来代替事件的概率。 终于有人把

大数定理简单的说是什么意思

1

大数定律表表明:事件发生的频率依概率收敛于事件的概率p,这个定理以严格的数学形式表达了频率的稳定性。即当n很大时,事件发生的频率于概率有较大偏差的可能性很小。由实际推断原理,在实际应用中,当试验次数很大时,便可以用事件发生的频率来代替事件的概率。

终于有人把大数定律讲明白了

2

导读:在一些情况下,概率是由频率推导而来的,要得到可信的概率,就要大量重复地试验。而且,重复试验的次数越多,结论就越让人信服。那么,为何人们直觉上更愿意相信从大数据中得到的统计结果,而不是从小数据中得到的经验呢?

作者:徐晟

来源:华章科技

01 大数定律的概念和意义

要解释这一现象,统计学中有一个非常重要的理论——大数定律。该定律表明,样本数量越多,结论就越接近真实的概率分布。也就是说,在重复的试验中,随着试验次数不断增加,事件发生的频率会越来越趋于一个稳定的数值,即它的概率。

大数定律最早是由数学家伯努利在他的《推测术》中提出的。该书由4个部分组成,前3部分主要是对古典概率的系统性阐述,第4部分是这本书的精华,主要探讨了概率论在社会、道德和经济领域的应用,其中就提到了大数定律以及它的证明过程。

只有基于大量的统计数据,才能得到更为准确的统计结果。这个结论虽然直觉上好理解,但以前没有人证明过它。

伯努利的伟大之处就在于,他用数学严格证明和解释了这个直觉经验:只要通过大量试验,人们观察得到的频率和实际的概率之间的差距就会越来越小,而且只要重复次数足够多,这个误差就能够小于任意小的正数。这也是概率论历史上第一个极限定理。

由伯努利首先研究并推广的大数定律,已经成为整个统计学的基础。随后经过几百年的发展,大数定律的理论体系被不断完善,切比雪夫、辛钦、泊松、马尔可夫等一系列大数定理被提出和证明,它们都是基于大数定律的某种数学表达。

不过,人们仍然对伯努利大数定律的哲学意义给出了很高的评价。伯努利自己在《推测术》的最后说道:如果我们能把一切事件永恒地观察下去,那么我们终将发现,世间的一切事物都受到因果律的支配,而我们注定会在种种极其杂乱的现象中认识到某种必然。

大数定律告诉我们,随机事件重复发生后,其可能性结果会趋于一种稳定的状态。它揭示了随机事件发生频率的长期稳定性,体现了偶然之中包含的一种必然。

大数定律已经广泛应用到宏观经济学、量子热力学、空气动力学等各个领域。

生活中很多地方也能看到它的身影。比如你想换部手机,于是在网上搜索手机的相关信息,突然发现一个人对某品牌型号的手机赞不绝口,这时你该怎么做?轻易地相信对方?或选择再看看别人的评价?大数定律的建议是,如果评论人数很少,这些评论就不能很好地反映商品的真实价值。

那些在网站上排名靠前、评价极高的商品、视频、资讯,可能只是因为有少数人给出了极高的分数,或是商业广告推荐。它们仅仅是个案。只有参考大部分人的评价,才更接近真实情况,数据结论才更有价值。

02 蒙特卡洛方法

今天被人们经常提及和用到的蒙特卡洛方法,其理论依据就是大数定律。

蒙特卡洛方法是由数学家冯·诺伊曼、乌拉姆等人最早发明的,也称统计模拟方法。蒙特卡洛不是人名,而是摩纳哥的一座城市,它是世界上著名的赌城。蒙特卡洛方法是一种基于概率的计算方法,它将求解问题和概率模型关联起来,不断从总体中抽取随机样本,通过模拟和计算得到近似解。此方法随着计算机技术的发展被迅速普及。

蒙特卡洛方法的原理很朴实,简单来说就是不断抽样,逐渐逼近。比如要计算圆周率π,可以先让计算机模拟一个正方形和里面的一个圆,如图1-2所示。

▲图1-2 用蒙特卡洛方法计算圆周率示意图

随后让计算机不断模拟向正方形中随机地“撒点”。统计落在圆内的点的数量和所有正方形中点的数量的比值,并将它近似看成是圆形和正方形的面积的比值,即π/4。只要模拟数据点足够多,就能近似计算出圆周率π。模拟的数据越多,计算结果就越逼近真正的π值。

蒙特卡洛方法别看原理简单,其实使用起来相当灵活。它能用于很多需要“枚举”的算法,比如下围棋、走迷宫,或计算任何不规则几何图形的面积。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

《大话机器智能:一书看透AI的底层运行逻辑》

推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

大数定律,就像紧箍咒

3

大数定律就像一根绳索,用整体的确定性约束着局部的随机性,随着数据的增加把频率这个口袋越勒越紧。

概率论解决问题的核心思路:把局部的随机性转化为整体上的确定性。

要实现这个转化,靠的是什么呢?当然就是“概率”。当一件事的概率确定了,它在整体上发生的可能性就确定了。

我们是如何度量概率的呢?

简单来说,常用的度量概率的方法有三种——定义法、频率法、迭代法。其中频率法背后对应的是大数定律,迭代法对应的是贝叶斯定律。

本文主要讨论像“黄金一样贵重”的大数定律。

频率法,就是利用频率度量概率。

频率法认为,在有足够多的数据的情况下,随机事件发生的频率会无限接近它真实的概率。

频率:一个随机事件出现的次数除以整体事件的次数,得到的值就是这个随机事件发生的频率。

比如,很多人认为飞机是一种危险的交通工具,到底有多危险呢?衡量飞机的危险性,最直接的方法就是计算失事率嘛。我们用过去这么多年飞机失事的次数,除以飞机总的飞行次数,得出的就是飞机失事的频率。频率法认为,这个飞机失事的频率,就是未来飞机失事的概率。

在频率法的眼中,概率是可以靠随机事件发生的频率来计算出的。也就是说,频率法理解这个世界的底层逻辑是,一个随机事件的发生,是存在一个真实的、客观的概率的。

在这里要区分一下频率法与归纳法:

归纳法只是经验层面的,不可靠。

归纳法目的不是追求可靠性。

归纳法解决的主要问题之一是执果索因,为认识规律做铺垫,推出一般性猜想或假说,然后再运用演绎对其进行修正和补充,直至最后得到物理学的普遍性结论。

数学是逻辑抽象层面的东西,就像现实中不存在没有宽度的线,没有厚度的面。

频率法的基础是大数定律,

大数定律也是因为数学上证明了,才能是绝对正确。

第一个对频率和概率这个关系进行证明的,是雅各布·伯努利,一个十七世纪的瑞士数学家,也是那个时代最有才华的数学家之一。

雅各布·伯努利,他花了20年的时间,证明了这个“不言自明”或者说“显而易见”的结论:随着试验数据不断累积,频率和概率的差距会越来越小。

只要重复的试验或者观测的数据足够多,随机事件发生的频率就会无限接近它的概率。这就是我们现在常说的“大数定律”。

证明过程我们就不讲了,你需要知道的是:正因为在数学上证明了大数定律,我们才从根本上确认了用频率度量概率是合理的。换句话说,频率法是确定靠谱的。

再深入一点,大数定律也证明了:在相同环境、重复试验的条件下,用历史数据预测未来是可行的,也是合理的。这就是统计学的根基,也是很多使用统计学方法进行研究的学科的根基。

所以你看,大数定律是不是很重要?当年雅各布也意识到自己的证明很重要,所以将它称之为“黄金定理”。

事实上,大数定律是一个数学上“无限”的概念,类似于“无穷大”“无穷小”,是永远也无法触达的。在现实中,无限,真的做不到。

所以,为了让这么有用的大数定律在现实中真正发挥作用,必须做一些限制条件,让需要重复的次数,或者采集的数据量变成有限的。

于是,数学家专门设置了两个概念:一个叫“精度误差”,另一个叫“置信度”。这两个都是统计学的概念,不展开。

整体的确定性来对抗局部的随机性

雅各布花20年时间证明了大数定律。其实准确地说,他证明的是“弱大数定律”。

什么是弱大数定律呢?就是说,试验的数量越多,频率接近真实概率的可能性越大。注意,这里说的是“可能性”。也就是说,弱大数定律只证明了,随着数据的增加,频率接近概率的可能性越来越大,而不是100%的一定接近。这在数学上有个专业的名词,叫“依概率收敛”。

弱大数定律是一个伟大的证明。雅各布的伟大之处就在于,他找到了对抗局部随机性的办法,用频率构建起了确定的整体概率。通过他的证明我们知道,不管局部怎么随机,整体概率稳定的可能性是非常大的。

但整体概率稳定的可能性很大和一定稳定,还是有些差别的。只有一定、100%的稳定,才是真正的确定性。

一个世纪前,苏联数学家、概率论的先驱柯尔莫哥洛夫(Kolmogorov)在雅各布的基础上,做出了更加严密的证明,也就是“强大数定律”。

他通过计算证明,随着数据越来越多,频率接近概率不仅是可能性越来越大,而是几乎一定。也就是说,随着数据越来越多,频率最终一定会接近真实概率。

到此为止,我们先用弱大数定律找到了整体,又用强大数定律确定了整体一定是稳定的。大数定律又被称为“黄金定理”,它让我们真正能用整体的确定性来对抗局部的随机性。

现实中的频率都是局部频率

有了整体的确定性,我们就能用大数定律搞定这个世界了吗?

很遗憾,不是的。

因为大数定律起作用有个限制条件,只有在数据无限的情况下,随机事件发生的频率才等于它的概率。但上一讲说了,无限是个数学概念,现实中哪有什么无限呢?

无论我扔多少次硬币,都是有限次数的;无论我记录了多少次飞行的数据,都是有限次数的;无论我记录了一个球员多少场比赛投篮的命中情况,都是有限次数的。准确地说,现实中所有的事情都是有限的。我们记录的所有频率,都只是局部频率。

问题是,只有数据量足够多的时候,局部频率才会接近真实概率。当数据量很少的时候,一件事发生的频率可能和它的真实概率相差很大。

举个例子吧。英国和法国曾经共同研制了一款超音速客机,叫“协和式客机”,1976年投入使用,从巴黎飞到纽约只需要3小时20分钟,比普通民航客机节省超过一半的时间。

协和式客机不仅拥有当时最高级别的安全设计,还有当时最高级别的安全保障,所以在长达24年的飞行中,它没有发生过一起致死事故,一度被认为是世界最安全的飞机。直到2000年7月25日,协和式客机出现了一次坠机事故。

截止那个时候,协和式客机总共飞行了八万多次,因为这次坠机事故,它的致死事故率立即从24年来的0上升到了八万分之一,也就是每百万次飞行失事12次。而作为对比,波音737的飞行超过一亿次,它的致死事故率只有百万分之0.4,只有协和式客机的1/30。

这是协和式客机唯一一次重大事故。但因为这次事故,它一下子从世界上最安全的飞机变成了最危险的。仅仅三年之后,协和式客机就停飞了。

你说波音737真的比协和式客机安全30倍吗?

不一定。因为协和式客机的飞行数据太少了,只有区区八万次,它出事故的频率和真实的事故率之间,可能有很大的误差。

而这个误差到底有多大呢?那次失事是意外,还是飞机的设计真的有缺陷?八万分之一的致死事故率到底比真实概率大,还是比真实概率小?这些我们都无法知道,因为没办法让协和式飞机再飞一亿次了。

我们只知道,当数据有限的时候,局部频率和整体概率之间是有误差的。

只有随着数据量的增加,局部频率才会越来越接近于整体概率。

大数定律就像一根绳索,用整体的确定性约束着局部的随机性,随着数据的增加把频率这个口袋越勒越紧。

整体不需要对局部进行补偿

这种整体对局部的约束作用,是怎么进行的呢?

很多人会有一种朴素的想法,叫作“补偿思维”。举个例子,当硬币连续抛了10次都是正面朝上后,很多人就认为,下一次反面朝上的概率肯定得更高一些。因为只有这样才能补偿不平衡的状况,要不然怎么保证最终硬币正面朝上的概率还是50%呢?

看起来很合理,但我要告诉你的是,这种思维是错的。整体不需要通过补偿来对局部产生作用,大数定律并不通过补偿来实现。

还是刚才的例子,假如抛硬币前10次都是正面,那想让正面朝上的概率稳定在50%,后面是不是得抛出更多的反面来补偿呢?不需要。

比如,我们再抛1000次,假设500次正面,500次反面,没有补偿吧?现在正面的频率是多少呢?510除以1010,下降成了50.50%了。抛10000次,假设5000次朝上,5000次朝下,还是没有补偿,这时候正面朝上的频率,就变成了50.05%,非常接近于50%了。

打个比方,把一勺糖放在一杯水里,你会觉得很甜,可是放到大海里呢?海水的味道几乎不会有任何改变。我们并没有把糖从大海里取出来,糖仍然在,只是大海里的水太多了,一勺糖对它的影响就被削弱,小到可以忽略不计了。就像网上被大家吐槽的,五块钱的玛莎拉蒂跑车的优惠券,优惠五块钱,对买玛莎拉蒂跑车没影响呀。

明白了吧?大数定律不会对已经发生的情况进行补偿,而是利用大量的正常数据,削弱那部分异常数据的影响。正常数据越多,异常数据的影响就越小,直到小到可以忽略不计。

整体通过均值回归对局部起作用

可问题是,我们怎么保证未来一定有大量的正常数据呢?换句话说,整体的确定性到底是如何保证的呢?

这就要涉及到另一个词——均值回归。

均值回归的意思是说,如果一个数据和它的正常状态偏差很大,那么它向正常状态回归的概率就会变大。现实中,均值回归的例子很多。比如,身高特别高的人,孩子往往不如他高;连续几年超高收益率的基金经理,后几年往往神奇不在……怎么理解这种现象呢?

其实,均值回归更准确的叫法应该是“趋均值回归”,趋向均值的方向回归。所以它产生作用的对象,是那些特殊的、异常的、极端的数据。这些异常的状态是没法长期持续的,所以回归正常值的概率会变大。不过,至于是比正常值稍微高一些,还是稍微低一些,都有可能,完全是随机的。

比如,一个同学正常的数学水平是80分,这次超水平发挥考了100分,下一场考试,他大概率考不到100分,但可能考90分,可能考80分,也可能考70分。这些都比100分正常,都更接近他的真实水平,所以都是均值回归。而不是说上次考100分,这次只能考60分、50分来补偿上次的高分。

再比如,卡尼曼在《思考快与慢》里说到了一个例子:当卡尼曼在给以色列经验丰富的飞行军官培训的时候说道,对良好行为的嘉奖比对错误行为的批评更有效的原则时,有军官表示很不屑,挑衅道:“我觉得批评更容易让士兵取得进步,根据我这么多年的经验,凡事表现差的士兵被我批评后,你看他下次一定表现的更好;而凡事表现好被我夸奖的士兵,他下一次一定表现的差。”卡尼曼那一刻产生了顿悟:其实无论是批评还是表扬,都会是这种现象,因为你不可能永远表现优异,也不可能永远表现很差,你下一次更大可能会往正常水平靠近一点点,这叫做“回归均值现象”。

现在有些家长觉得自己的孩子必须一直成绩分数很高,这都是不切实际的幻想。其实我们人发展的规律总是“波浪式”的,你只需要保证它的趋势线朝上即可,再加上耐心,该来的总会来,即使最终还是没来,你也不枉此生,这个升级,进化的过程本生就很美好。

总之,大数定律不需要补偿,而是通过均值回归,通过产生大量的正常数据,削弱之前异常数据的影响。

明白了这个道理,再去审视我们的生活,很多现象就好理解了。比如我们经常会说一些俗语,运气不好的时候,会说“三十年河东,三十年河西”;打牌或者玩游戏连着输的时候,会说“否极泰来”。怎么理解这些话呢?

严格地说,都有一定的道理,但又都不全对。

为什么说有一定的道理呢?因为它们蕴含了朴素的概率思维,知道在大多数情况下,不正常的状态难以持续。正常情况下,谁的运气也不可能一直坏嘛。

为什么说它们不全对呢?因为不管是“三十年河东,三十年河西”,还是“否极泰来”,背后都蕴含着刚才我们说的补偿思维,认为三十年河东后,之后三十年一定河西;“否极”后一定会“泰来”,一定有好运气。

而我们现在知道,大数定律不需要通过补偿来实现。极度的坏运气过后不一定就有好运气,而是通过均值回归,让运气回到不那么坏的正常状态。所以更准确的说法应该是,“否极”后,可能“泰来”,也可能是回到运气不好不坏的状态,都有可能。

备注:本文部分内容引自刘嘉丨概率论。

WwW.BaiKeZhishi.Com
标签: 大数 的说
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:baikezhishi@foxmail.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!