互聯(lián)網(wǎng)時代每天產(chǎn)生的數(shù)據(jù)正在以指數(shù)級增長,如何看透數(shù)據(jù)背后隱藏的秘密和規(guī)律,統(tǒng)計學概率論應運而生,很快成為科學的基礎工具,滲透到了整個自然科學和社會科學領域。 概率論是研究隨機現(xiàn)象數(shù)量規(guī)律的數(shù)學分支,它可以幫助我們應對不確定性、預測未來、并做出科學決策。面對隨機而又復雜的世界,數(shù)學家用分布來刻畫變量的變差(在某個類型內(nèi)部的差異)和多樣性(不同類型之間的差異),將變量表示為在數(shù)值上或類別上定義的概率分布。分布為事件或價值分配概率。 每日降雨量、考試分數(shù)或身高的分布為每一個可能的結果值分配一個概率。各種統(tǒng)計量將分布中包含的信息壓縮為單個數(shù)值,例如均值是分布的平均值。 社會科學家經(jīng)常通過均值來比較各個國家的經(jīng)濟發(fā)展水平。例如:2020年,美國的人均國內(nèi)生產(chǎn)總值為63051美元,日本為39048美元,中國是10582美元。 常見的概率分布有泊松分布,二項分布,伯努利分布,正態(tài)分布,均勻分布。其中正態(tài)分布是最為核心的概率分布。 一、認識正態(tài)分布正態(tài)分布,也稱“常態(tài)分布”,又名高斯分布,正態(tài)曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。 正態(tài)分布函數(shù)公式如下: 其中μ為均數(shù),σ為標準差。μ決定了正態(tài)分布的位置,與μ越近,被取到的概率就越大,反之越小。σ描述的是正態(tài)分布的離散程度。σ越大,數(shù)據(jù)分布越分散曲線越扁平;σ越小,數(shù)據(jù)分布越集中曲線越陡峭。在一個標準正態(tài)分布中,約有 68.2% 的點落在 ±1 個標準差的范圍內(nèi)。約有 95.5% 的點落在 ±2 個標準差的范圍內(nèi)。約有 99.7% 的點落在 ±3 個標準差的范圍內(nèi)。 正態(tài)分布概念是由法國數(shù)學家棣莫弗于1733年首次提出的,后由德國數(shù)學家高斯率先將其應用于天文學研究,故正態(tài)分布又叫高斯分布,高斯這項工作對后世的影響極大,所以有了“高斯分布”的美稱。 在我們的自然界,大多數(shù)物種的高度和重量都滿足正態(tài)分布,它們圍繞著均值對稱分布,而且不會包含特別大或特別小的事件. 例如:我們從來沒有遇到過1米長的螞蟻,也沒有看到過1千克重的大象。世界似乎被代表正態(tài)分布的“鐘形”包圍著,很多事物都是服從正態(tài)分布的:人的高度、胖瘦、壽命、雪花的尺寸、測量誤差、燈泡的壽命、IQ分數(shù)、面包的分量、學生的考試分數(shù),員工上班所需時間等等。 正態(tài)分布有以下幾個特征: 集中性:曲線的最高峰位于正中央,且位置為均數(shù)所在的位置。 對稱性:正態(tài)分布曲線以均數(shù)所在的位置為中心左右對稱且曲線兩端無線趨近于橫軸。 均勻變動性:正態(tài)分布曲線以均數(shù)所在的位置為中心均勻向左右兩側下降。 面積恒等:曲線與橫軸間的面積總等于1。 正態(tài)分布有兩個非常重要的參數(shù),它們分別是:樣本的均值和標準差。均值是樣本中所有點的平均值。均值定義了正態(tài)分布的峰值位置,大多數(shù)值都集中在均值周圍。標準差是表示數(shù)據(jù)集與樣本均值的偏離程度。標準差定義了正態(tài)分布的寬度,決定了觀察值與均值的偏離程度。標準差越小,正態(tài)分布曲線越窄。標準差越大,正態(tài)分布曲線越寬。當分布較窄時,值落在均值附近的概率會更高。 正態(tài)分布的解釋力非常強,因為分布的均值、眾數(shù)和中位數(shù)是相等的;我們只要用平均值和標準差就可以解釋整個分布。 就數(shù)學理論而言,正態(tài)分布有其優(yōu)越性: ①兩個正態(tài)分布的乘積仍然是正態(tài)分布; ②兩個正態(tài)分布的和是正態(tài)分布; ③正態(tài)分布的傅里葉變換仍然是正態(tài)分布。 二、正態(tài)分布產(chǎn)生的原因鐘形分布曲線無處不在,這是為什么呢?其奧秘來自于中心極限定理。 中心極限定理:只要各隨機變量是相互獨立的,每個隨機變量的方差都是有限的,且沒有任何一小部分隨機變量貢獻了大部分變差,那N≥20個隨機變量的和就近似一個正態(tài)分布。 中心極限定理告訴我們: 任何一個樣本的平均值將會約等于其所在總體的平均值。 不管總體是什么分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正態(tài)分布。 案例1:在一個500人的小城鎮(zhèn)中,人們的購買行為數(shù)據(jù)顯示,每個人平均每個星期花費100美元。在這些人中,可能有些人這個星期只花50美元、下個星期則花150美元,另一部分人可能每3個星期花費300美元。而其他人則可能每個星期的花費在20至180美元之間。只要每個人的支出都只有有限的變差并且沒有任何一小部分人貢獻了大部分變差,那么分布的總和必定是一個正態(tài)分布,其均值為50000美元。每個星期的總支出也將是對稱的:可能高于55000美元,也可能低于45000美元。 案例2:中心極限定理來解釋人類身高的正態(tài)分布。一個人的身高取決于基因、環(huán)境以及兩者之間的相互作用?;虻呢暙I率可能高達80%,因此不妨假設身高只取決于基因。研究表明,至少180個基因有助于人體長高。 例如,一個基因可能有助于長出較長的頸部或頭部,另一個基因可能有助于長出更長的脛骨。雖然基因之間存在相互作用,但我們可以假設在“長高”這件事情上,每個基因都是相互獨立的。如果身高等于180個基因貢獻的總和,那么身高將呈現(xiàn)正態(tài)分布。 高爾頓釘板試驗更加形象地證明了正態(tài)分布。弗朗西斯·高爾頓是英國著名的統(tǒng)計學家、心理學家和遺傳學家。他設計了一個釘板實驗,希望從統(tǒng)計的觀點來解釋遺傳現(xiàn)象。 如下圖所示,木板上釘了數(shù)排(n排)等距排列的釘子,下一排的每個釘子恰好在上一排兩個相鄰釘子之間;從入口處放入若干直徑略小于釘子間距的小球,小球在下落的過程中碰到任何釘子后,都將以1/2的概率滾向左邊,以1/2的概率滾向右邊,碰到下一排釘子時又是這樣。如此繼續(xù)下去,直到滾到地板的格子里為止。試驗表明,只要小球足夠多,它們在底板堆成的形狀將近似于正態(tài)分布。因此,高爾頓釘板實驗直觀地驗證了中心極限定理。 中心定理并不是萬能的,他擁有三個很重要的前提:隨機、獨立和相加。 首先,第一個前提就是取樣需要隨機。如果我們抽取人的時候,只抽取長的高的或者只抽取長得矮的人,那么結果自然不符合正態(tài)分布。 第二,影響結果的因素是相互獨立或者是相互影響比較小的。以身高為例,影響一個人長高的因素有很多,例如:父母長得高還是矮、營養(yǎng)是否跟得上、是否熱愛運動......等等。父母長得高還是矮,對營養(yǎng)的補充沒有很大的關系,跟是否熱愛運動也沒有關系,所以可以看成是相互獨立的因素,所以身高的人群分布曲線自然就符合正態(tài)分布。 第三是相加,如果一個事物受到多種因素的影響,不管每個因素本身是什么分布,它們加總后,結果的平均值就是正態(tài)分布。正態(tài)分布只適合各種因素累加的情況,如果這些因素不是彼此獨立的,會互相加強影響,那么就不是正態(tài)分布了。如果各種因素對結果的影響不是相加,而是相乘,那么最終結果就變成了對數(shù)正態(tài)分布。 在一定條件下,各種隨意形狀概率分布生成的隨機變量,它們加在一起的總效應,是符合正態(tài)分布的。中心極限定理告訴我們:無論引起過程的各種效應的基本分布是什么樣的,當實驗次數(shù)n充分大時,所有這些隨機分量之和近似是一個正態(tài)分布的隨機變量。 中心極限定理從理論上證明了,在一定的條件下,對于大量獨立隨機變量來說,只要每個隨機變量在總和中所占比重很小,那么不論其中各個隨機變量的分布函數(shù)是什么形狀,也不論它們是已知還是未知,當獨立隨機變量的個數(shù)充分大時,它們的和的分布函數(shù)都可以用正態(tài)分布來近似。這就是為什么實際中遇到的隨機變量,很多都服從正態(tài)分布的原因,這使得正態(tài)分布既成為統(tǒng)計理論的重要基礎,又是實際應用的強大工具。中心極限定理和正態(tài)分布在概率論、數(shù)理統(tǒng)計、誤差分析中占有極其重要的地位。 三、正態(tài)分布的應用場景1、檢驗顯著性 我們可以利用正態(tài)分布的規(guī)律來檢驗各種平均值的顯著性差異。顯著性檢驗就是事先對總體(隨機變量)的參數(shù)或總體分布形式做出一個假設,然后利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。其原理就是“小概率事件實際不可能性原理”來接受或否定假設。如果經(jīng)驗均值與假設均值之間的偏差了超過兩個標準差,那么社會科學家就會拒絕這兩種均值相同的假設。 例如:現(xiàn)在提出這樣一個假設,即舊金山的通勤時間與洛杉磯的通勤時間相同。假設數(shù)據(jù)表明,舊金山的通勤時間平均為33分鐘,而洛杉磯為34分鐘。如果這兩個數(shù)據(jù)集的均值標準差都是1分鐘,那么我們就不能拒絕舊金山和洛杉磯兩地通勤時間相同的假設。雖然二者的均值不同,但只存在1個標準差。如果洛杉磯的平均通勤時間為37分鐘,那么我們就會拒絕這個假設,因為均值之間相差4個標準偏差。 2、六西格瑪方法 六西格瑪方法是摩托羅拉公司于20世紀80年代中期提出的,目的是減少誤差,該方法根據(jù)正態(tài)分布對產(chǎn)品屬性進行建模。試想這個例子:一家企業(yè)專業(yè)生產(chǎn)制造門把手所用的螺栓。它生產(chǎn)的螺栓必須天衣無縫地與其他制造商生產(chǎn)的旋鈕組裝在一起。規(guī)格要求是螺栓直徑為14毫米,但是任何直徑介于13毫米與15毫米之間的螺栓也可以接受。如果螺栓的直徑呈正態(tài)分布,均值為14毫米,標準差為0.5毫米,那么任何超過兩個標準差的螺栓都是不合格的。 兩個標準差事件發(fā)生的概率為5%,這個概率對于一家制造企業(yè)來說太高了。六個西格瑪要求每一百萬個機會中有3.4個出錯的機會,即合格率是99.99966%。企業(yè)可以根據(jù)中心極限定理,從整體中抽樣幾百個,并根據(jù)這樣一個樣本來估計均值和標準差。然后推斷出正態(tài)分布。這樣一來,這家螺栓制造企業(yè)就可以得出一個基準標準差,然后花大力氣去降低它。 3、對數(shù)正態(tài)分布 中心極限定理要求我們對隨機變量求和或求平均值,以獲得正態(tài)分布。如果隨機變量是不可相加而是以某種方式相互作用的,或者如果它們不是相互獨立的,那么產(chǎn)生的分布就不一定是正態(tài)分布。例如,獨立隨機變量之間的乘積就不是正態(tài)分布,而是對數(shù)正態(tài)分布。對數(shù)正態(tài)分布缺乏對稱性,因為大于1的數(shù)字乘積的增長速度比它們的和的增長速度快,比如,4+4+4+4=16,但4×4×4×4=256;而小于1的數(shù)字的乘積則比它們的和小,比如,1/4+1/4+1/4+1/4=1,但1/4*1/4*1/4*1/4=1/256。如果將20個不均勻地分布在0到10之間的隨機變量相乘,那么多次相乘后所得到的乘積將會包括一些很接近于零的結果與一些相當大的結果,從而生成如下圖所示的對數(shù)正態(tài)分布。 對數(shù)正態(tài)分布 一個對數(shù)正態(tài)分布的尾部長度取決于隨機變量相乘的方差。如果它們的方差很小,尾巴就會很短,如果方差很大,尾巴就可能會很長。如前所述,將一組很大的數(shù)相乘會產(chǎn)生一個非常大的數(shù)字。在各種各樣的情況下都會出現(xiàn)對數(shù)正態(tài)分布,包括新冠肺炎的傳染人數(shù)、大多數(shù)國家的收入分布也近似于對數(shù)正態(tài)分布。 一個簡單的模型可以解釋為什么收入分布更接近于對數(shù)正態(tài)分布而不是正態(tài)分布。這個模型將與工資增長有關的政策與這些政策所隱含的分布聯(lián)系起來。大多數(shù)企業(yè)和機構都按某種百分比來分配加薪,表現(xiàn)高于平均水平的人能夠得到更高百分比的加薪,表現(xiàn)低于平均水平的人則只能得到更低百分比的加薪。與這種加薪方法相反,企業(yè)和機構也可以按絕對金額來分配加薪。例如普通員工可以獲得1000美元的加薪,表現(xiàn)更好的人可以獲得更多,而表現(xiàn)更差的人則只能獲得更少。 百分比加薪方法與絕對金額加薪方法兩者之間的區(qū)別乍一看似乎只是語義上的區(qū)別,但其實不然。如果每一年的績效都是相互獨立且隨機的,那么根據(jù)員工績效按百分比加薪,就會產(chǎn)生一個對數(shù)正態(tài)分布。即使后來的表現(xiàn)相同,未來幾年的收入差距也會加劇。 假設一名員工因過去幾年表現(xiàn)良好,收入水平達到了80000美元,而另一名員工則只達到了60000美元。在這種情況下,當這兩名員工的表現(xiàn)同樣出色并都可以獲得5%的加薪時,前者能夠獲得4000美元的加薪,后者卻只能得到3000美元的加薪。這就是說,盡管績效完全相同,不平等也會導致更大的不平等。如果企業(yè)按絕對數(shù)額分配加薪,那么兩名績效相同的員工將獲得相同的加薪,由此產(chǎn)生的收入分布將接近正態(tài)分布。 總結正態(tài)分布啟示我們,要用整體的觀點來看事物。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能只見樹木不見森林,也不能以偏概全。同時正態(tài)分布曲線及面積分布圖告訴我們一定要抓住重點,因為重點就是事物的主要矛盾,它對事物的發(fā)展起主要的、支配性的作用。正態(tài)分布是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。 正態(tài)分布如此重要,不僅因為它在自然界普遍存在,還因為它是被證明的、其他復雜概率分布的演化結果,可以說是所有概率分布的最終宿命。根據(jù)“熵增”原理,一個孤立系統(tǒng)的熵總是在不斷增大。而對一個已知均值和方差的分布,正態(tài)分布的熵值最大,即這個孤立系統(tǒng)中的所有結果持續(xù)演化,最終一定是呈正態(tài)分布的穩(wěn)定狀態(tài)。對于宇宙熵增的最終穩(wěn)定態(tài),是宇宙各部分能量達到平衡,失去活力,陷入熱寂。 參考資料: 《模型思維》 作者:斯科特·佩奇 浙江人民出版社 《從擲骰子到阿爾法狗:趣談概率》 作者:張?zhí)烊?/strong> 清華大學出版社 |
|