【原】正態(tài)分布到底是怎么來(lái)的？| 協(xié)和八

協(xié)和八 2020-09-18

展開全文

回復(fù)「統(tǒng)計(jì)學(xué)」可查看「說(shuō)人話的統(tǒng)計(jì)學(xué)」系列合輯

在上一集《算術(shù)平均數(shù)：簡(jiǎn)單背后有乾坤》（如果你錯(cuò)過(guò)了這一集，或者已經(jīng)忘記了我們講了啥，強(qiáng)烈建議你戳這里稍作回顧）中，我們問(wèn)了這么一個(gè)問(wèn)題：

多少年來(lái)人們最熟悉、最常用、最符合直覺(jué)的算術(shù)平均數(shù)，它到底好在哪里？

為了回答這個(gè)問(wèn)題，我們引入了隨機(jī)誤差的概念，并且介紹了頻率主義統(tǒng)計(jì)學(xué)中一種重要的方法——極大似然估計(jì)。

那么，算術(shù)平均數(shù)是不是對(duì)真值的極大似然估計(jì)呢？

要證明這一點(diǎn)，我們需要了解隨機(jī)誤差在概率上的分布是怎樣的（也就是說(shuō)，它的概率密度函數(shù)是什么）——這恰恰是兩三百年前引無(wú)數(shù)英雄競(jìng)折腰的問(wèn)題。而高斯在這里頭做了一件事，他證明了如下結(jié)論：

如果算術(shù)平均數(shù)是對(duì)真值的極大似然估計(jì)，那么隨機(jī)誤差的分布就只可能是我們現(xiàn)在熟知的正態(tài)分布（也稱高斯分布）：

正如我們?cè)谏弦患哪┪仓赋龅哪菢?，高斯的這個(gè)證明有點(diǎn)兒蛋生雞雞生蛋的意思，到底有沒(méi)有意義，取決于“算術(shù)平均數(shù)是對(duì)真值的最大似然估計(jì)”這個(gè)假設(shè)到底對(duì)不對(duì)，高斯本人當(dāng)時(shí)并不知道，我們說(shuō)過(guò)，他是靠猜的。

而接下來(lái)的劇情估計(jì)你也想得到

——他猜對(duì)了。

今天，我們就來(lái)捋一捋正態(tài)分布究竟是怎么來(lái)的。

>>> 拉普拉斯與高斯的殊途同歸

讓我們回到1809年。

這一年，高斯發(fā)表了我們上面提到的這個(gè)證明。不久以后，同時(shí)代的法國(guó)大數(shù)學(xué)家拉普拉斯讀到了高斯的論文。他當(dāng)時(shí)也摻和到了尋找隨機(jī)誤差的分布性質(zhì)的熱潮之中，可是一直以來(lái)都沒(méi)有得到像樣的進(jìn)展。此時(shí)，他驚訝地發(fā)現(xiàn)，高斯推出的概率密度函數(shù)

很面熟！

這個(gè)概率密度函數(shù)在拉普拉斯自己的研究中曾經(jīng)出現(xiàn)過(guò)，然而奇怪的是，拉普拉斯是在一個(gè)聽起來(lái)似乎與隨機(jī)誤差風(fēng)馬牛不相及的問(wèn)題中搞出這個(gè)概率密度函數(shù)的。

拉普拉斯之前是在研究什么問(wèn)題呢？

我們來(lái)設(shè)想以下情形：如果有一枚鋼镚兒，它拋出正面的概率是 p（p可以是0到1之間的任何數(shù)），如果我們把這枚鋼镚兒連續(xù)拋n次，那么我們得到0, 1, 2, …, n個(gè)正面的概率分別是多少？

這個(gè)問(wèn)題本質(zhì)上是個(gè)二項(xiàng)分布(binomial distribution)的問(wèn)題，大家也許還記得，在高中那會(huì)兒學(xué)習(xí)排列組合的時(shí)候就遇到過(guò)，有現(xiàn)成的公式可以算拋出m個(gè)正面的概率：

m = 1, 2, ... , n

這個(gè)公式不難理解，其中

是n選m的組合數(shù)，也就是拋n次鋼镚兒中具體哪m次出現(xiàn)了正面（剩下的n-m次自然就是反面）有多少種不同的可能，而

則是m次正面和n-m次反面的概率的乘積。下圖就是當(dāng)正面概率p分別為0.1, 0.25, 0.5, 0.75時(shí)，拋18次鋼镚兒得到0到18次正面的概率。

（圖片來(lái)源：http://www./HTML/index.html?binomial.html）

然而，當(dāng)n變得越來(lái)越大時(shí)，組合數(shù)里面的一堆階乘很不好算。拉普拉斯在前人棣莫弗的工作的基礎(chǔ)上，找到了另外一個(gè)易于計(jì)算的分布，可以在n比較大的時(shí)候相當(dāng)好地近似上面的二項(xiàng)分布。我們就用上圖的其中一種情況(n=18, p=0.5)，來(lái)瞅瞅這個(gè)近似的效果怎么樣：

（圖片來(lái)源：http://www./HTML/index.html?binomial.html）

圖中藍(lán)色的柱形圖依然是按二項(xiàng)分布的公式算出的從0到18次正面的精確概率，而紅色的曲線則是拉普拉斯用于近似計(jì)算的分布。可以看到，哪怕像n=18這樣n并沒(méi)有很大的情形，這個(gè)近似都已經(jīng)非常好了。上面只畫出了p＝0.5的情況，而p取其它數(shù)值的時(shí)候情況也是類似的。

實(shí)際上，在理論上可以證明，當(dāng)n趨向無(wú)窮大時(shí)，紅色的這個(gè)分布就完完全全是二項(xiàng)分布的概率（另一位數(shù)學(xué)家棣莫弗對(duì)此發(fā)現(xiàn)也有重要貢獻(xiàn)，因而這個(gè)結(jié)論稱為棣莫弗-拉普拉斯中心極限定理，De Moivre-Laplace Central LimitTheorem)。

拉普拉斯找出的這個(gè)分布是什么呢？出于一些理論上的考慮，我們需要先對(duì)拋出正面的次數(shù)X作個(gè)簡(jiǎn)單的變換：

這個(gè)變換沒(méi)什么復(fù)雜的道道，因?yàn)閚和p都是確定的數(shù)，把X減去np（一個(gè)常數(shù)）后再除以（另一個(gè)常數(shù)）無(wú)非就是把X平移和壓縮一下而已。

經(jīng)過(guò)這個(gè)變化之后，Z的概率密度函數(shù)長(zhǎng)這個(gè)樣子：

如果我們把這個(gè)函數(shù)和之前高斯的那個(gè)概率密度函數(shù)

對(duì)照一下，不難發(fā)現(xiàn)，它們其實(shí)是同一類分布——只需要把σ²換成1，我們就會(huì)得到拉普拉斯用來(lái)近似二項(xiàng)分布的那個(gè)概率密度函數(shù)了。

可是可是，這里的拋鋼镚兒和高斯那邊在研究的隨機(jī)誤差聽起來(lái)好像八竿子打不著??？?jī)蛇叾寂鰜?lái)同一個(gè)概率分布，天底下有這么巧的事情嗎？

>>> 隨機(jī)誤差與中心極限定理

拉普拉斯敏銳地意識(shí)到，這很可能不是一種巧合。

為了理解拉普拉斯是如何把兩者聯(lián)系起來(lái)的，讓我們來(lái)回頭再看一看棣莫弗-拉普拉斯中心極限定理。

如果我們把第i次擲鋼镚兒的結(jié)果記為X_i，如果得到正面則X_i=1，反面則X_i=0。因此，X_i這個(gè)隨機(jī)變量的分布很簡(jiǎn)單，它取1的概率是p，取0的概率是1-p（如下圖）。

（圖片來(lái)源：https:///R15-30-stat.htm）

此時(shí)，拋n次鋼镚兒后得到正面的次數(shù)就是每次結(jié)果之和：

于是棣莫弗-拉普拉斯中心極限定理說(shuō)了些啥呢？如果我們有n個(gè)獨(dú)立的、分布相同的以概率p取1、以概率1-p取0的隨機(jī)變量，如果n足夠大，它們加起來(lái)的和稍作變換之后就會(huì)服從正態(tài)分布。一個(gè)很不嚴(yán)謹(jǐn)?shù)歉?jiǎn)單的說(shuō)法就是，一堆足夠多的0/1取值的變量加起來(lái)會(huì)變成一個(gè)正態(tài)分布。

這和隨機(jī)誤差有什么關(guān)系？拉普拉斯想到，雖然我們并不一定知道隨機(jī)誤差究竟是什么引起的，但是如果誤差也可以看成許多微小量（拉普拉斯稱之為“元誤差”）疊加起來(lái)的總和，那么根據(jù)中心極限定理，隨機(jī)誤差也就該服從正態(tài)分布了。

當(dāng)然，棣莫弗-拉普拉斯中心極限定理針對(duì)的只是一種相當(dāng)特殊的情況，光靠它還不足以充分支持拉普拉斯的論斷。但是，拉普拉斯以他的洞察力看到了隨機(jī)誤差服從正態(tài)分布的最根本的原因，進(jìn)而啟發(fā)和引導(dǎo)了他自己和后來(lái)許多數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家在中心極限定理上的探索，最終樹立了概率論與統(tǒng)計(jì)學(xué)最雄奇的一座高峰。

如果我們把上面棣莫弗-拉普拉斯的結(jié)論看成是中心極限定理的1.0版的話，那么在拉普拉斯的啟示下，幾代數(shù)學(xué)家在19、20世紀(jì)的百余年間共同努力，迅速將中心極限定理不斷升級(jí)。這里頭涉及到許多數(shù)學(xué)家的貢獻(xiàn)以及相當(dāng)高深的概率論知識(shí)，我們這里無(wú)法一一敘述，就只簡(jiǎn)單說(shuō)說(shuō)兩項(xiàng)最重要的突破。

中心極限定理2.0版(Lindelberg-Levy中心極限定理)：如果我們有n個(gè)獨(dú)立、同分布的隨機(jī)變量，而且它們的均值和方差都是有限的，那么當(dāng)n趨于無(wú)窮大時(shí)，這n個(gè)隨機(jī)變量之和的一個(gè)簡(jiǎn)單變換（類似于之前棣莫弗-拉普拉斯中心極限定理中的變換）服從正態(tài)分布。

相比其1.0版，這2.0版邁出了巨大的一步：被疊加的隨機(jī)變量不再需要是0或1取值離散分布的了?，F(xiàn)在，在一個(gè)很寬松的前提（均值和方差有限）下，無(wú)論它們本身是怎樣形狀的分布，當(dāng)它們被疊加起來(lái)時(shí)，和都會(huì)服從正態(tài)分布。

仔細(xì)想想這是一個(gè)多奇妙的定理！不管你一開始是從一個(gè)什么樣的概率分布中來(lái)的，只要個(gè)數(shù)足夠多，加起來(lái)都會(huì)被收攏到正態(tài)分布那鐘形曲線之下！

中心極限定理3.x版：很多時(shí)候，即使隨機(jī)變量并不獨(dú)立，或者并非來(lái)自同樣的概率分布，它們的和（或者均值——由于n是個(gè)確定的數(shù)，因此求和與求均值是等價(jià)的）在n足夠大時(shí)仍然服從正態(tài)分布。

這一下可就更厲害了。之前，我們還要求被疊加的隨機(jī)變量是獨(dú)立、同分布的，現(xiàn)在連這個(gè)條件都可以不要了。也就是說(shuō)，哪怕是一堆紛繁復(fù)雜、形狀各異的隨機(jī)變量，加起來(lái)還是逃不過(guò)正態(tài)分布的網(wǎng)羅！

（圖片來(lái)源：http://www./central-limit-theorem/）

到了這里，兩三百年來(lái)數(shù)學(xué)家們不斷探尋的隨機(jī)誤差的分布終于可以塵埃落定了。由于中心極限定理，自然界中說(shuō)不清、道不明、看不見、摸不著的種種蕪雜都會(huì)最終統(tǒng)一到正態(tài)分布之中。因而，隨機(jī)誤差服從正態(tài)分布也就有了必然性。

如果這么說(shuō)還有些抽象的話，我們不妨最后來(lái)看一個(gè)例子。

比如，從人類學(xué)的角度出發(fā)，我們對(duì)人類身高的共同特性感興趣。由于我們的研究對(duì)象是全人類，這就包括了目前存在、以前曾經(jīng)存在以及將來(lái)可能存在的所有人類的集合，這在統(tǒng)計(jì)學(xué)中稱為“總體”。在頻率主義統(tǒng)計(jì)學(xué)的思想中，對(duì)于人類這么一個(gè)抽象性的概念，其身高會(huì)有一個(gè)真值，它代表了人類這個(gè)物種身高的總體趨勢(shì)。當(dāng)然了，我們除了知道這個(gè)身高比螞蟻大、比長(zhǎng)頸鹿小以外，并不知道它到底是多少。

而我們遇到的每一個(gè)人（包括我們自己），都是人類這個(gè)總體吐出的一個(gè)“樣本”。自然，每個(gè)人的身高都是千差萬(wàn)別的，每一個(gè)樣本與那個(gè)未知真值的差，便是這個(gè)樣本的隨機(jī)誤差。

為什么會(huì)有誤差呢？我們可以想象千百種緣由：性別、種族、生活在哪個(gè)國(guó)家、城市還是農(nóng)村、家庭收入、某些基因的基因型、飲食習(xí)慣、體育鍛煉的情況……顯然，最終的誤差是由所有這些不同來(lái)源的微小誤差疊加起來(lái)的，而這些微小誤差的分布有些是離散的（比如性別、種族），有些是連續(xù)的（比如家庭收入），而且還可能是互相聯(lián)系的（比如所在國(guó)家和飲食習(xí)慣）。我們上面提到的中心極限定理3.x版告訴我們，在這樣的條件下，最后總的隨機(jī)誤差應(yīng)該服從正態(tài)分布。因此，如果我們隨機(jī)選取足夠多的人測(cè)量其身高，頻率直方圖就會(huì)呈現(xiàn)正態(tài)分布的鐘形曲線。而根據(jù)這樣的數(shù)據(jù)，怎樣能作出對(duì)真值的最好（極大似然的意義下）估計(jì)呢？自然是取樣本的算術(shù)平均數(shù)了。

>>> 正態(tài)分布為什么重要？

自從「說(shuō)人話的統(tǒng)計(jì)學(xué)」系列開播以來(lái)，這一集和上一集也許是最抽象、最有不像人話危險(xiǎn)的兩集了。我也許應(yīng)該交代一下，為什么花了這么多筆墨來(lái)說(shuō)正態(tài)分布呢？

首先，中心極限定理是概率論和統(tǒng)計(jì)學(xué)最重要的定理（沒(méi)有之一），而且在許多科學(xué)家心目中與牛頓定律、相對(duì)論等同樣重要、揭示宇宙最基本規(guī)律的少數(shù)定理之一（希望你讀到這里會(huì)同意這個(gè)說(shuō)法）。但由于它涉及到一些相對(duì)艱深的理論，即便許多概率論或統(tǒng)計(jì)學(xué)課程都有所提及，但可能還是讓人得其形而不解其意。我希望這兩集文章能給大家一點(diǎn)更感性的認(rèn)識(shí)，進(jìn)而更了解為什么正態(tài)分布那奇妙的鐘形曲線如此無(wú)處不在。某種意義上說(shuō)，也是對(duì)這個(gè)世界一點(diǎn)點(diǎn)更深的領(lǐng)悟不是嗎？

其次，我們接下來(lái)要講到的許多統(tǒng)計(jì)學(xué)方法——如t檢驗(yàn)、方差分析、多元線性回歸等——都會(huì)對(duì)數(shù)據(jù)的正態(tài)性有要求，這也是許多人在使用這些統(tǒng)計(jì)學(xué)方法時(shí)很容易忽略的方面。之所以有這樣的要求，其原因歸根結(jié)底也是我們這一集所講的內(nèi)容，清楚了正態(tài)分布的來(lái)龍去脈，對(duì)于這些方法的正態(tài)性假設(shè)也就很容易理解了。與此同時(shí)，我們也會(huì)更容易明白，在怎樣的情況下數(shù)據(jù)會(huì)違背正態(tài)性，以及在正態(tài)性假設(shè)不能滿足時(shí)應(yīng)該怎樣處理。

要是這兩集沒(méi)完全看懂怎么辦？

沒(méi)有關(guān)系，不妨在未來(lái)讀到我們后續(xù)的文章時(shí)，再不時(shí)回來(lái)重溫一下，相信你一定會(huì)得到新的領(lǐng)悟，發(fā)現(xiàn)新的精彩。

參考文獻(xiàn)：

1. 陳希孺. (2002). 數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史. 湖南教育出版社.

2. 靳志輝：《正態(tài)分布的前世今生》http://www.med./epidemiology/hanley/bios601/Mean-Quantile/intro-normal-distribution-2.pdf

作者：張之昊

編輯：燈盞細(xì)辛