回復(fù)「統(tǒng)計(jì)學(xué)」可查看「說(shuō)人話的統(tǒng)計(jì)學(xué)」系列合輯 ? 在上一集《算術(shù)平均數(shù):簡(jiǎn)單背后有乾坤》(如果你錯(cuò)過(guò)了這一集,或者已經(jīng)忘記了我們講了啥,強(qiáng)烈建議你戳這里稍作回顧)中,我們問(wèn)了這么一個(gè)問(wèn)題: 多少年來(lái)人們最熟悉、最常用、最符合直覺(jué)的算術(shù)平均數(shù),它到底好在哪里? 為了回答這個(gè)問(wèn)題,我們引入了隨機(jī)誤差的概念,并且介紹了頻率主義統(tǒng)計(jì)學(xué)中一種重要的方法——極大似然估計(jì)。 那么,算術(shù)平均數(shù)是不是對(duì)真值的極大似然估計(jì)呢? 要證明這一點(diǎn),我們需要了解隨機(jī)誤差在概率上的分布是怎樣的(也就是說(shuō),它的概率密度函數(shù)是什么)——這恰恰是兩三百年前引無(wú)數(shù)英雄競(jìng)折腰的問(wèn)題。而高斯在這里頭做了一件事,他證明了如下結(jié)論: 如果算術(shù)平均數(shù)是對(duì)真值的極大似然估計(jì),那么隨機(jī)誤差的分布就只可能是我們現(xiàn)在熟知的正態(tài)分布(也稱高斯分布): 正如我們?cè)谏弦患哪┪仓赋龅哪菢?,高斯的這個(gè)證明有點(diǎn)兒蛋生雞雞生蛋的意思,到底有沒(méi)有意義,取決于“算術(shù)平均數(shù)是對(duì)真值的最大似然估計(jì)”這個(gè)假設(shè)到底對(duì)不對(duì),高斯本人當(dāng)時(shí)并不知道,我們說(shuō)過(guò),他是靠猜的。 而接下來(lái)的劇情估計(jì)你也想得到 ——他猜對(duì)了。 今天,我們就來(lái)捋一捋正態(tài)分布究竟是怎么來(lái)的。 >>> 拉普拉斯與高斯的殊途同歸 讓我們回到1809年。 這一年,高斯發(fā)表了我們上面提到的這個(gè)證明。不久以后,同時(shí)代的法國(guó)大數(shù)學(xué)家拉普拉斯讀到了高斯的論文。他當(dāng)時(shí)也摻和到了尋找隨機(jī)誤差的分布性質(zhì)的熱潮之中,可是一直以來(lái)都沒(méi)有得到像樣的進(jìn)展。此時(shí),他驚訝地發(fā)現(xiàn),高斯推出的概率密度函數(shù)
這個(gè)概率密度函數(shù)在拉普拉斯自己的研究中曾經(jīng)出現(xiàn)過(guò),然而奇怪的是,拉普拉斯是在一個(gè)聽起來(lái)似乎與隨機(jī)誤差風(fēng)馬牛不相及的問(wèn)題中搞出這個(gè)概率密度函數(shù)的。 拉普拉斯之前是在研究什么問(wèn)題呢? 我們來(lái)設(shè)想以下情形:如果有一枚鋼镚兒,它拋出正面的概率是 p(p可以是0到1之間的任何數(shù)),如果我們把這枚鋼镚兒連續(xù)拋n次,那么我們得到0, 1, 2, …, n個(gè)正面的概率分別是多少? 這個(gè)問(wèn)題本質(zhì)上是個(gè)二項(xiàng)分布(binomial distribution)的問(wèn)題,大家也許還記得,在高中那會(huì)兒學(xué)習(xí)排列組合的時(shí)候就遇到過(guò),有現(xiàn)成的公式可以算拋出m個(gè)正面的概率: m = 1, 2, ... , n 這個(gè)公式不難理解,其中 是n選m的組合數(shù),也就是拋n次鋼镚兒中具體哪m次出現(xiàn)了正面(剩下的n-m次自然就是反面)有多少種不同的可能,而 則是m次正面和n-m次反面的概率的乘積。下圖就是當(dāng)正面概率p分別為0.1, 0.25, 0.5, 0.75時(shí),拋18次鋼镚兒得到0到18次正面的概率。 (圖片來(lái)源:http://www./HTML/index.html?binomial.html) 然而,當(dāng)n變得越來(lái)越大時(shí),組合數(shù)里面的一堆階乘很不好算。拉普拉斯在前人棣莫弗的工作的基礎(chǔ)上,找到了另外一個(gè)易于計(jì)算的分布,可以在n比較大的時(shí)候相當(dāng)好地近似上面的二項(xiàng)分布。我們就用上圖的其中一種情況(n=18, p=0.5),來(lái)瞅瞅這個(gè)近似的效果怎么樣: (圖片來(lái)源:http://www./HTML/index.html?binomial.html) 圖中藍(lán)色的柱形圖依然是按二項(xiàng)分布的公式算出的從0到18次正面的精確概率,而紅色的曲線則是拉普拉斯用于近似計(jì)算的分布。可以看到,哪怕像n=18這樣n并沒(méi)有很大的情形,這個(gè)近似都已經(jīng)非常好了。上面只畫出了p=0.5的情況,而p取其它數(shù)值的時(shí)候情況也是類似的。 實(shí)際上,在理論上可以證明,當(dāng)n趨向無(wú)窮大時(shí),紅色的這個(gè)分布就完完全全是二項(xiàng)分布的概率(另一位數(shù)學(xué)家棣莫弗對(duì)此發(fā)現(xiàn)也有重要貢獻(xiàn),因而這個(gè)結(jié)論稱為棣莫弗-拉普拉斯中心極限定理,De Moivre-Laplace Central LimitTheorem)。 拉普拉斯找出的這個(gè)分布是什么呢?出于一些理論上的考慮,我們需要先對(duì)拋出正面的次數(shù)X作個(gè)簡(jiǎn)單的變換: 這個(gè)變換沒(méi)什么復(fù)雜的道道,因?yàn)閚和p都是確定的數(shù),把X減去np(一個(gè)常數(shù))后再除以(另一個(gè)常數(shù))無(wú)非就是把X平移和壓縮一下而已。 經(jīng)過(guò)這個(gè)變化之后,Z的概率密度函數(shù)長(zhǎng)這個(gè)樣子: 如果我們把這個(gè)函數(shù)和之前高斯的那個(gè)概率密度函數(shù) 對(duì)照一下,不難發(fā)現(xiàn),它們其實(shí)是同一類分布——只需要把σ2換成1,我們就會(huì)得到拉普拉斯用來(lái)近似二項(xiàng)分布的那個(gè)概率密度函數(shù)了。 可是可是,這里的拋鋼镚兒和高斯那邊在研究的隨機(jī)誤差聽起來(lái)好像八竿子打不著????jī)蛇叾寂鰜?lái)同一個(gè)概率分布,天底下有這么巧的事情嗎? >>> 隨機(jī)誤差與中心極限定理 拉普拉斯敏銳地意識(shí)到,這很可能不是一種巧合。 為了理解拉普拉斯是如何把兩者聯(lián)系起來(lái)的,讓我們來(lái)回頭再看一看棣莫弗-拉普拉斯中心極限定理。 如果我們把第i次擲鋼镚兒的結(jié)果記為Xi,如果得到正面則Xi =1,反面則Xi =0。因此,Xi 這個(gè)隨機(jī)變量的分布很簡(jiǎn)單,它取1的概率是p,取0的概率是1-p(如下圖)。 (圖片來(lái)源:https:///R15-30-stat.htm) 此時(shí),拋n次鋼镚兒后得到正面的次數(shù)就是每次結(jié)果之和: 于是棣莫弗-拉普拉斯中心極限定理說(shuō)了些啥呢?如果我們有n個(gè)獨(dú)立的、分布相同的以概率p取1、以概率1-p取0的隨機(jī)變量,如果n足夠大,它們加起來(lái)的和稍作變換之后就會(huì)服從正態(tài)分布。一個(gè)很不嚴(yán)謹(jǐn)?shù)歉?jiǎn)單的說(shuō)法就是,一堆足夠多的0/1取值的變量加起來(lái)會(huì)變成一個(gè)正態(tài)分布。 這和隨機(jī)誤差有什么關(guān)系?拉普拉斯想到,雖然我們并不一定知道隨機(jī)誤差究竟是什么引起的,但是如果誤差也可以看成許多微小量(拉普拉斯稱之為“元誤差”)疊加起來(lái)的總和,那么根據(jù)中心極限定理,隨機(jī)誤差也就該服從正態(tài)分布了。 當(dāng)然,棣莫弗-拉普拉斯中心極限定理針對(duì)的只是一種相當(dāng)特殊的情況,光靠它還不足以充分支持拉普拉斯的論斷。但是,拉普拉斯以他的洞察力看到了隨機(jī)誤差服從正態(tài)分布的最根本的原因,進(jìn)而啟發(fā)和引導(dǎo)了他自己和后來(lái)許多數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家在中心極限定理上的探索,最終樹立了概率論與統(tǒng)計(jì)學(xué)最雄奇的一座高峰。 如果我們把上面棣莫弗-拉普拉斯的結(jié)論看成是中心極限定理的1.0版的話,那么在拉普拉斯的啟示下,幾代數(shù)學(xué)家在19、20世紀(jì)的百余年間共同努力,迅速將中心極限定理不斷升級(jí)。這里頭涉及到許多數(shù)學(xué)家的貢獻(xiàn)以及相當(dāng)高深的概率論知識(shí),我們這里無(wú)法一一敘述,就只簡(jiǎn)單說(shuō)說(shuō)兩項(xiàng)最重要的突破。 中心極限定理2.0版(Lindelberg-Levy中心極限定理):如果我們有n個(gè)獨(dú)立、同分布的隨機(jī)變量,而且它們的均值和方差都是有限的,那么當(dāng)n趨于無(wú)窮大時(shí),這n個(gè)隨機(jī)變量之和的一個(gè)簡(jiǎn)單變換(類似于之前棣莫弗-拉普拉斯中心極限定理中的變換)服從正態(tài)分布。 相比其1.0版,這2.0版邁出了巨大的一步:被疊加的隨機(jī)變量不再需要是0或1取值離散分布的了?,F(xiàn)在, 在一個(gè)很寬松的前提(均值和方差有限)下,無(wú)論它們本身是怎樣形狀的分布,當(dāng)它們被疊加起來(lái)時(shí),和都會(huì)服從正態(tài)分布。 仔細(xì)想想這是一個(gè)多奇妙的定理!不管你一開始是從一個(gè)什么樣的概率分布中來(lái)的,只要個(gè)數(shù)足夠多,加起來(lái)都會(huì)被收攏到正態(tài)分布那鐘形曲線之下! 中心極限定理3.x版:很多時(shí)候,即使隨機(jī)變量并不獨(dú)立,或者并非來(lái)自同樣的概率分布,它們的和(或者均值——由于n是個(gè)確定的數(shù),因此求和與求均值是等價(jià)的)在n足夠大時(shí)仍然服從正態(tài)分布。 這一下可就更厲害了。之前,我們還要求被疊加的隨機(jī)變量是獨(dú)立、同分布的,現(xiàn)在連這個(gè)條件都可以不要了。也就是說(shuō),哪怕是一堆紛繁復(fù)雜、形狀各異的隨機(jī)變量,加起來(lái)還是逃不過(guò)正態(tài)分布的網(wǎng)羅! (圖片來(lái)源:http://www./central-limit-theorem/) 到了這里,兩三百年來(lái)數(shù)學(xué)家們不斷探尋的隨機(jī)誤差的分布終于可以塵埃落定了。由于中心極限定理,自然界中說(shuō)不清、道不明、看不見、摸不著的種種蕪雜都會(huì)最終統(tǒng)一到正態(tài)分布之中。因而,隨機(jī)誤差服從正態(tài)分布也就有了必然性。 如果這么說(shuō)還有些抽象的話,我們不妨最后來(lái)看一個(gè)例子。 比如,從人類學(xué)的角度出發(fā),我們對(duì)人類身高的共同特性感興趣。由于我們的研究對(duì)象是全人類,這就包括了目前存在、以前曾經(jīng)存在以及將來(lái)可能存在的所有人類的集合,這在統(tǒng)計(jì)學(xué)中稱為“總體”。在頻率主義統(tǒng)計(jì)學(xué)的思想中,對(duì)于人類這么一個(gè)抽象性的概念,其身高會(huì)有一個(gè)真值,它代表了人類這個(gè)物種身高的總體趨勢(shì)。當(dāng)然了,我們除了知道這個(gè)身高比螞蟻大、比長(zhǎng)頸鹿小以外,并不知道它到底是多少。 而我們遇到的每一個(gè)人(包括我們自己),都是人類這個(gè)總體吐出的一個(gè)“樣本”。自然,每個(gè)人的身高都是千差萬(wàn)別的,每一個(gè)樣本與那個(gè)未知真值的差,便是這個(gè)樣本的隨機(jī)誤差。 為什么會(huì)有誤差呢?我們可以想象千百種緣由:性別、種族、生活在哪個(gè)國(guó)家、城市還是農(nóng)村、家庭收入、某些基因的基因型、飲食習(xí)慣、體育鍛煉的情況……顯然,最終的誤差是由所有這些不同來(lái)源的微小誤差疊加起來(lái)的,而這些微小誤差的分布有些是離散的(比如性別、種族),有些是連續(xù)的(比如家庭收入),而且還可能是互相聯(lián)系的(比如所在國(guó)家和飲食習(xí)慣)。我們上面提到的中心極限定理3.x版告訴我們,在這樣的條件下,最后總的隨機(jī)誤差應(yīng)該服從正態(tài)分布。因此,如果我們隨機(jī)選取足夠多的人測(cè)量其身高,頻率直方圖就會(huì)呈現(xiàn)正態(tài)分布的鐘形曲線。而根據(jù)這樣的數(shù)據(jù),怎樣能作出對(duì)真值的最好(極大似然的意義下)估計(jì)呢?自然是取樣本的算術(shù)平均數(shù)了。 >>> 正態(tài)分布為什么重要? 自從「說(shuō)人話的統(tǒng)計(jì)學(xué)」系列開播以來(lái),這一集和上一集也許是最抽象、最有不像人話危險(xiǎn)的兩集了。我也許應(yīng)該交代一下,為什么花了這么多筆墨來(lái)說(shuō)正態(tài)分布呢? 首先,中心極限定理是概率論和統(tǒng)計(jì)學(xué)最重要的定理(沒(méi)有之一),而且在許多科學(xué)家心目中與牛頓定律、相對(duì)論等同樣重要、揭示宇宙最基本規(guī)律的少數(shù)定理之一(希望你讀到這里會(huì)同意這個(gè)說(shuō)法)。但由于它涉及到一些相對(duì)艱深的理論,即便許多概率論或統(tǒng)計(jì)學(xué)課程都有所提及,但可能還是讓人得其形而不解其意。我希望這兩集文章能給大家一點(diǎn)更感性的認(rèn)識(shí),進(jìn)而更了解為什么正態(tài)分布那奇妙的鐘形曲線如此無(wú)處不在。某種意義上說(shuō),也是對(duì)這個(gè)世界一點(diǎn)點(diǎn)更深的領(lǐng)悟不是嗎? 其次,我們接下來(lái)要講到的許多統(tǒng)計(jì)學(xué)方法——如t檢驗(yàn)、方差分析、多元線性回歸等——都會(huì)對(duì)數(shù)據(jù)的正態(tài)性有要求,這也是許多人在使用這些統(tǒng)計(jì)學(xué)方法時(shí)很容易忽略的方面。之所以有這樣的要求,其原因歸根結(jié)底也是我們這一集所講的內(nèi)容,清楚了正態(tài)分布的來(lái)龍去脈,對(duì)于這些方法的正態(tài)性假設(shè)也就很容易理解了。與此同時(shí),我們也會(huì)更容易明白,在怎樣的情況下數(shù)據(jù)會(huì)違背正態(tài)性,以及在正態(tài)性假設(shè)不能滿足時(shí)應(yīng)該怎樣處理。 要是這兩集沒(méi)完全看懂怎么辦? 沒(méi)有關(guān)系,不妨在未來(lái)讀到我們后續(xù)的文章時(shí),再不時(shí)回來(lái)重溫一下,相信你一定會(huì)得到新的領(lǐng)悟,發(fā)現(xiàn)新的精彩。 ? 參考文獻(xiàn): 1. 陳希孺. (2002). 數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史. 湖南教育出版社. 2. 靳志輝:《正態(tài)分布的前世今生》http://www.med./epidemiology/hanley/bios601/Mean-Quantile/intro-normal-distribution-2.pdf 作者:張之昊 編輯:燈盞細(xì)辛 |
|