我們在高中數(shù)學(xué)選修2-3學(xué)習(xí)隨機變量的時候,都接觸過一個非常特殊的函數(shù): 課本上稱它為正態(tài)分布的密度函數(shù)。如果是在選修2-3中第一次接觸到這個函數(shù),我想很可能是會給人帶來很大困惑的:首先,整個高中數(shù)學(xué)里就沒有多少場合是把某個特殊的函數(shù)(除了基本初等函數(shù)以外)的解析式單獨以定義的形式寫出來,并且還特意強調(diào)其重要性的。在有些部分(比如圓錐曲線的章節(jié))中,可能課本會介紹若干比較復(fù)雜的公式,但這些公式的幾何意義和研究動機通常都是解釋得非常清晰的。然而對于正態(tài)分布的密度函數(shù),課本在引入它的時候,事先只給出了高爾頓釘板實驗的一個示意圖,隨后就將這個直方圖形狀的圖像奇跡般地用一條連續(xù)的鐘形曲線做了擬合——并且不管三七二十一地立刻聲稱這條曲線的解析式就是 .高爾頓釘板實驗 第一次接觸正態(tài)分布的人,可能會感覺這簡直就像是江湖騙子算命一樣:憑著一點簡陋的初始(而且是離散的)數(shù)據(jù),居然立刻就能給出一個復(fù)雜程度相當(dāng)高的連續(xù)函數(shù)作為它的擬合?不僅如此,這個過程更讓人驚嘆的地方在于,即使我們對 這個函數(shù)是完全陌生的,我們卻能夠從中隱約感受到一種精巧的構(gòu)造和平衡感,一種數(shù)學(xué)對象所具有的秩序感。別的不說,e和π兩個重要的數(shù)學(xué)常數(shù)就同時出現(xiàn)在了這個函數(shù)里。不僅如此,形式如此復(fù)雜的一個函數(shù),圖像卻是一條對稱、光滑、甚至可以說是姿態(tài)很優(yōu)美的曲線。我們接觸過的絕大部分初等函數(shù),能有這樣漂亮的圖像嗎?反過來說,我們徒手畫出的曲線確實可以十分優(yōu)美,但我們能為隨便一條手繪的曲線都找到一個如此精巧的解析式嗎?種種跡象都表明這個函數(shù)絕不可能是憑空構(gòu)造出來的。更令人驚奇的是,課本隨后還介紹到正態(tài)分布在現(xiàn)實中的意義: '在現(xiàn)實生活中,很多隨機變量都服從或近似地服從正態(tài)分布。例如:長度測量的誤差;某一地區(qū)同年齡人群的生理指標(biāo)(如身高、體重、肺活量);一定條件下生長的小麥的株高、穗長、單位面積產(chǎn)量;正常生產(chǎn)條件下各種產(chǎn)品的質(zhì)量指標(biāo)(如零件的尺寸、纖維的纖度、電容器的電容、電子管的使用壽命等);某地每年某一時期的天氣指標(biāo)(如平均氣溫、平均濕度、降水量等),一般都服從正態(tài)分布。' 如果大街上一個不認識的人上來就把正態(tài)分布的密度函數(shù)展示給我看,隨后就聲稱上述種種自然現(xiàn)象全部都服從這個分布,我是無論如何也不會相信的。然而令人驚奇的是,數(shù)學(xué)課本居然也這么告訴我們。一個再自然不過的問題就是:這個函數(shù)究竟是怎么被人們找到的?此外,為什么如此豐富、如此復(fù)雜的自然現(xiàn)象竟然全部都服從于這條簡潔而奇特的曲線?這背后的原因是什么? 正態(tài)分布的密度函數(shù) 在這篇文章中,我希望能對這幾個問題給出介紹性的回答。我們將會先看一看18世紀數(shù)學(xué)家棣莫弗是如何在對二項分布的研究中,第一次導(dǎo)出正態(tài)分布這個美妙的函數(shù)的。之后我們將會看到人類歷史上最偉大的數(shù)學(xué)家之一高斯,在研究測量誤差的分布時,是如何利用他天才的數(shù)學(xué)能力企圖'猜測上帝的意圖',通過一系列推理,讓正態(tài)分布的密度函數(shù)從紛繁蕪雜的隨機誤差中顯現(xiàn)了出來。最后,我們將簡單介紹現(xiàn)代概率論中最重要的定理之一:中心極限定理。這個定理的內(nèi)容絕不僅僅是抽象的數(shù)學(xué);它巨大的力量就如同一只上帝之手般,在世界上幾乎所有的混沌和亂象背后,以一個永恒的數(shù)學(xué)表達式束縛著這一切的秩序。這篇文章不僅希望讓能讀者對正態(tài)分布的早期歷史有一個簡單的了解;更重要的是,希望能讓讀者感受到正態(tài)分布絕不僅僅是一個普通的函數(shù),而是有著令人震撼的美和力量。 一、棣莫弗:正態(tài)分布函數(shù)的首次發(fā)現(xiàn)棣莫弗(Abraham de Moivre, 1667-1754)是18世紀初的法國數(shù)學(xué)家,他的著作《機遇論》對概率論這一數(shù)學(xué)分支的早期發(fā)展起到了非常重要的影響。古典概率論起源于對賭博(這是一類最容易引起人們興趣的隨機現(xiàn)象,原因不言而喻)中產(chǎn)生的一系列問題的研究。二項分布的概念就正是在棣莫弗的時代從一些賭博問題中產(chǎn)生的。 棣莫弗 我們在高中課本中都學(xué)過二項分布:假設(shè)做某個隨機試驗只有成功和失敗兩種可能結(jié)果,成功概率為p,且每次試驗的成功與否都彼此獨立,那么將這個試驗連續(xù)進行n次,其中的成功次數(shù)X就服從參數(shù)為n、p的二項分布B(n, p): 但是二項分布的表達式中有組合數(shù),在n很大時組合數(shù)的計算通常是費時費力的。于是棣莫弗就希望尋找n很大時二項分布的近似表達式(用今天概率論的語言來說,就是二項分布的極限分布)。 我們知道組合數(shù)中有階乘,因此要對組合數(shù)做近似計算,如何將階乘化為其他表達式是很關(guān)鍵的。棣莫弗在這點上可以說是比較幸運的,因為和他同時代的蘇格蘭數(shù)學(xué)家斯特林(James Stirling)在數(shù)學(xué)分析方面有研究,并且兩人還有書信來往。斯特林提出了一個在組合數(shù)的近似計算中有極大作用的公式,被稱為斯特林公式:當(dāng)n很大時,我們有 棣莫弗正是利用這個公式,導(dǎo)出了二項分布的一個特殊情況的極限分布。他研究的特殊情況是B(n, 0.5),也就是將一個成功和失敗概率都為0.5的隨機試驗重復(fù)n次,研究成功次數(shù)Xn在n很大時的分布。這個隨機變量可以在賭博中找到鮮明的實例:如果我和別人賭拋一枚硬幣的結(jié)果是正面還是反面,贏了賺1元錢,輸了賠1元錢,那么連續(xù)賭n把之后我的凈收入(賠錢計為負數(shù))就正是隨機變量Xn。我們來看看他是怎么計算的。 我們先假設(shè)這個實驗重復(fù)的次數(shù)是偶數(shù)次(奇數(shù)次的情況可以被與它相鄰的兩個偶數(shù)的情況估計)。我們有: 利用斯特林公式,我們把分子和分母上的階乘都替換掉,并且進行一些化簡: 這個式子是三項的乘積,其中最后一項在n趨于無窮大時極限為1,可以省略。而針對第二項分母上的三個指數(shù)式,微積分中有一個基本結(jié)果: 看看我們得到了什么?左側(cè)這個隨機變量 是賭博結(jié)果的標(biāo)準化(除以一個系數(shù)使得其方差變?yōu)?,避免方差趨于無窮大,從而其分布可以真實反映極限分布);而在右側(cè),我們得到的正是標(biāo)準正態(tài)分布密度函數(shù)的積分!這就是棣莫弗在1733年得到的結(jié)果:拋硬幣所得到的二項分布,在n很大時(標(biāo)準化后)會收斂到一個特殊的分布——標(biāo)準正態(tài)分布。不久之后法國數(shù)學(xué)家拉普拉斯改進了棣莫弗的結(jié)果,使得這個結(jié)論(n很大時趨于正態(tài)分布)對任意的二項分布B(n,p)都成立了。這個結(jié)果被稱作棣莫弗-拉普拉斯中心極限定理,是中心極限定理的雛形和一個特例。大量重復(fù)拋硬幣實驗后形成的頻率分布直方圖,正態(tài)曲線從中浮現(xiàn) (圖片來源:維基百科) 棣莫弗的工作使得正態(tài)分布的密度函數(shù)第一次出現(xiàn)在了人類眼前。但是在他那個年代,人們對這一分布還毫無了解,而棣莫弗自己并沒有統(tǒng)計學(xué)背景,也不可能想到這個分布在統(tǒng)計中將會有什么樣的應(yīng)用。因此,雖然棣莫弗從一個特例中導(dǎo)出了正態(tài)分布,卻不會想到它在自然界中具有普遍性和極其優(yōu)美的性質(zhì),從而也就和它擦肩而過了。但是,這個例子使我們非常直觀地看到,正態(tài)分布優(yōu)美的函數(shù)是如何從復(fù)雜的式子和混亂的計算中,像是冥冥之中自有天意般地顯現(xiàn)出來。 二、高斯:猜測上帝的意圖德國數(shù)學(xué)家高斯(Carl Friedrich Gauss, 1777-1855)被公認為人類歷史上最偉大的數(shù)學(xué)家之一,在數(shù)學(xué)的各個領(lǐng)域都有非常大量的貢獻。而他一生被公認為最杰出的成就之一,就是導(dǎo)出了隨機測量誤差所服從的概率分布:正態(tài)分布。這一成就的偉大可以從許多方面看出來:正態(tài)分布在19世紀很長時間內(nèi)被歐洲數(shù)學(xué)家直接冠名為高斯分布;而1977年高斯二百年誕辰之際德國發(fā)行的紀念紙幣上,印著的也正是正態(tài)分布。 10馬克紙幣上的高斯頭像和正態(tài)曲線 17-18世紀人們之所以開始關(guān)注隨機誤差分布這樣一個問題,主要是由于天文、航海、測地等學(xué)科的發(fā)展,這些學(xué)科中測量、計算、回歸、誤差分析等等問題都處在最核心的位置上,因此自然推動了數(shù)學(xué)中對這些主題的研究。誤差分布的問題其實很簡單:已知有一個真值θ需要測量,測量的結(jié)果X是一個隨機變量,那么X-θ也是一個隨機變量,并且常識告訴我們它是連續(xù)的。誤差分布就是要求這個連續(xù)隨機變量X-θ的密度函數(shù)f(x)。 在高斯之前幾個世紀,人們已經(jīng)對f(x)有了定性的認識了:這個函數(shù)關(guān)于0點是對稱的;并且絕對值大的誤差出現(xiàn)概率小,絕對值小的誤差出現(xiàn)概率大。但是從來沒有人能夠給出這個函數(shù)究竟是什么。這確實有點太像在猜測上帝的意圖了:難道隨機誤差這種東西可以用一個解析式刻畫?什么樣的解析式才能具有這樣巨大的力量,能夠支配一切隨機誤差的行為?的確是非常難以想象。這就輪到高斯出場了。他在1809年發(fā)表的一篇關(guān)于數(shù)據(jù)分析(其中涉及對谷神星位置的計算和預(yù)測,這同樣是高斯生平非常輝煌的一件成就)的論文中,采取了一條非常異于常人的思維路線,導(dǎo)出了隨機誤差的分布——正是正態(tài)分布。 高斯的想法可以這樣簡單描述:我們平時做物理、化學(xué)等實驗的時候,對許多物理量都習(xí)慣采取測量多次取平均值的做法。經(jīng)驗表明,如果對真值θ的n次測量結(jié)果是 , 那么是對θ的一個很好的估計。這是我們都熟知的算術(shù)平均值。然而高斯的天才就在于,他反其道而行之:如果我們不把n次的測量結(jié)果當(dāng)成隨機變量,而把真值θ當(dāng)成一個待估計的隨機變量呢?既然我們?nèi)粘I钪胁扇∷阈g(shù)平均值作為θ的最好估計,那它一定有它的道理。他大膽斷言:對于確定的, 如果誤差分布的函數(shù)是f(x),那么測量誤差的聯(lián)合分布:在看成是θ的函數(shù)時,應(yīng)當(dāng)在算術(shù)平均值 處取得最大值(因為這是在確定的一組測量值下,對真值最好的估計)!基于這個想法,立刻可以展開一連串的推導(dǎo)。我們知道導(dǎo)數(shù)可以描述函數(shù)的極值點,這意味著: (L(θ)和它的對數(shù)值增減性相同,對對數(shù)求導(dǎo)有利于計算。)把這個導(dǎo)數(shù)算出來: 我們記 ,于是:這里的關(guān)鍵在于,這個式子對任意的一組測量值 都應(yīng)當(dāng)是成立的,因此我們可以取特殊值代入。如果取n=2,那么對任意的實數(shù)x,如果取X1=x,X2=-x,就有:再取 ,就有:這個式子對所有整數(shù)m和實數(shù)x都成立。取x=x'/m,就有: 從而 對所有有理數(shù)q都成立。只要我們添加g(x)連續(xù)的條件(這對誤差分布而言是自然的),就可以導(dǎo)出對所有實數(shù)r都成立。滿足這一條件的函數(shù)只有正比例函數(shù):這個方程是很好解的,最基本的微積分工具就可以解決。它的解是: 其中M是常數(shù)。考慮到f是一個概率密度函數(shù)(它就是我們要求的誤差分布),我們要求f在實數(shù)集上的積分是1,同時我們還希望把f標(biāo)準化,使得對應(yīng)的隨機變量期望和方差都為1(這兩個操作在概率論中合稱為正規(guī)化)。利用積分為1和方差為1兩個條件,就可以解出系數(shù)M和c,具體推導(dǎo)過程不需要很深的微積分知識,但出于長度考慮,我們放在文末,有興趣的讀者可以閱讀。最終的結(jié)果正是: 多么熟悉的結(jié)果——同時又是多么地出乎意料!高斯竟然基于“算術(shù)平均值是對真值的良好估計”這樣一個再簡單不過的法則,生生把隨機誤差服從的概率分布——正態(tài)分布,當(dāng)成一個函數(shù)給解出來了! 生物學(xué)家、統(tǒng)計學(xué)家高爾頓(就是文章開頭提到的高爾頓釘板的發(fā)明者)曾經(jīng)感嘆過高斯這個結(jié)果的震撼:“我?guī)缀醪辉娺^像誤差呈正態(tài)分布這么美妙而激發(fā)人們無窮想象的宇宙秩序。如果古希臘人知道這條曲線,想必會給予人格化乃至神格化。它以一種寧靜無形的方式在最野性的混亂中實施嚴厲的統(tǒng)治。暴民越多,無政府狀態(tài)越顯現(xiàn),它就統(tǒng)治得越完美。他是無理性世界中的最高法律。當(dāng)我們從混沌中抽取大量的樣本,并按大小加以排列整理時,那么總是有一個始料不及的美妙規(guī)律潛伏在其中。” 然而,接下來我們馬上就將看到,隨機誤差服從正態(tài)分布這個事實,只不過是更普遍、更令人震撼乃至震驚的一個定理——中心極限定理——的特例。中心極限定理,是真正地將正態(tài)分布那“上帝之手”般巨大的支配力和統(tǒng)治秩序體現(xiàn)到了淋漓盡致。 三、中心極限定理:上帝之手高斯關(guān)于隨機誤差的論文發(fā)表于1809年,立即將正態(tài)分布推上了概率論這個方興未艾的研究領(lǐng)域的風(fēng)口浪尖。拉普拉斯是同時期法國一位著名的數(shù)學(xué)家(值得一提的是,他在高斯之前也研究過隨機誤差的分布,但失敗了),前面我們提到他改良了棣莫弗的結(jié)果,認識到獨立的n個隨機試驗的結(jié)果之和(二項分布)總是趨于正態(tài)分布。這自然使得他開始考慮一般的獨立同分布隨機變量的和的分布的問題。拉普拉斯也是一位非常有天賦的數(shù)學(xué)家,他富有創(chuàng)新性地引入了特征函數(shù)的工具。一個隨機變量X的特征函數(shù)φ(t)定義為: 也就是說,對于每個復(fù)數(shù)t,特征函數(shù)在t處的取值是隨機變量e^(itX)的期望。對傅里葉分析有一定了解的讀者(筆者并不屬于此列)會看出這就是在對X做傅里葉變換——拉普拉斯創(chuàng)新性地將分析中的工具用在了概率論中。利用特征函數(shù)的工具,他證明了中心極限定理的一個初期版本。實際上僅僅使用特征函數(shù),就已經(jīng)可以對他的工作進行改良,從而得到下面的結(jié)果: [中心極限定理,獨立同分布的情形] 對于獨立同分布、期望μ和方差σ^2均有限的隨機變量 ,記其和為Sn,在n趨于無窮大時,有:也即,Sn的標(biāo)準化的分布收斂到標(biāo)準正態(tài)分布。 這已經(jīng)是相當(dāng)令人震撼的一個結(jié)果了:正態(tài)分布這種“支配”的力量遠遠不僅是只在二項分布上才起作用。只要是獨立同分布的一列隨機變量,無論它的輸出值可以多么隨機、多么混亂甚至病態(tài),當(dāng)我們對它求和的時候,隨著求和項數(shù)的增多,一個永恒不變的秩序都會在它背后慢慢地、然而是不可避免地浮現(xiàn)出來:優(yōu)美的正態(tài)分布。 中心極限定理 然而我們今天知道的還不止于此。在拉普拉斯之后的一百多年里,一大批數(shù)學(xué)家前赴后繼地對中心極限定理做了許多的強化、一般化、推廣。事實上,中心極限定理中的“中心”一詞并不是在描述隨機序列的和“被正態(tài)分布這個中心所吸引”的現(xiàn)象,而是它在概率論學(xué)界中的地位——它在很長一段時間內(nèi)占據(jù)了整個概率論研究的中心。在20世紀,一批優(yōu)秀的俄國數(shù)學(xué)家(包括柯爾莫哥洛夫、馬爾可夫等等,都是概率論領(lǐng)域的翹楚和奠基人)對概率論完成了嚴格的公理化,中心極限定理最強的版本也在這個時期得到了證明:我們并不要求 一定是獨立同分布的;它們可以服從完全不同的分布,但只要它們中的任何一項不對序列和起到潛在的“致命影響”(即方差過大),那么它們的和依然會依分布收斂到正態(tài)分布。正態(tài)分布就像是一個黑洞,一雙無形的大手,所有的混亂都被它消解掉,所有的隨機現(xiàn)象都被這一個表達式牢牢抓住。這哪里還是一個普通的概率分布?中心極限定理真的已經(jīng)具有一點宗教色彩在里面了。上帝是否存在,我們活著的人誰也無法親眼見到,可是我們每個活著的人都能親眼看到這一只潛藏在所有隨機變量后面的上帝之手,它的名字叫中心極限定理。 通過中心極限定理,無論是前面所講的棣莫弗最早的關(guān)于拋硬幣的結(jié)果,還是高斯所得到的隨機誤差的分布,都可以得到一個統(tǒng)一而簡潔的解釋了。對于隨機誤差,它服從正態(tài)分布的根本原因是因為它可以看成大量微小擾動(例如神經(jīng)系統(tǒng)、大氣系統(tǒng)、光照強度的擾動等等)的疊加——拉普拉斯稱之為“元誤差”。這些微小擾動都是接近獨立同分布的,而且即使不獨立同分布,任何一個微小擾動也都不足以造成致命的誤差。因此根據(jù)中心極限定理,它們的疊加值服從正態(tài)分布是必然的結(jié)果。 我們再簡單講一講中心極限定理在統(tǒng)計學(xué)中的意義。這里限于筆者知識范圍所限,無法展開詳述,但事實上,正態(tài)分布在統(tǒng)計學(xué)中所占的地位可以說更甚于它在概率論中的地位。中心極限定理揭示了正態(tài)分布在自然界中普遍存在的原因,因此雖然它本身并不是統(tǒng)計學(xué)的定理,卻直接確立了正態(tài)分布在統(tǒng)計學(xué)中的地位,甚至可以說奠定了數(shù)理統(tǒng)計整門學(xué)科的理論基礎(chǔ)。 早在19世紀,統(tǒng)計學(xué)家就已經(jīng)發(fā)現(xiàn)用正態(tài)分布來擬合大量隨機數(shù)據(jù)的分布常常具有良好的效果。在統(tǒng)計學(xué)發(fā)展的初期,對數(shù)據(jù)分布做正態(tài)近似這一簡單而有效的方法曾經(jīng)被非常普遍地、甚至有些近乎濫用地應(yīng)用到各種各樣的數(shù)據(jù)分析上。而在20世紀初,英國堪稱現(xiàn)代數(shù)理統(tǒng)計開創(chuàng)者的三位學(xué)者皮爾森(Pearson)、戈塞特(Gosset)和費舍爾(Fisher)全面建立了假設(shè)檢驗的理論——現(xiàn)代統(tǒng)計學(xué)的基石之一,從而正態(tài)分布依靠嚴格的理論支撐,真正滲透到了統(tǒng)計學(xué)的每一個角落之中。 最后,回到我們在文章開頭所講的高爾頓釘板。高爾頓本人用這個釘板來對為何許多遺傳指標(biāo)(例如身高)也同樣近似服從正態(tài)分布給出了一個解釋:釘板裝置可以模擬遺傳過程中一系列隨機因素造成的影響。我們可以想象在高爾頓釘板中間的某處水平放置一個擋板AB,將裝置分為上下兩個部分。如果這時我們放小球進入裝置,那么AB平面上將會形成一個近似正態(tài)分布的圖形,代表父母一代的身高分布。這時如果我們在AB平面上打若干小孔,使小球從這些小孔繼續(xù)向下隨機運動,那么最終在釘板底部所形成的圖案會是幾個小的正態(tài)分布。這本質(zhì)上是在描述一個數(shù)學(xué)事實:正態(tài)分布的和仍然是正態(tài)分布。 數(shù)學(xué)是一門抽象的藝術(shù)。這句話可以從兩個角度理解:數(shù)學(xué)所做的事就是在抽象——從現(xiàn)實世界中凝練出一些高度抽象的對象,在對這些對象的研究中獲得具有普遍性的結(jié)果;但與此同時,數(shù)學(xué)本身難道不也是一門藝術(shù)嗎?正態(tài)分布和中心極限定理把這句話的兩個方面給同時體現(xiàn)得淋漓盡致了。如果這篇文章能把數(shù)學(xué)的美和力量展現(xiàn)出一點來,就已經(jīng)完全達到目的了。 附:函數(shù) 的正規(guī)化這個函數(shù)已經(jīng)是偶函數(shù),所以對應(yīng)的期望值是0,不需要平移。正規(guī)化要求它在實數(shù)軸上的積分和它對應(yīng)的隨機變量的方差均為1,即: 針對第一個積分,如果我們知道了 的值,那么就可以用換元積分將它計算出來。這個積分被稱作高斯積分,在許多理工科有著非常廣泛的應(yīng)用(其實其中一個原因就是它跟正態(tài)分布的聯(lián)系...)。雖然它的被積函數(shù)被證明不存在初等原函數(shù),但是可以用一個特殊的技巧求出來。我們用極坐標(biāo)計算一個重積分:重積分可以化為累次積分,而我們發(fā)現(xiàn),這個重積分化成累次積分恰好就是高斯積分的平方!從而我們得到高斯積分的值是根號π,于是通過計算,第一個條件變?yōu)椋?/span> 而第二個條件中的積分可以用分部積分來求,其中再一次用到了高斯積分的結(jié)果: 從而就得到,方差為1的條件對應(yīng)著M、c所滿足的關(guān)系是: 聯(lián)立得到的兩個式子,就可以從中解出 ,正是正態(tài)分布密度函數(shù)中對應(yīng)的系數(shù)。參考資料: 人教版高中數(shù)學(xué)選修2-3(A版) rickjin,《正態(tài)分布的前世今生》,http://www./數(shù)學(xué)之美/2014/06/火光搖曳正態(tài)分布的前世今生上/ E.T. Jaynes, Probability Theory: The Logic of Science, Cambridge University Press, 2003 |
|