詭異的第一數(shù)字定理先提一個問題,如果把我們全人類記錄下來過的所有的數(shù)字的第一位非零數(shù)(0~9)統(tǒng)計出來做成條狀圖,你覺得會是什么樣的? 第一反應肯定是每個數(shù)字出現(xiàn)的頻率應該差不多,至少不會區(qū)別太大吧? 但是,美國物理學家本福特在對人口出生率、死亡率、物理和化學常數(shù)等數(shù)字進行統(tǒng)計后,得到了一個這樣的圖: 首位數(shù)字是1的概率達到了30.1%之多,而首位是2的概率為17.6%,數(shù)字越大出現(xiàn)的可能性就越小,9的概率僅為4.6%。 這個規(guī)律被稱為“第一數(shù)字定理”,描述的是一大批相同性質的數(shù)字,在自然產(chǎn)生的條件下,不同數(shù)字出現(xiàn)的概率。(當然,不能有明顯的能影響數(shù)字自然產(chǎn)生的限制) 從止圖中我們能一眼看出哪些位置概率大,哪些位置概率小,我們就把這叫做—— “概率分布” 上圖就是一張“概率分布圖”。 其實我們最想問的是,有啥用? 因為這個概率分布,體現(xiàn)了自然產(chǎn)生的同質數(shù)字的規(guī)律,所以可以用它反過來檢驗一些數(shù)字是否是自然產(chǎn)生的。 一個公司的年度賬目數(shù)據(jù)就滿足這一定律,依據(jù)它,在上個世紀90年代,會計學家尼格里尼發(fā)現(xiàn)了數(shù)起會計造假、欺詐和逃稅行為。 這是因為人腦在所謂“隨機”編造數(shù)據(jù)時,與第一數(shù)字定理的規(guī)律不符。(會計們編造數(shù)據(jù)時不知道什么原因,往往比較青睞于5或6) 依據(jù)這一定律,統(tǒng)計學家曾發(fā)現(xiàn)三起重大的投票欺詐行為:美國總統(tǒng)選舉佛羅里達選區(qū)(2004)/ 委內瑞拉投票欺詐(2004)/ 墨西哥投票欺詐(2006)。 概率分布:概率統(tǒng)計核心思維概率分布體現(xiàn)的是:一個隨機變量取值的概率規(guī)律。 隨機變量有兩類:
掌握了一個隨機變量的概率分布,就掌握了它的概率特性,再遇到它時,我們就可以對它進行預測了。 想得到一個量的概率分布,就需要試驗并記錄,然而我們不可能把所有試驗都做一般,因此進行進行一定數(shù)量的隨機試驗,稱為: “隨機抽樣” 我們把樣本的數(shù)據(jù)進行處理,比如得到平均值/標準差的這類數(shù)據(jù)信息,稱為—— “統(tǒng)計量” 咱們得到的“統(tǒng)計量”是從一個隨機樣本中得到的,如果再隨機選一套樣本,得到的“統(tǒng)計量”又可能會不同了,所以這些統(tǒng)計量本身也是隨機變量,它們也有概率分布,稱為: “抽樣分布” 我們把樣本研究的結果用來反應總體的特征,稱為: “統(tǒng)計推斷” 統(tǒng)計推斷包含兩類問題:
上面這些概念我們后面會詳細講,這里是想說明的問題是: 概率論與統(tǒng)計學正是因為“概率分布”這一核心思維才緊緊聯(lián)系在了一起,不可分割,所以統(tǒng)稱為“概率統(tǒng)計”。 概率與統(tǒng)計不能分開討論 概率分布的種類概率分布無非就是隨機變量的出現(xiàn)的可能性的分布,所以太多了—— 可以看出有離散型和連續(xù)型兩類 下面咱們從理解應用的角度,講一講最常用的8種分布: 離散型概率分布:
連續(xù)型隨機分布:
離散均勻分布即“等概率模型”(古典概型),最簡單的概率分布: 拋硬幣,扔骰子,抽撲克,共有n種選擇,每種選擇的概率為1/n。 使用前提:必須確定是“等可能性的”,避免走入直覺誤區(qū)。 理解概率統(tǒng)計核心智慧:4類項反直覺問題&深解辛普森悖論 二項分布假如我要拋20次硬幣,那么會出現(xiàn)幾次正面呢? 對于這類問題我們使用“二項分布”下圖中藍點即為n=20次獨立試驗,每次試驗成功(如正面)的概率都為p=0.5,成功次數(shù)的概率分布: 從圖中可以看到,20次試驗最有可能出現(xiàn)10次成功,10=20*0.5,意義很明顯,而出現(xiàn)9次成功/11次成功的可能性也很大。 總結:n次獨立試驗,每次試驗成功概率為p,那么試驗成功次數(shù)的概率分布即為二項分布。 “二項”一詞的涵義是,每次試驗,只有兩種結果。 泊松分布直接問一個具體的現(xiàn)實問題吧: 斷網(wǎng)之后,網(wǎng)絡中心會接到很多電話,按經(jīng)驗來說在1小時內會有L人打電話咨詢,(總用戶量為n),那么這1小時內,打電話的人次是怎么樣的概率分布呢? 直觀地想象一下,大家不太可能商量好都打電話,或都不打電話;而最有可能的,就是那個“按經(jīng)驗來說”的L人打電話。 這就是泊松分布—— 圖中為L=1 4 10 時的分布 L 是泊松分布中的惟一參數(shù),表示“平均發(fā)生次數(shù)”,因此等于二項分布里的 np。 泊松分布描述的是: 知道一個事件在一段時間內,一般平均發(fā)生L次,想知道它在這段時間里,發(fā)生次數(shù)的概率分布。 幾何分布幾何分布描述的是,得到一次成功所需要的試驗次數(shù)X。 從圖中看出,p=0.2時,1次試驗就成功的概率就是0.2;而第二次才成功的概率顯然是0.8*0.2。這就是幾何分布的意義。 為什么叫“幾何”分布?是不是感覺這個名字很突兀?其實很好理解,圖中各處的概率呈等比數(shù)列,也稱為“幾何數(shù)列”,只不過國內很少這么叫罷了,國內倒時經(jīng)常會說“幾何級數(shù)”,其實就是幾何數(shù)列構成的級數(shù)啊。 幾何分布其實就是在研究,到底需要幾次嘗試,才能成功,這么一個問題。 |
|