【精】理解概率統(tǒng)計核心思維：概率分布——概率論與統(tǒng)計學的交匯點

天下小糧倉 2019-03-15

展開全文

打開數(shù)據(jù)分析的大門，從感性走向理性。
“概率統(tǒng)計”正確理解，才能正確應用！
本專欄從最通俗易懂的角度，用最易于理解的方法，真正內化吸收概率統(tǒng)計的核心思想與算法，幫助您在工作生活中正確應用概率統(tǒng)計知識。

詭異的第一數(shù)字定理

先提一個問題，如果把我們全人類記錄下來過的所有的數(shù)字的第一位非零數(shù)（0~9）統(tǒng)計出來做成條狀圖，你覺得會是什么樣的？

第一反應肯定是每個數(shù)字出現(xiàn)的頻率應該差不多，至少不會區(qū)別太大吧？

但是，美國物理學家本福特在對人口出生率、死亡率、物理和化學常數(shù)等數(shù)字進行統(tǒng)計后，得到了一個這樣的圖：

首位數(shù)字是1的概率達到了30.1%之多，而首位是2的概率為17.6%，數(shù)字越大出現(xiàn)的可能性就越小，9的概率僅為4.6%。

這個規(guī)律被稱為“第一數(shù)字定理”，描述的是一大批相同性質的數(shù)字，在自然產(chǎn)生的條件下，不同數(shù)字出現(xiàn)的概率。（當然，不能有明顯的能影響數(shù)字自然產(chǎn)生的限制）

從止圖中我們能一眼看出哪些位置概率大，哪些位置概率小，我們就把這叫做——

“概率分布”

上圖就是一張“概率分布圖”。

其實我們最想問的是，有啥用？

因為這個概率分布，體現(xiàn)了自然產(chǎn)生的同質數(shù)字的規(guī)律，所以可以用它反過來檢驗一些數(shù)字是否是自然產(chǎn)生的。

一個公司的年度賬目數(shù)據(jù)就滿足這一定律，依據(jù)它，在上個世紀90年代，會計學家尼格里尼發(fā)現(xiàn)了數(shù)起會計造假、欺詐和逃稅行為。

這是因為人腦在所謂“隨機”編造數(shù)據(jù)時，與第一數(shù)字定理的規(guī)律不符。（會計們編造數(shù)據(jù)時不知道什么原因，往往比較青睞于5或6）

依據(jù)這一定律，統(tǒng)計學家曾發(fā)現(xiàn)三起重大的投票欺詐行為：美國總統(tǒng)選舉佛羅里達選區(qū)（2004）/ 委內瑞拉投票欺詐（2004）/ 墨西哥投票欺詐（2006）。

概率分布：概率統(tǒng)計核心思維

概率分布體現(xiàn)的是：一個隨機變量取值的概率規(guī)律。

隨機變量有兩類：

離散隨機變量（硬幣1或0；骰子1~6；數(shù)字1~9）
連續(xù)隨機變量（實數(shù)[0,1]；同學們的身高；小鼠存活率）

掌握了一個隨機變量的概率分布，就掌握了它的概率特性，再遇到它時，我們就可以對它進行預測了。

想得到一個量的概率分布，就需要試驗并記錄，然而我們不可能把所有試驗都做一般，因此進行進行一定數(shù)量的隨機試驗，稱為：

“隨機抽樣”

我們把樣本的數(shù)據(jù)進行處理，比如得到平均值/標準差的這類數(shù)據(jù)信息，稱為——

“統(tǒng)計量”

咱們得到的“統(tǒng)計量”是從一個隨機樣本中得到的，如果再隨機選一套樣本，得到的“統(tǒng)計量”又可能會不同了，所以這些統(tǒng)計量本身也是隨機變量，它們也有概率分布，稱為：

“抽樣分布”

我們把樣本研究的結果用來反應總體的特征，稱為：

“統(tǒng)計推斷”

統(tǒng)計推斷包含兩類問題：

估計
檢驗

上面這些概念我們后面會詳細講，這里是想說明的問題是：

概率論與統(tǒng)計學正是因為“概率分布”這一核心思維才緊緊聯(lián)系在了一起，不可分割，所以統(tǒng)稱為“概率統(tǒng)計”。

概率與統(tǒng)計不能分開討論

概率分布的種類

概率分布無非就是隨機變量的出現(xiàn)的可能性的分布，所以太多了——

可以看出有離散型和連續(xù)型兩類

下面咱們從理解應用的角度，講一講最常用的8種分布：

離散型概率分布：

均勻分布
二項分布
泊松分布
幾何分布

連續(xù)型隨機分布：

平均分布
正態(tài)分布
指數(shù)分布
t分布

離散均勻分布

即“等概率模型”（古典概型），最簡單的概率分布：

拋硬幣，扔骰子，抽撲克，共有n種選擇，每種選擇的概率為1/n。

使用前提：必須確定是“等可能性的”，避免走入直覺誤區(qū)。

理解概率統(tǒng)計核心智慧：4類項反直覺問題&深解辛普森悖論

二項分布

假如我要拋20次硬幣，那么會出現(xiàn)幾次正面呢？

對于這類問題我們使用“二項分布”下圖中藍點即為n=20次獨立試驗，每次試驗成功（如正面）的概率都為p=0.5，成功次數(shù)的概率分布：

從圖中可以看到，20次試驗最有可能出現(xiàn)10次成功，10=20*0.5，意義很明顯，而出現(xiàn)9次成功/11次成功的可能性也很大。

總結：n次獨立試驗，每次試驗成功概率為p，那么試驗成功次數(shù)的概率分布即為二項分布。

“二項”一詞的涵義是，每次試驗，只有兩種結果。

泊松分布

直接問一個具體的現(xiàn)實問題吧：

斷網(wǎng)之后，網(wǎng)絡中心會接到很多電話，按經(jīng)驗來說在1小時內會有L人打電話咨詢，（總用戶量為n），那么這1小時內，打電話的人次是怎么樣的概率分布呢？

直觀地想象一下，大家不太可能商量好都打電話，或都不打電話；而最有可能的，就是那個“按經(jīng)驗來說”的L人打電話。

這就是泊松分布——

圖中為L=1 4 10 時的分布

L 是泊松分布中的惟一參數(shù)，表示“平均發(fā)生次數(shù)”，因此等于二項分布里的 np。

泊松分布描述的是：

知道一個事件在一段時間內，一般平均發(fā)生L次，想知道它在這段時間里，發(fā)生次數(shù)的概率分布。

幾何分布

幾何分布描述的是，得到一次成功所需要的試驗次數(shù)X。

從圖中看出，p=0.2時，1次試驗就成功的概率就是0.2；而第二次才成功的概率顯然是0.8*0.2。這就是幾何分布的意義。

為什么叫“幾何”分布？是不是感覺這個名字很突兀？其實很好理解，圖中各處的概率呈等比數(shù)列，也稱為“幾何數(shù)列”，只不過國內很少這么叫罷了，國內倒時經(jīng)常會說“幾何級數(shù)”，其實就是幾何數(shù)列構成的級數(shù)啊。

幾何分布其實就是在研究，到底需要幾次嘗試，才能成功，這么一個問題。

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：天下小糧倉 > 《羅輯》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

天下小糧倉

關注對話

TA的最新館藏

毛主席給栗裕信札上的字，把我小心臟整激動了，險些忘了點贊
小鹿#喜劇之王單口季吐槽做父母就像鳳凰傳奇組合#笑不活了
陳毅誤信宋時輪，錯判戰(zhàn)局，粟裕大急，以罕見嚴厲語氣命令陳毅
《問痧隨錄》爍古今，點亮心燈照世人
通陽竟然比補陽更牛！張仲景有一方，只需三個藥，帶你擺脫陽虛！
人體六球的運用

喜歡該文的人也喜歡更多

熱門閱讀換一換

午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频