午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

【精】理解概率統(tǒng)計核心思維:概率分布——概率論與統(tǒng)計學的交匯點

 天下小糧倉 2019-03-15

打開數(shù)據(jù)分析的大門,從感性走向理性。

“概率統(tǒng)計”正確理解,才能正確應用!

本專欄從最通俗易懂的角度,用最易于理解的方法,真正內化吸收概率統(tǒng)計的核心思想與算法,幫助您在工作生活中正確應用概率統(tǒng)計知識。

詭異的第一數(shù)字定理

先提一個問題,如果把我們全人類記錄下來過的所有的數(shù)字的第一位非零數(shù)(0~9)統(tǒng)計出來做成條狀圖,你覺得會是什么樣的?

第一反應肯定是每個數(shù)字出現(xiàn)的頻率應該差不多,至少不會區(qū)別太大吧?

但是,美國物理學家本福特在對人口出生率、死亡率、物理和化學常數(shù)等數(shù)字進行統(tǒng)計后,得到了一個這樣的圖:

首位數(shù)字是1的概率達到了30.1%之多,而首位是2的概率為17.6%,數(shù)字越大出現(xiàn)的可能性就越小,9的概率僅為4.6%。

這個規(guī)律被稱為“第一數(shù)字定理”,描述的是一大批相同性質的數(shù)字,在自然產(chǎn)生的條件下,不同數(shù)字出現(xiàn)的概率。(當然,不能有明顯的能影響數(shù)字自然產(chǎn)生的限制)

從止圖中我們能一眼看出哪些位置概率大,哪些位置概率小,我們就把這叫做——

“概率分布”

上圖就是一張“概率分布圖”。

其實我們最想問的是,有啥用?

因為這個概率分布,體現(xiàn)了自然產(chǎn)生的同質數(shù)字的規(guī)律,所以可以用它反過來檢驗一些數(shù)字是否是自然產(chǎn)生的。

一個公司的年度賬目數(shù)據(jù)就滿足這一定律,依據(jù)它,在上個世紀90年代,會計學家尼格里尼發(fā)現(xiàn)了數(shù)起會計造假、欺詐和逃稅行為。

這是因為人腦在所謂“隨機”編造數(shù)據(jù)時,與第一數(shù)字定理的規(guī)律不符。(會計們編造數(shù)據(jù)時不知道什么原因,往往比較青睞于5或6)

依據(jù)這一定律,統(tǒng)計學家曾發(fā)現(xiàn)三起重大的投票欺詐行為:美國總統(tǒng)選舉佛羅里達選區(qū)(2004)/ 委內瑞拉投票欺詐(2004)/ 墨西哥投票欺詐(2006)。

概率分布:概率統(tǒng)計核心思維

概率分布體現(xiàn)的是:一個隨機變量取值的概率規(guī)律。

隨機變量有兩類:

  • 離散隨機變量(硬幣1或0;骰子1~6;數(shù)字1~9)
  • 連續(xù)隨機變量(實數(shù)[0,1];同學們的身高;小鼠存活率)

掌握了一個隨機變量的概率分布,就掌握了它的概率特性,再遇到它時,我們就可以對它進行預測了。

想得到一個量的概率分布,就需要試驗并記錄,然而我們不可能把所有試驗都做一般,因此進行進行一定數(shù)量的隨機試驗,稱為:

“隨機抽樣”

我們把樣本的數(shù)據(jù)進行處理,比如得到平均值/標準差的這類數(shù)據(jù)信息,稱為——

“統(tǒng)計量”

咱們得到的“統(tǒng)計量”是從一個隨機樣本中得到的,如果再隨機選一套樣本,得到的“統(tǒng)計量”又可能會不同了,所以這些統(tǒng)計量本身也是隨機變量,它們也有概率分布,稱為:

“抽樣分布”

我們把樣本研究的結果用來反應總體的特征,稱為:

“統(tǒng)計推斷”

統(tǒng)計推斷包含兩類問題:

  • 估計
  • 檢驗

上面這些概念我們后面會詳細講,這里是想說明的問題是:

概率論與統(tǒng)計學正是因為“概率分布”這一核心思維才緊緊聯(lián)系在了一起,不可分割,所以統(tǒng)稱為“概率統(tǒng)計”。

概率與統(tǒng)計不能分開討論

概率分布的種類

概率分布無非就是隨機變量的出現(xiàn)的可能性的分布,所以太多了——

可以看出有離散型和連續(xù)型兩類

下面咱們從理解應用的角度,講一講最常用的8種分布:

離散型概率分布:

  • 均勻分布
  • 二項分布
  • 泊松分布
  • 幾何分布

連續(xù)型隨機分布:

  • 平均分布
  • 正態(tài)分布
  • 指數(shù)分布
  • t分布

離散均勻分布

即“等概率模型”(古典概型),最簡單的概率分布:

拋硬幣,扔骰子,抽撲克,共有n種選擇,每種選擇的概率為1/n。

使用前提:必須確定是“等可能性的”,避免走入直覺誤區(qū)。

理解概率統(tǒng)計核心智慧:4類項反直覺問題&深解辛普森悖論

二項分布

假如我要拋20次硬幣,那么會出現(xiàn)幾次正面呢?

對于這類問題我們使用“二項分布”下圖中藍點即為n=20次獨立試驗,每次試驗成功(如正面)的概率都為p=0.5,成功次數(shù)的概率分布:

從圖中可以看到,20次試驗最有可能出現(xiàn)10次成功,10=20*0.5,意義很明顯,而出現(xiàn)9次成功/11次成功的可能性也很大。

總結:n次獨立試驗,每次試驗成功概率為p,那么試驗成功次數(shù)的概率分布即為二項分布。

“二項”一詞的涵義是,每次試驗,只有兩種結果。

泊松分布

直接問一個具體的現(xiàn)實問題吧:

斷網(wǎng)之后,網(wǎng)絡中心會接到很多電話,按經(jīng)驗來說在1小時內會有L人打電話咨詢,(總用戶量為n),那么這1小時內,打電話的人次是怎么樣的概率分布呢?

直觀地想象一下,大家不太可能商量好都打電話,或都不打電話;而最有可能的,就是那個“按經(jīng)驗來說”的L人打電話。

這就是泊松分布——

圖中為L=1 4 10 時的分布

L 是泊松分布中的惟一參數(shù),表示“平均發(fā)生次數(shù)”,因此等于二項分布里的 np。

泊松分布描述的是:

知道一個事件在一段時間內,一般平均發(fā)生L次,想知道它在這段時間里,發(fā)生次數(shù)的概率分布。

幾何分布

幾何分布描述的是,得到一次成功所需要的試驗次數(shù)X。

從圖中看出,p=0.2時,1次試驗就成功的概率就是0.2;而第二次才成功的概率顯然是0.8*0.2。這就是幾何分布的意義。

為什么叫“幾何”分布?是不是感覺這個名字很突兀?其實很好理解,圖中各處的概率呈等比數(shù)列,也稱為“幾何數(shù)列”,只不過國內很少這么叫罷了,國內倒時經(jīng)常會說“幾何級數(shù)”,其實就是幾何數(shù)列構成的級數(shù)啊。

幾何分布其實就是在研究,到底需要幾次嘗試,才能成功,這么一個問題。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多