二項(xiàng)分布、泊松分布和正態(tài)分布的區(qū)別及聯(lián)系?被瀏覽 8,9732 個(gè)回答之前你已經(jīng)了解概率的基礎(chǔ)知識(shí)(如果還不知道概率能干啥,在生活中有哪些應(yīng)用的例子,可以看我之前的《投資賺錢與概率》)。 今天我們來聊聊幾種特殊的概率分布。這個(gè)知識(shí)目前來看,還沒有人令我滿意的答案,因?yàn)槠渌硕鄶?shù)是在舉數(shù)學(xué)推導(dǎo)公式。我這個(gè)人是最討厭數(shù)學(xué)公式的,但是這并不妨礙我用統(tǒng)計(jì)概率思維做很多事情。相比熟悉公式,我更想知道學(xué)的這個(gè)知識(shí)能用到什么地方??上В€沒有人講清楚。今天,就讓我來當(dāng)回雷鋒吧。 首先,你想到的問題肯定是: 1. 什么是概率分布? 2. 概率分布能當(dāng)飯吃嗎?學(xué)了對(duì)我有啥用? 好了,我們先看下:什么是概率分布? 1. 什么是概率分布? 要明白概率分布,你需要知道先兩個(gè)東東: 1)數(shù)據(jù)有哪些類型 2)什么是分布 數(shù)據(jù)類型(統(tǒng)計(jì)學(xué)里也叫隨機(jī)變量)有兩種。第1種是離散數(shù)據(jù)。 離散數(shù)據(jù)根據(jù)名稱很好理解,就是數(shù)據(jù)的取值是不連續(xù)的。例如擲硬幣就是一個(gè)典型的離散數(shù)據(jù),因?yàn)閽佊矌诺木?種數(shù)值(也就是2種結(jié)果,要么是正面,要么是反面)。 你可以把離散數(shù)據(jù)想象成一塊一塊墊腳石,你可以從一個(gè)數(shù)值調(diào)到另一個(gè)數(shù)值,同時(shí)每個(gè)數(shù)值之間都有明確的間隔。 第2種是連續(xù)數(shù)據(jù)。連續(xù)數(shù)據(jù)正好相反,它能取任意的數(shù)值。例如時(shí)間就是一個(gè)典型的連續(xù)數(shù)據(jù)1.25分鐘、1.251分鐘,1.2512分鐘,它能無限分割。連續(xù)數(shù)據(jù)就像一條平滑的、連綿不斷的道路,你可以沿著這條道路一直走下去。 什么是分布呢? 數(shù)據(jù)在統(tǒng)計(jì)圖中的形狀,叫做它的分布。 其實(shí)我們生活中也會(huì)聊到各種分布。比如下面不同季節(jié)男人的目光分布.。 各位老鐵,來一波美女,看看你的目光停在哪個(gè)分布的地方。 美女也看了,現(xiàn)在該專注學(xué)習(xí)了吧?,F(xiàn)在,我們已經(jīng)知道了兩件事情: 1)數(shù)據(jù)類型(也叫隨機(jī)變量)有2種:離散數(shù)據(jù)類型(例如拋硬幣的結(jié)果),連續(xù)數(shù)據(jù)類型(例如時(shí)間) 2)分布:數(shù)據(jù)在統(tǒng)計(jì)圖中的形狀 現(xiàn)在我們來看看什么是概率。概率分布就是將上面兩個(gè)東東(數(shù)據(jù)類型+分布)組合起來的一種表現(xiàn)手段: 概率分布就是在統(tǒng)計(jì)圖中表示概率,橫軸是數(shù)據(jù)的值,縱軸是橫軸上對(duì)應(yīng)數(shù)據(jù)值的概率。 很顯然的,根據(jù)數(shù)據(jù)類型的不同,概率分布分為兩種:離散概率分布,連續(xù)概率分布。 那么,問題就來了。為什么你要關(guān)心數(shù)據(jù)類型呢? 因?yàn)閿?shù)據(jù)類型會(huì)影響求概率的方法。 對(duì)于離散概率分布,我們關(guān)心的是取得一個(gè)特定數(shù)值的概率。例如拋硬幣正面向上的概率為:p(x=正面)=1/2 而對(duì)于連續(xù)概率分布來說,我們無法給出每一個(gè)數(shù)值的概率,因?yàn)槲覀儾豢赡芰信e每一個(gè)精確數(shù)值。 例如,你在咖啡館約妹子出來,你提前到了。為了給妹子留下好印象,你估計(jì)妹子會(huì)在5分鐘之內(nèi)出現(xiàn),有可能是在4分鐘10秒以后出現(xiàn),或者在4分鐘10.5秒以后出現(xiàn),你不可能數(shù)清楚所有的可能時(shí)間,你更關(guān)心的是在妹子出現(xiàn)前的1-5分鐘內(nèi)(范圍),你把發(fā)型重新整理下(雖然你因?yàn)榧影囝^發(fā) 已經(jīng)禿頂了,但是發(fā)型不能亂),給妹子留個(gè)好印象。所以,對(duì)于像時(shí)間這樣的連續(xù)型數(shù)據(jù),你更關(guān)心的是一個(gè)特定范圍的概率是多少。 2. 概率分布能當(dāng)飯吃嗎?學(xué)了對(duì)我有啥用? 當(dāng)統(tǒng)計(jì)學(xué)家們開始研究概率分布時(shí),他們看到,有幾種形狀反復(fù)出現(xiàn),于是就研究他們的規(guī)律,根據(jù)這些規(guī)律來解決特定條件下的問題。 想起,當(dāng)年為了備戰(zhàn)高考,我是準(zhǔn)備了一個(gè)自己的“萬能模板”,任何作文題目過來,我都可以套用該模板,快速解決作文這個(gè)難題。當(dāng)你,我高考的作文分?jǐn)?shù)還是不錯(cuò)的。(我聰明吧) 同樣的,記住概率里這些特殊分布的好處就是: 下次遇到類似的問題,你就可以直接套用“模板”(這些特殊分布的規(guī)律)來解決問題了。 酷不酷?爽不爽? 接下里,我們一起來聊聊常見的4種概率分布。 1)3種離散概率分布 二項(xiàng)分布 泊松分布 幾何何分布 2)1種連續(xù)概率分布 正態(tài)分布 在開始介紹之前,你先回顧下這兩個(gè)知識(shí): 期望:概率的平均值 標(biāo)準(zhǔn)差:衡量數(shù)據(jù)的波動(dòng)大小。 第1種:二項(xiàng)分布 我們從下面3個(gè)問題開聊: 1. 二項(xiàng)分布有啥用? 2. 如何判斷是不是二項(xiàng)分布? 3. 二項(xiàng)分布如何計(jì)算概率? 1. 二項(xiàng)分布有啥用呢? 當(dāng)你遇到一個(gè)事情,如果該事情發(fā)生次數(shù)固定,而你感興趣的是成功的次數(shù),那么就可以用二項(xiàng)分布的公式快速計(jì)算出概率來。 例如你按我之前的《投資賺錢與概率》買了這5家公司的股票(谷歌,F(xiàn)acebook,蘋果,阿里巴巴,騰訊),為了保底和計(jì)算投入進(jìn)去多少錢,你想知道只要其中3個(gè)股票幫你賺到錢(成功的次數(shù))的概率多大,那么這時(shí)候就可以用二項(xiàng)分布計(jì)算出來。 牛掰吧? 2. 如何判斷是不是二項(xiàng)分布? 首先,為啥叫二項(xiàng),不叫三項(xiàng),或者二愣子呢?故明思義,二項(xiàng)代表事件有2種可能的結(jié)果,把一種稱為成功,另外一種稱為失敗。 生活中有很多這樣2種結(jié)果的二項(xiàng)情況,例如你表白是二項(xiàng)的,一種成功(恭喜你表白成功,可以戀愛了,興奮吧?),一種是失?。ū痪芙^了,傷不傷心?)。你向老板提出加薪的要求,結(jié)果也有兩種(二項(xiàng))。一種是成功(加薪成功,老板我愛你),一種是失?。榈?,不給漲薪老子不干了,像是這種有統(tǒng)計(jì)概率思維的人,是很稀缺的,明天就投簡(jiǎn)歷出去) 那么,什么是二項(xiàng)分布呢?只要符合下面3個(gè)特點(diǎn)就可以判斷某事件是二項(xiàng)分布了: 1)做某件事的次數(shù)(也叫試驗(yàn)次數(shù))是固定的,用n表示。 (例如拋硬幣3次,投資5支股票), 2)每一次事件都有兩個(gè)可能的結(jié)果(成功,或者失?。?/span> (例如每一次拋硬幣有2個(gè)結(jié)果:正面表示成功,反面表示失敗。 每一次投資美股有2個(gè)結(jié)果:投資成功,投資失敗)。 3)每一次成功的概率都是相等的,成功的概率用p表示 (例如每一次拋硬幣正面朝上的概率都是1/2。 你投資了5家公司的股票,假設(shè)每一家投資盈利成功的概率都相同) 4)你感興趣的是成功x次的概率是多少。那么就可以用二項(xiàng)分布的公式快速計(jì)算出來了。 (你已經(jīng)知道了我前面講的5家美股的賺錢概率最大,所以你買了這5家公司的股票,假設(shè)投資的這5家公司成功的概率都相同,那么你關(guān)心其中只要有3個(gè)投資成功,你就可以賺翻了,所以想知道成功3次的概率) 根據(jù)這4個(gè)特點(diǎn),我們就知道拋硬幣是一個(gè)典型的二項(xiàng)分布,還有你投資的這5支股票也是一個(gè)典型的二項(xiàng)分布(在假設(shè)每家公司投資成功的前提下)。 3. 二項(xiàng)分布如何計(jì)算概率? 怎么計(jì)算符合二項(xiàng)分布事件的概率呢?也就是你想知道下面的問題: 你拋硬幣3次,2次正面朝上的概率是多少? 你買了這5家公司的股票,3支股票賺錢的概率是多大? 上面我們已經(jīng)知道了二項(xiàng)分布的4個(gè)特點(diǎn),并知道每個(gè)特點(diǎn)的表示方法: 1)做某件事次數(shù)是固定的,用n表示 這時(shí)候,二項(xiàng)分布的公式就可以發(fā)揮威力了: 這里你也別害怕數(shù)學(xué)公式,每一項(xiàng)的含義我前面已經(jīng)講的很清楚了。這個(gè)公式就是計(jì)算做某件事情n次,成功x次的概率的。很多數(shù)據(jù)分析工具(Excel,Python,R)都提供工具讓你帶入你研究問題的數(shù)值,就能得到結(jié)果。 例如,拋硬幣5次(n),恰巧有3次正面朝上(x=3,拋硬幣正面朝上概率p=1/2),可以用上面的公式計(jì)算出出概率為31.25%(用Excel的BINOM.DIST函數(shù),Python,R都可以快速計(jì)算) 二項(xiàng)分布經(jīng)常要計(jì)算的概率還有這樣一種情況: 拋硬幣5次,硬幣至少有3次正面朝上(即x>=3)的概率是多少? 你能直接想到的簡(jiǎn)單方法是:將恰巧有3次,恰巧有4次,恰巧有5次的概率相加,結(jié)果便是至少3次,為50%。 但是如果次數(shù)很多,這樣的辦法簡(jiǎn)直是給自己挖了一個(gè)大大的坑。 我們用逆向思維換個(gè)思路,至少3次正面朝上的反向思考是什么呢? 反向思路就是最多2次正面朝上。只要我們先計(jì)算出最多2次正面朝上的概率p(x<=2),那么至少3次正面朝上的概率就是1-p(x<=2)。 這樣用逆向思維,就把一個(gè)復(fù)雜的問題,化解為簡(jiǎn)單的問題。因?yàn)榍笞龆?次朝上的概率比較簡(jiǎn)單: p(x<=2)=p(0)+p(1)+p(2) 最好提下二項(xiàng)分布的: 期望E(x)=np (表示某事情發(fā)生n次,預(yù)期成功多少次。) 知道這個(gè)期望有啥用呢? 做任何事情之前,知道預(yù)期結(jié)果肯定對(duì)你后面的決策有幫助。比如你拋硬幣5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大約3次你可以拋出正面。 在比如你之前投資的那5支股票,假設(shè)每支股票幫你賺到錢的概率是80%,那么期望E(x)=5*80%=4,也就是預(yù)期會(huì)有4只股票投資成功幫你賺到錢。 第2種:幾何分布 其實(shí)我一直把幾何分布,叫做二項(xiàng)分布的孿生兄弟,因?yàn)樗麅商窳恕V挥?點(diǎn)不同,就像海爾兄弟只有內(nèi)褲不同一樣。 我們還是從下面這個(gè)套路聊起來一起找出這個(gè)不同的“勁爆點(diǎn)”: 1 . 幾何分布有啥用? 2. 如何判斷是不是幾何分布? 3. 幾何分布如何計(jì)算概率? 1.幾何分布有啥用? 如果你需要知道嘗試多次能取得第一次成功的概率,則需要幾何分布。 2. 如何判斷是不是幾何分布? 只要符合下面4個(gè)特點(diǎn)就可以判別你做的事情是就是幾何分布了: 1)做某事件次數(shù)(也叫試驗(yàn)次數(shù))是固定的,用n表示 你表白你的暗戀對(duì)象,你希望知道要表白3次,心儀對(duì)象答應(yīng)和你手牽手的概率多大。) 正如你上面看到的,幾何分布和二項(xiàng)分布只有第4點(diǎn),也就是解決問題目的不同。這個(gè)點(diǎn)夠不夠勁爆?(嘻嘻) 3. 幾何分布如何計(jì)算概率? 用下面公式就可以了: p為成功概率,即為了在第x次嘗試取得第1次成功,首先你要失敗(x-1)次。 假如在表白之前,你計(jì)算出即使你嘗試表白3次,在最后1次成功的概率還是小于50%,還沒有拋硬幣的概率高。那你就要考慮換個(gè)追求對(duì)象?;蛘呤紫忍嵘伦约?,提高自己每一次表白的概率,比如別讓自己的鼻毛長(zhǎng)出來。我之前讀書的一個(gè)師兄,每天鼻毛長(zhǎng)出來,看的我都惡心,何況其他人呢。 幾何分布的期望是E(x)=1/p。代表什么意思呢? 假如你每次表白的成功概率是60%,同時(shí)你也符合幾何分布的特點(diǎn),所以期望E(x)=1/p=1/0.6=1.67 所以你可以期望自己表白1.67次(約等于2次)會(huì)成功。這樣的期望讓你信息倍增,起碼你不需要努力上100次才能成功,2次還是能做到的,有必要嘗試下。 幾何分布的標(biāo)準(zhǔn)差: 第3種泊松分布 還是同樣的味道,還是同樣的討論,我們一起通過下面3個(gè)問題了解這個(gè)泊松分布。 1. 泊松分布有啥用? 2. 如何判斷是不是泊松分布? 3. 泊松分布如何計(jì)算概率? 1. 泊松分布有啥用? 如果你想知道某個(gè)時(shí)間范圍內(nèi),發(fā)生某件事情x次的概率是多大。這時(shí)候就可以用泊松分布輕松搞定。比如一天內(nèi)中獎(jiǎng)的次數(shù),一個(gè)月內(nèi)某機(jī)器損壞的次數(shù)等。 知道這些事情的概率有啥用呢? 當(dāng)然是根據(jù)概率的大小來做出決策了。比如你搞了個(gè)抽獎(jiǎng)活動(dòng),最后算出來一天內(nèi)中獎(jiǎng)10次的概率都超過了90%,然后你順便算了下期望,再和你的活動(dòng)成本比一下,發(fā)現(xiàn)要賠不少錢。那這個(gè)活動(dòng)就別搞了。 泊松分布的形狀會(huì)隨著平均值的不同而有所變化,無論是一周內(nèi)多少人能贏得彩票,還是每分鐘有多少人會(huì)打電話到呼叫中心,泊松分布都可以告訴我們它們的概率。 2. 什么是泊松分布? 符合以下3個(gè)特點(diǎn)就是泊松分布: 1)事件是獨(dú)立事件 用x代表事情發(fā)的次數(shù)(例如中獎(jiǎng)10個(gè)人中獎(jiǎng)),u代表給定時(shí)間范圍內(nèi)事情發(fā)生的平均次數(shù)(例如你搞的抽獎(jiǎng)活動(dòng)1天平均中獎(jiǎng)人數(shù)是5人),概率計(jì)算公式為: 可別被上面的公式嚇到,數(shù)學(xué)公式就是紙老虎,現(xiàn)在有很多工具(Excel,Python,R)都可以直接計(jì)算出來這個(gè)概率,所以也別記住這個(gè)公式,用的時(shí)候知道泊松分布適合啥時(shí)候用就妥了。 例如你搞了個(gè)促銷抽獎(jiǎng)活動(dòng),只知道1天內(nèi)中獎(jiǎng)的平均個(gè)數(shù)為5個(gè),你想知道1天內(nèi)恰巧中獎(jiǎng)次數(shù)為7的概率是多少? 此時(shí)x=7,u=5(區(qū)間內(nèi)發(fā)生的平均次數(shù)),代入公式求出概率為10.44%。Excel中的函數(shù)為POISSON.DIST就可以立馬算出來。 泊松概率還有一個(gè)重要性質(zhì),它的數(shù)學(xué)期望和方差相等,都等于u 1. 什么是概率分布? 概率分布就是在統(tǒng)計(jì)圖中表示概率,橫軸是數(shù)據(jù)的值,縱軸是橫軸上對(duì)應(yīng)數(shù)據(jù)值的概率。 2. 概率分布能當(dāng)飯吃嗎?學(xué)了對(duì)我有啥用? 下次遇到類似的問題,你就可以直接套用“模板”(這些特殊分布的規(guī)律)來求得概率了。 3.特殊的概率分布有哪些? 3種離散概率分布,分別代表了解決3種問題的“萬能模板” 二項(xiàng)分布(Binomial distribution) 符合以下4個(gè)特點(diǎn)的就是二項(xiàng)分布 1)做某件事的次數(shù)是固定的。 2)每一次事件都有兩個(gè)可能的結(jié)果(成功,或者失?。?/p> 3)每一次成功的概率都是相等的 4)你感興趣的是成功x次的概率是多少 案例: 拋5次硬幣,有2次正面朝上的概率是多少 你買了之前我介紹你的5家公司的股票,假設(shè)投資的這5家公司成功的概率都相同,那么你關(guān)心其中只要有3個(gè)投資成功,你就可以賺翻了,所以想知道成功3次的概率多大。 幾何何分布(Geometric distribution) 只要符合下面4個(gè)特點(diǎn)就可以判別你做的事情是就是幾何分布了: 1)做某事件次數(shù)(也叫試驗(yàn)次數(shù))是固定 2)每一次事件都有兩個(gè)可能的結(jié)果 3)每一次“成功”的概率都是相等的,成功的概率用p表示 4)你感興趣的是,進(jìn)行x次嘗試這個(gè)事情,取得第1次成功的概率是多大。 案例:例如你在玩拋硬幣的游戲,想知道拋5次硬幣,只有第5次(就是滴1次成功)正面朝上的概率是多大。 表白3次,第3次成功的概率多大 泊松分布(poisson distribution) 符合以下3個(gè)特點(diǎn)就是泊松分布: 1)事件是獨(dú)立事件 2)在任意相同的時(shí)間范圍內(nèi),事件發(fā)的概率相同 3)你想知道某個(gè)時(shí)間范圍內(nèi),發(fā)生某件事情x次的概率是多大 案例:例如你搞了個(gè)促銷抽獎(jiǎng)活動(dòng),想知道一天內(nèi)10人中獎(jiǎng)的概率 例如你是公司質(zhì)檢管理員,想知道一個(gè)月內(nèi)某機(jī)器損壞的10次(假如超過10次一句認(rèn)為不合格)的概率是多少。 1種連續(xù)概率分布:正態(tài)分布(Normal distribution) 這個(gè)分布在生活中太有用了,給我一種相見恨晚的“勁爆感”,留著下次聊 如何連接我? 微信公眾號(hào):猴子聊人物 雖然...是作業(yè)....吧?但是我最近正好在復(fù)習(xí),就隨意答答...不夠全面的話求輕噴 二項(xiàng)分布和泊松分布都是離散變量的分布,所以二項(xiàng)分布可以在n很大,p接近0時(shí)直接轉(zhuǎn)化為泊松分布。 二項(xiàng)分布和泊松分布都可以轉(zhuǎn)換成正態(tài)分布,但是由于正態(tài)分布是連續(xù)變量,所以需要加一個(gè)Continuity correction。之后二項(xiàng)分布轉(zhuǎn)換時(shí)要n很大,p接近于5的條件。 泊松不需要任何條件。 |
|