重復(fù)進(jìn)行n次隨機(jī)實(shí)驗,n次隨機(jī)實(shí)驗相互獨(dú)立,每次實(shí)驗僅有2個可能的結(jié)果(事件A發(fā)生、事件A不發(fā)生),每次實(shí)驗事件A發(fā)生的概率p,事件A不發(fā)生的概率1-p。用X表示n次實(shí)驗中事件A發(fā)生的次數(shù),則X可能的取值k=0,1,2,3,……,n。隨機(jī)變量X的離散概率分布即為二項分布,且對每一個k,事件{X=k}表示“n次實(shí)驗中事件A恰好發(fā)生了k次”,發(fā)生k次的概率為: n指實(shí)驗的次數(shù),p是成功的概率
- 二項分布的期望E(x)=np 期望并不一定是可能性最大的那個值
- 當(dāng)實(shí)驗次數(shù)很大的時候,二項分布就趨近正態(tài)分布,一般當(dāng)np>5且n(1-p)>5時,二項分布可近似為正態(tài)分布。
這里用一個案例來介紹:我們要檢驗一個假設(shè),即超過30%美國家庭接入了互聯(lián)網(wǎng),顯著性水平5%?,F(xiàn)在,我們采集了150個家庭作為樣本,結(jié)果57家已接入。要進(jìn)行假設(shè)檢驗,首先要設(shè)定零假設(shè)和備擇假設(shè)。 零假設(shè)H0:零假設(shè)即假設(shè)要檢驗的內(nèi)容不正確,即美國家庭總體的互聯(lián)網(wǎng)接入率小于等于30%備擇假設(shè)H1:美國家庭總體的互聯(lián)網(wǎng)接入率超過30%接著要計算在零假設(shè)成立前提下,看150個樣本有57家接入互聯(lián)網(wǎng)的概率是多少,如果該概率小于5%,即小于顯著性水平,那我們就拒絕零假設(shè),接受備擇假設(shè)。如果零假設(shè)成立,根據(jù)該假設(shè),得到一個總體均值u= PH0=0.3(說明:按照接入概率最大的情況來看,如果總體出現(xiàn)概率最大(即互聯(lián)網(wǎng)接入率30%),隨機(jī)抽樣還是不置信,那么概率小一些后更加不置信了)- 零假設(shè)中總體方差是δH0=√0.3*(1-0.3)= √0.21
n*p=150*0.3>5;n*(1-p)=150*0.7>5 ---可假定樣本占比的分布為正態(tài)分布那么接下來要計算的是隨機(jī)抽樣150個家庭,出現(xiàn)38%的家庭接入互聯(lián)網(wǎng)的概率是多少?- 抽樣占比的分布均值等于總體的均值 u= PH0=0.3
- 抽樣占比的方差=總體方差/√樣本容量=δH0/√n=√0.21/√150=0.037
接著計算z分?jǐn)?shù)=(0.38-0.3)/0.037=2.14首先這是一個單邊檢驗,也就是咱們要驗證抽樣占比的分布中,離均值右側(cè)大于2.14的標(biāo)準(zhǔn)差的概率,用excel即可計算:P值=(1-NORMSDIST(2.14))=0.016<0.05說明出現(xiàn)H0假設(shè)是小概率事件,所以拒絕H0假設(shè),接受H1假設(shè)-美國家庭總體的互聯(lián)網(wǎng)接入率超過30%PS:EXCEL函數(shù)NORMSDIST補(bǔ)充說明:
|