那么,什么是正態(tài)分布呢?今天我們就來聊聊正態(tài)分布的特點(diǎn)和性質(zhì),一起來揭開正態(tài)分布的神秘面紗。 正態(tài)分布的特點(diǎn) 許多變量的分布都是正態(tài)分布,比如體重、身高、IQ測試。 正態(tài)分布是單峰的,在其單峰的兩側(cè)是對稱的,它的中位數(shù)、均值與眾數(shù)相同。由于該分布延伸的形狀像一個鐘形,我們稱之為“鐘形”分布。 正態(tài)分布的四大條件 1. 大多數(shù)數(shù)值集中于均值附近,使分布有一個良好的單峰; 2. 數(shù)值均勻地分布在均值周圍,使分布對稱; 3. 與均值的離差越大,出現(xiàn)的概率就越小,形成逐漸減小的尾部; 4. 該變量的取值是由多種不同的因素共同作用造成的,如遺傳和環(huán)境因素。 注意: 統(tǒng)計學(xué)上有專門的方法來檢驗(yàn)變量是否滿足正態(tài)分布,掃描二維碼,課程第七章有詳細(xì)講解。 22小時100節(jié)視頻課,打牢學(xué)術(shù)基礎(chǔ) 正態(tài)分布的基本性質(zhì) 均值:決定圖形的左右移動,反映的是數(shù)據(jù)的中心位置;如下動圖展示了切換均值時,正態(tài)分布圖形的移動,可發(fā)現(xiàn)圖形只會左右移動。 標(biāo)準(zhǔn)差/方差:決定圖形的高矮胖瘦,反映的是數(shù)據(jù)內(nèi)部的變異程度。下面的動圖展示了切換標(biāo)準(zhǔn)差的數(shù)值時,正態(tài)分布形狀的變化,可發(fā)現(xiàn)圖形的高矮會變化。 正態(tài)分布的3σ原則(68-95-99.7規(guī)則) 1. 大約68% (更精確的是68.3%)或者大概2/3的數(shù)值落在距均值1個標(biāo)準(zhǔn)差的區(qū)間內(nèi)。 2. 大約95% (更精確的是95.4% )的數(shù)值落在距均值2個標(biāo)準(zhǔn)差的區(qū)間內(nèi)。 3. 大約99.7%的數(shù)值落在距均值3個標(biāo)準(zhǔn)差的區(qū)間內(nèi)。 4. 在統(tǒng)計學(xué)中使用更多的是1.96倍標(biāo)準(zhǔn)差和2.58倍標(biāo)注差。即95%的數(shù)值落在距均值1.96個標(biāo)準(zhǔn)差的區(qū)間內(nèi); 99%的數(shù)值落在距均值2.58個標(biāo)準(zhǔn)差的區(qū)間內(nèi); 下面的動圖展示了3σ原則 注: 上面的三個動圖是使用 Excel 繪制的,如何用Excel繪制帶控件的正態(tài)分布圖像呢?可掃描下方二維碼,在課程的第53節(jié)查看詳細(xì)視頻講解。 22小時100節(jié)視頻課,打牢學(xué)術(shù)基礎(chǔ) 直方圖與概率密度圖 直方圖表示的是不同區(qū)間的數(shù)值的頻數(shù),其縱軸顯示的是不同區(qū)間的數(shù)值的絕對數(shù)量;其每個柱子的高度表示的是該區(qū)間的數(shù)值的頻數(shù)。 概率密度圖表示的不同區(qū)間的數(shù)值的頻率,其縱軸顯示的是不同區(qū)間的數(shù)值的相對頻率;概率密度圖中整個曲線與坐標(biāo)軸圍成的面積為1,曲線上單個點(diǎn)的取值無現(xiàn)實(shí)意義,通??梢援嫵鋈鐖D所示的區(qū)間,區(qū)間的面積就表示了對應(yīng)的橫軸取值區(qū)間出現(xiàn)的頻率。這個頻率和直方圖中對應(yīng)區(qū)間的頻數(shù)是相互對應(yīng)的。 兩者都可以用來觀察一組數(shù)據(jù)的分布形態(tài),經(jīng)常用于初步判斷一組數(shù)據(jù)是否滿足正態(tài)分布。 Excel可以直接輸出直方圖,但無法直接繪制概率密度圖,使用R語言可以非常輕松的繪制得到一組數(shù)據(jù)的概率密度圖。 |
|