午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

離群值與缺失值的識別與處理

 漸近故鄉(xiāng)時 2016-08-11


 

在數(shù)據(jù)處理中,出現(xiàn)離群值和缺失值的情況非常常見。原來咱們在說數(shù)據(jù)處理的時候也曾經(jīng)提到過這個情況,這里,一起再聊聊離群值和缺失值的識別與處理。

 

離群值的識別與處理


離群值(outlier):距離整體數(shù)據(jù)較遠(yuǎn)的數(shù)據(jù)稱為離群值。

沒有搞明白離群值產(chǎn)生的原因之前,不要簡單舍棄,尤其是數(shù)據(jù)較少的時候。

 

單變量離群值的識別與處理

  1. 直方圖法:繪制數(shù)據(jù)直方圖,落在圖形兩端并距離均數(shù)的個體值可能就是離群值

  2. 箱式圖法:繪制箱式圖,如果個體值距離箱式圖底線(25% 線)和頂線(75%線)的距離過大,一般為四分位數(shù)間距(箱體高度)的1.5倍至3倍時被視為離群點;而個體值距離箱體底線或頂線距離超過3倍的箱體高度被視為離群值。

  3. 拉依達(dá)準(zhǔn)則:如果數(shù)據(jù)整體服從正太分布,一般在均數(shù)加減三個標(biāo)準(zhǔn)差之外的值被稱為離群值。

  4. Q檢驗法:當(dāng)數(shù)據(jù)整體不服從正太分布的時候,用Q檢驗。當(dāng)數(shù)據(jù)量大于10的時候,Q檢驗Q>0.33,則該可疑離群值舍去,否則保留。


多變量離群值的識別與處理

馬氏距離(Mahalanobis distance)法是判別多變量離群值的一個常用方法。

馬氏距離是多維空間的一種距離測度,該距離的大小的評價可用卡方分布來確定。對給定的檢驗水準(zhǔn)及自由度,有其確定臨界值。如果某個個體的馬氏距離大于該臨界值,則在該檢驗水準(zhǔn)下可認(rèn)為該各位為離群值應(yīng)剔除,否則保留。

常用檢驗水準(zhǔn)α=0.005或0.001為判斷多變量離群值的標(biāo)準(zhǔn),而馬氏距離可以由統(tǒng)計軟件計算。

 

缺失值的識別與處理


缺失值(missing data):統(tǒng)計表中,行表達(dá)觀察單位,列表達(dá)不同的變量。行列交叉沒有記錄,就是缺失值。

產(chǎn)生缺失值很常見,比如實驗研究中的動物意外死亡,受試對象不依從,調(diào)查對象失訪或某些問題拒絕回答等。對于造成的缺失值,進(jìn)行識別和恰當(dāng)處理是數(shù)據(jù)預(yù)處理中的關(guān)鍵步驟之一。


缺失值的識別

缺失值的危害程度取決于:缺失的方式(最重要)、確實的數(shù)量、缺失的原因。


缺失方式可分為:

完全隨機缺失(missing completely at random,MCAR):是指缺失現(xiàn)象隨即發(fā)生,和自身或其他變量無關(guān)。

此類缺失會導(dǎo)致信息缺失,但是如果少于5%,則對統(tǒng)計結(jié)果影響不大。但是完全隨機缺失的情況比較少見,需要進(jìn)行檢驗。

隨機缺失(missing at random,MAR):指有確實值的變量,缺失值的發(fā)生與資料中其他無缺失變量的取值有關(guān)。

這種數(shù)據(jù)缺失較為常見,不僅會導(dǎo)致信息損失,更可能導(dǎo)致結(jié)論偏差。比如骨密度調(diào)查中,高齡組骨密度缺失,如果直接刪除,就會造成密度錯誤高估。

非隨機缺失(missing at non-random,MANR):指數(shù)據(jù)的缺失不僅和其他變量有關(guān),也和自身取值有關(guān)。

比如家庭收入調(diào)查,高收入者不愿意填寫收入值,這樣的數(shù)據(jù)無法做出有效調(diào)整,只能盡量避免產(chǎn)生這種情況。


缺失值的處理

1 刪除存在缺失值的個體或變量

  • 當(dāng)缺失值為個體少數(shù),并且是在總體中的一個隨機子樣本中,可以剔除。

  • 當(dāng)缺失值集中在少數(shù)變量,并且變量不是分析的主要變量,可以剔除。

  • 如果缺失值集中在少數(shù)個體,或散布在多個變量多個個體,刪除就會影響組間均衡,則用其他方式處理。

2 估計缺失值:即利用輔助信息為每個缺失值尋找替代值。

常用的估計方法包括:

  • 先驗法(prior knowledge):適用于樣本足夠大,缺失數(shù)據(jù)少,并且研究者在該領(lǐng)域有豐富的經(jīng)驗?zāi)軌虼_保對缺失值的估計接近該變量的中位數(shù)水平或能代表特定病例的觀察值水平時。

  • 替代均數(shù)法(mean substitution):以變量中未缺失觀察值的均數(shù)估計該變量中存在的缺失值。當(dāng)缺乏其他信息的時候,是常用方法。

  • 回歸估計法(regression):以存在的缺失值的變量為應(yīng)變量,以其他全部或部分變量為自變量,回歸計算該值。適用于有適合的自變量完整數(shù)據(jù)存在時。

  • 期望值最大法(expectation maximization ,EM):進(jìn)行最大似然估計的一種有效方法,分兩步。第一步求出缺失數(shù)據(jù)的期望值,第二步在假定的缺失值被替代的基礎(chǔ)上做出最大似然估計。適用于大樣本資料。

  • 多重填補法(multiple imputation,MI):根據(jù)缺失值的先驗分布,估計缺失值,此法計算復(fù)雜,需要統(tǒng)計軟件實現(xiàn)。但是該法對缺失方式無特殊要求。

3 建立啞變量

可按照某變量值是否缺失建立啞變量,然后統(tǒng)計分析,保證分析資料的完整性

4 需要注意的問題

4.1 對缺失值的處理首先考察資料缺失方式,明確是否為隨機缺失,才能進(jìn)一步處理。

4.2 對于缺失值的估計方法,可按照方法的適用性進(jìn)行選擇。

4.3 如果對缺失值進(jìn)行了估計,建議對填補的數(shù)據(jù)集和刪除缺失值的數(shù)據(jù)集都進(jìn)行分析,然后比較,如果發(fā)現(xiàn)差異較大,應(yīng)查找原因,考慮哪一個更可信,或同時報道兩個結(jié)果。

 


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多