在數(shù)據(jù)處理中,出現(xiàn)離群值和缺失值的情況非常常見。原來咱們在說數(shù)據(jù)處理的時候也曾經(jīng)提到過這個情況,這里,一起再聊聊離群值和缺失值的識別與處理。
離群值的識別與處理 離群值(outlier):距離整體數(shù)據(jù)較遠(yuǎn)的數(shù)據(jù)稱為離群值。 沒有搞明白離群值產(chǎn)生的原因之前,不要簡單舍棄,尤其是數(shù)據(jù)較少的時候。
單變量離群值的識別與處理
多變量離群值的識別與處理 馬氏距離(Mahalanobis distance)法是判別多變量離群值的一個常用方法。 馬氏距離是多維空間的一種距離測度,該距離的大小的評價可用卡方分布來確定。對給定的檢驗水準(zhǔn)及自由度,有其確定臨界值。如果某個個體的馬氏距離大于該臨界值,則在該檢驗水準(zhǔn)下可認(rèn)為該各位為離群值應(yīng)剔除,否則保留。 常用檢驗水準(zhǔn)α=0.005或0.001為判斷多變量離群值的標(biāo)準(zhǔn),而馬氏距離可以由統(tǒng)計軟件計算。
缺失值的識別與處理 缺失值(missing data):統(tǒng)計表中,行表達(dá)觀察單位,列表達(dá)不同的變量。行列交叉沒有記錄,就是缺失值。 產(chǎn)生缺失值很常見,比如實驗研究中的動物意外死亡,受試對象不依從,調(diào)查對象失訪或某些問題拒絕回答等。對于造成的缺失值,進(jìn)行識別和恰當(dāng)處理是數(shù)據(jù)預(yù)處理中的關(guān)鍵步驟之一。 缺失值的識別 缺失值的危害程度取決于:缺失的方式(最重要)、確實的數(shù)量、缺失的原因。 缺失方式可分為: 完全隨機缺失(missing completely at random,MCAR):是指缺失現(xiàn)象隨即發(fā)生,和自身或其他變量無關(guān)。 此類缺失會導(dǎo)致信息缺失,但是如果少于5%,則對統(tǒng)計結(jié)果影響不大。但是完全隨機缺失的情況比較少見,需要進(jìn)行檢驗。 隨機缺失(missing at random,MAR):指有確實值的變量,缺失值的發(fā)生與資料中其他無缺失變量的取值有關(guān)。 這種數(shù)據(jù)缺失較為常見,不僅會導(dǎo)致信息損失,更可能導(dǎo)致結(jié)論偏差。比如骨密度調(diào)查中,高齡組骨密度缺失,如果直接刪除,就會造成密度錯誤高估。 非隨機缺失(missing at non-random,MANR):指數(shù)據(jù)的缺失不僅和其他變量有關(guān),也和自身取值有關(guān)。 比如家庭收入調(diào)查,高收入者不愿意填寫收入值,這樣的數(shù)據(jù)無法做出有效調(diào)整,只能盡量避免產(chǎn)生這種情況。 缺失值的處理 1 刪除存在缺失值的個體或變量
2 估計缺失值:即利用輔助信息為每個缺失值尋找替代值。 常用的估計方法包括:
3 建立啞變量 可按照某變量值是否缺失建立啞變量,然后統(tǒng)計分析,保證分析資料的完整性 4 需要注意的問題 4.1 對缺失值的處理首先考察資料缺失方式,明確是否為隨機缺失,才能進(jìn)一步處理。 4.2 對于缺失值的估計方法,可按照方法的適用性進(jìn)行選擇。 4.3 如果對缺失值進(jìn)行了估計,建議對填補的數(shù)據(jù)集和刪除缺失值的數(shù)據(jù)集都進(jìn)行分析,然后比較,如果發(fā)現(xiàn)差異較大,應(yīng)查找原因,考慮哪一個更可信,或同時報道兩個結(jié)果。
|
|