對數(shù)據(jù)的處理是進(jìn)行數(shù)據(jù)分析的基礎(chǔ),為保證分析結(jié)果的可靠性和正確性,對數(shù)據(jù)的處理需要考慮三點(diǎn): 首先,數(shù)據(jù)錄入的準(zhǔn)確性以及異常值的處理; 其次,缺失值的處理; 最后,數(shù)據(jù)是否符合所使用的的分析方法的使用條件。 一、異常值 1.異常值的定義 異常值(outlier)有單變量異常值(univariate outlier)與多變量異常值(multivariate outlier)兩種。 2.異常值的來源 (1)過程型錯(cuò)誤。如錄入、編碼或者缺失值定義錯(cuò)誤。 (2)異常事件。此時(shí)視情況與研究目的進(jìn)行保留或刪除。 (3)異常觀測。研究者無法解釋的觀測值。 (4)各變量都正常,組合起來很異常,即多變量異常值。此情況視分析方法決定是否保留。 3.異常值的檢測 A.單變量異常值的檢測 (1)標(biāo)準(zhǔn)分檢測異常值 樣本量<=80,標(biāo)準(zhǔn)分>=2.5 & <=2.5視為異常值; 樣本量>80,可提高標(biāo)準(zhǔn)分的臨界值,最高為4。 spss操作: 分析>描述統(tǒng)計(jì)>描述>將標(biāo)準(zhǔn)化值另存為變量 (2)盒式圖 小于下四分位數(shù)減去1.5倍四分位距(Q1-1.5*IQR)或大于上四分位數(shù)加1.5倍四分位距(Q3+1.5*IQR)的即為異常值。 1.5-3倍四分位距之間的異常值為溫和異常值(mild outliers); 3倍四分位距之外的異常值為極端異常值(extreme outliers)。 在非異常值區(qū)間內(nèi),最值處畫橫線,即為箱線圖的觸須。 spss操作: 圖形>圖標(biāo)構(gòu)建器>選擇箱圖>雙擊第一個(gè)箱圖>將變量從左側(cè)拖動到縱軸 B.雙變量異常值的檢測 (1)雙變量異常值一般通過散點(diǎn)圖進(jìn)行檢測。 通過散點(diǎn)圖可以初步判斷兩變量之間是否存在相關(guān)關(guān)系、相關(guān)趨勢、是線性相關(guān)還是非線性相關(guān)以及是否存在異常值。 從下圖可初步判斷兩變量存在線性相關(guān),并且存在異常值。要通過置信區(qū)間新型判斷,還需要借助其他軟件,后續(xù)會進(jìn)行介紹。 C.多變量異常值的檢測 (1)馬氏距離 多變量異常值可通過計(jì)算觀測點(diǎn)的馬氏距離(Mahalanobis D2)進(jìn)行檢測。 根據(jù)經(jīng)驗(yàn),小樣本時(shí)把D2/df的臨界值設(shè)為2.5,大樣本時(shí)設(shè)為3或4,超過臨界值的觀測點(diǎn)識別為潛在異常值。 spss操作: 分析>回歸>線性>放入變量>保存>標(biāo)準(zhǔn)化>馬氏距離 馬氏距離的結(jié)果: (2)標(biāo)識異常個(gè)案 spss操作: 數(shù)據(jù)>標(biāo)識異常個(gè)案>變量>放入變量> 結(jié)果: |
|