午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

數(shù)據(jù)分析前的數(shù)據(jù)清理--異常值檢測

 新用戶1036Sd8h 2021-06-09

對數(shù)據(jù)的處理是進(jìn)行數(shù)據(jù)分析的基礎(chǔ),為保證分析結(jié)果的可靠性和正確性,對數(shù)據(jù)的處理需要考慮三點(diǎn):

首先,數(shù)據(jù)錄入的準(zhǔn)確性以及異常值的處理;

其次,缺失值的處理;

最后,數(shù)據(jù)是否符合所使用的的分析方法的使用條件。

一、異常值

1.異常值的定義

異常值(outlier)有單變量異常值(univariate outlier)與多變量異常值(multivariate outlier)兩種。

2.異常值的來源

(1)過程型錯(cuò)誤。如錄入、編碼或者缺失值定義錯(cuò)誤。

(2)異常事件。此時(shí)視情況與研究目的進(jìn)行保留或刪除。

(3)異常觀測。研究者無法解釋的觀測值。

(4)各變量都正常,組合起來很異常,即多變量異常值。此情況視分析方法決定是否保留。

3.異常值的檢測

A.單變量異常值的檢測

(1)標(biāo)準(zhǔn)分檢測異常值

樣本量<=80,標(biāo)準(zhǔn)分>=2.5 & <=2.5視為異常值;

樣本量>80,可提高標(biāo)準(zhǔn)分的臨界值,最高為4。

spss操作:

分析>描述統(tǒng)計(jì)>描述>將標(biāo)準(zhǔn)化值另存為變量

(2)盒式圖

小于下四分位數(shù)減去1.5倍四分位距(Q1-1.5*IQR)或大于上四分位數(shù)加1.5倍四分位距(Q3+1.5*IQR)的即為異常值。

1.5-3倍四分位距之間的異常值為溫和異常值(mild outliers);

3倍四分位距之外的異常值為極端異常值(extreme outliers)。

在非異常值區(qū)間內(nèi),最值處畫橫線,即為箱線圖的觸須。

spss操作:

圖形>圖標(biāo)構(gòu)建器>選擇箱圖>雙擊第一個(gè)箱圖>將變量從左側(cè)拖動到縱軸

B.雙變量異常值的檢測

(1)雙變量異常值一般通過散點(diǎn)圖進(jìn)行檢測。

通過散點(diǎn)圖可以初步判斷兩變量之間是否存在相關(guān)關(guān)系、相關(guān)趨勢、是線性相關(guān)還是非線性相關(guān)以及是否存在異常值。

從下圖可初步判斷兩變量存在線性相關(guān),并且存在異常值。要通過置信區(qū)間新型判斷,還需要借助其他軟件,后續(xù)會進(jìn)行介紹。

C.多變量異常值的檢測

(1)馬氏距離

多變量異常值可通過計(jì)算觀測點(diǎn)的馬氏距離(Mahalanobis D2)進(jìn)行檢測。

根據(jù)經(jīng)驗(yàn),小樣本時(shí)把D2/df的臨界值設(shè)為2.5,大樣本時(shí)設(shè)為3或4,超過臨界值的觀測點(diǎn)識別為潛在異常值。

spss操作:

分析>回歸>線性>放入變量>保存>標(biāo)準(zhǔn)化>馬氏距離

馬氏距離的結(jié)果:

(2)標(biāo)識異常個(gè)案

spss操作:

數(shù)據(jù)>標(biāo)識異常個(gè)案>變量>放入變量>

結(jié)果:

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多