午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

R語言回歸分析中的異常值點(diǎn)的介紹

 宋娃娃姓宋 2017-12-05

(1)離群點(diǎn)

如何識(shí)別離群點(diǎn)?

1、Q-Q圖,落在置信區(qū)間帶外的點(diǎn)即可被認(rèn)為是離群點(diǎn)。

2、一個(gè)粗糙的判斷準(zhǔn)則:標(biāo)準(zhǔn)化殘差值大于2或者小于2的點(diǎn)可能是離群

3、library(car)
   outlierTest(fit)  顯示離群點(diǎn)

       rstudent unadjusted p-value Bonferonni p
Nevada 3.542929         0.00095088     0.047544

(2)高杠桿值點(diǎn)

它們是由許多異常的預(yù)測(cè)變量值組合起來的,與響應(yīng)變量值沒有關(guān)系

高杠桿值的觀測(cè)點(diǎn)可通過帽子統(tǒng)計(jì)量(hat statistic)判斷

hat.plot <- function(fit){
    p <- length(coefficients(fit))
    n <- length(fitted(fit))
    plot(hatvalues(fit), main = "Index Plot of Hat Values")
    abline(h = c(2, 3) * p/n, col = "red", lty = 2)
    identify(1:n, hatvalues(fit), names(hatvalues(fit)))
}


hat.plot(fit)


(3)強(qiáng)影響點(diǎn)

強(qiáng)影響點(diǎn),即對(duì)模型參數(shù)估計(jì)值影響有些比例失衡的點(diǎn)。例如,若移除模型的一個(gè)觀測(cè)點(diǎn)時(shí)模型會(huì)發(fā)生巨大的改變,那么你就需要檢測(cè)一下數(shù)據(jù)中是否存在強(qiáng)影響點(diǎn)了

cutoff <- 4/(nrow(states) - length(fit$coefficients) - 2)
plot(fit, which = 4, cook.levels = cutoff)
abline(h = cutoff, lty = 2, col = "red")


4、如何對(duì)線性模型進(jìn)行改進(jìn)?

1、刪除觀測(cè)點(diǎn);

刪除離群點(diǎn)通常可以提高數(shù)據(jù)集對(duì)于正態(tài)假設(shè)的擬合度,而強(qiáng)影響點(diǎn)會(huì)干擾結(jié)果,通常也會(huì)被刪除。刪除最大的離群點(diǎn)或者強(qiáng)影響點(diǎn)后,模型需要重新擬合
2、變量變換:


Box-Cox正態(tài)變換

library(car)
summary(powerTransform(states$Murder))


library(car)
boxTidwell(Murder ~ Population + Illiteracy, data = states)
3、添加或刪除變量;
4、
使用其他回歸方法。



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多