(1)離群點(diǎn) 如何識(shí)別離群點(diǎn)? 1、Q-Q圖,落在置信區(qū)間帶外的點(diǎn)即可被認(rèn)為是離群點(diǎn)。 2、一個(gè)粗糙的判斷準(zhǔn)則:標(biāo)準(zhǔn)化殘差值大于2或者小于2的點(diǎn)可能是離群 3、library(car) rstudent unadjusted p-value Bonferonni p (2)高杠桿值點(diǎn) 它們是由許多異常的預(yù)測(cè)變量值組合起來的,與響應(yīng)變量值沒有關(guān)系 高杠桿值的觀測(cè)點(diǎn)可通過帽子統(tǒng)計(jì)量(hat statistic)判斷 hat.plot <- function(fit){
(3)強(qiáng)影響點(diǎn) 強(qiáng)影響點(diǎn),即對(duì)模型參數(shù)估計(jì)值影響有些比例失衡的點(diǎn)。例如,若移除模型的一個(gè)觀測(cè)點(diǎn)時(shí)模型會(huì)發(fā)生巨大的改變,那么你就需要檢測(cè)一下數(shù)據(jù)中是否存在強(qiáng)影響點(diǎn)了 cutoff <- 4/(nrow(states) - length(fit$coefficients) - 2)
4、如何對(duì)線性模型進(jìn)行改進(jìn)? 1、刪除觀測(cè)點(diǎn); 刪除離群點(diǎn)通常可以提高數(shù)據(jù)集對(duì)于正態(tài)假設(shè)的擬合度,而強(qiáng)影響點(diǎn)會(huì)干擾結(jié)果,通常也會(huì)被刪除。刪除最大的離群點(diǎn)或者強(qiáng)影響點(diǎn)后,模型需要重新擬合
Box-Cox正態(tài)變換 library(car)
library(car)
|
|