午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

多因素回歸如何進行自變量篩選(上)? | 2周掌握統(tǒng)計學與SPSS(D31-1)

 劉金宸 2022-12-30 發(fā)布于云南
Day 31-1:回歸分析的自變量篩選方法(上)

本日學習指南

1. 微信群內視頻2段(30分鐘)

2. 公眾號推文2篇:D31-1 D31-2

3. SPSS 實例練習與群內討論

請務必觀看課程視頻再學習推文,否則效果不佳!

以下文字版教程,今后可能會失效,如需獲得全套視頻課程,以及永久版的文字版教程,請加入公益免費課程群(發(fā)送“打卡”到公眾號),全面學習醫(yī)學統(tǒng)計學與SPSS應用


回歸分析是醫(yī)學研究最重要的手段,其中目的是探討多因素情況下,各個因素的獨立效應。那么,困惑諸多分析者的問題是,無論是醫(yī)院的電子病歷、還是調查研究,均涉及到幾十個甚至上百個研究因素(我們稱之為自變量),如何篩選構建一個多因素回歸模型呢?

也就是說,多因素回歸時,到底哪些變量作為自變量呢?

篩選自變量,最簡單的方式、也最常見的方式是“先單因素后多因素法”,即先開展單因素回歸,篩選出P值較小者一起納入多因素回歸模型。這種方法,鄭老師上課也推薦給非統(tǒng)計學專業(yè)的醫(yī)學生,不是說它是最好的方法,而是它最簡單粗暴、最容易上手。
 
我今天要回答一個問題是,單因素分析后,P值小于多少,才被納入回歸模型?是P0.05嗎?

一、研究案例


這是一項關于胰腺癌病人生存時間的研究。該研究的終點為死亡,此外結局指標還包括生存時間。跟結局有關的研究變量較多,本文分析主要目的是探討影響因素,也就是影響胰腺癌病人生存時間的因素有哪一些?
圖片

二、先單因素、再多因素的統(tǒng)計方法


中國研究者最常見的回歸方法就是先單因素、再多因素
第一步,對上述變量均分別采用單因素回歸方法。結果如下表2,性別、胰膽管浸潤程度、占位數(shù)均無統(tǒng)計學差異,手術年齡、術中化療、有無腹膜轉移和TNM分期有統(tǒng)計學差異(P≤0.05)
圖片

第二步,挑選P值較小者,納入多因素回歸模型。本案例挑選P值較小者(P ≤0.05)的變量:手術年齡、術中化療、有無腹膜轉移和TNM分期,將其納入回歸模型中。
 
第三步,采用向前逐步回歸法(Forward),開展多因素分析。結果見表3。最終構建的模型中包括了手術年齡、術中放療和TNM分期,且各因素與生存時間之間均有統(tǒng)計學意義(P0.05)。
圖片

三、為什么要先單后多


比如,現(xiàn)在研究要評價結胰腺癌患者生存的影響因素(后期來構建預測模型),與患者有關的因素包括患者的基本情況、患者病情、患者入院治療、用藥的各種特征、出院后行為、飲食、以及就診特征,可能各因素都會影響生存結局。
 
研究影響生存結局的因素可以構建多因素COX回歸模型。構建COX回歸模型時,是要同時把所有自變量(也就是原因變量)納入回歸方程嗎?

當然不能,理由如下:
(1)這些因素作為自變量放在一起,各個變量的復雜的關系,比如共線性問題,比如存在著中間變量,可能會導致模型構建失敗。
(2)任何一個回歸模型,往往基于有限樣本量構建。樣本量和納入模型自變量數(shù)量息息相關,太多變量而樣本量不足時,同樣模型構建失敗。因此,回歸分析一般對樣本量有要求。
(3)回歸分析探討影響因素,后期是為了構建預測模型,自變量個數(shù)也不能太多。為什么,預測模型是為了后期預測患者結局,需要采集模型所有的自變量的指標值,測定指標需要成本,自變量個數(shù)越多,則預測成本越高。
 
因此,必須篩選為數(shù)不多、合適的變量進入回歸模型??偟膩碚f,我用一個形容詞來說回歸模型構建的理念:“大道至簡”。模型不要太復雜!

在具體的處理上,可以采用'嚴進嚴納' 的理念進行自變量篩選。嚴進嚴納的方法基本理念是,即在納入自變量的時候需要嚴格納入,在排除自變量的時候,沒有多大意義的別在最終模型中來。

四、P ≤0.05才被納入模型嗎?


大家從第三點可以理解原因:主要就是怕自變量太多而又關系太復雜,樣本量不夠多,模型構建失敗。一個線性回歸模型,需要5-10以上的樣本量;logistic需要10-15倍的樣本量。那么有限的樣本量,你不能一下子把所有的感興趣的變量全部放進去,那樣肯定無法成功形成回歸模型,造成多因素好回歸所有的P值都>0.05。

所以才去的措施是:嚴納!挑選少量的自變量進入模型。嚴納的方式很多,對于初學者,簡單粗暴而且被認可的方法就是把單因素分析P值較小者納入到回歸模型中來。

所以,一定要P0.05才納入進來嗎?不是的!

(1)很多變量雖然單因素回歸分析P>0.05,也有可能多因素回歸P0.05。所以,不能就卡在0.05的界限。個中原因我就不多說了!
(2)如果你的自變量非常重要,特別是核心變量,哪怕單因素分析P較大,也值得多因素回歸放進去分析
(3)很多時候自變量個數(shù)也就是3~5個,而樣本量較大,這個時候根本不怕自變量太多,沒有必要先單因素后多因素。

因此,我把情況分為以下幾種,僅供參考:

第一種:全部納入
這種方法要求自變量較少,自變量之間關系簡單,多重共線性不嚴重。一般情況下,自變量個數(shù)不太多(比如少于10個),且樣本量是自變量個數(shù)20倍以上,可以采用本方法。

第二種方法:單因素篩選納入(P值較小者,P0.2或者0.1)
這種方法要求自變量不是那么多,但樣本量也不是那么大,因此可以考慮先單因素后多因素回歸的方法。P值不要過于嚴格,一般P<0.2就可以了!

第三種方法:單因素篩選納入(P值較小者,P0.05)
這種方法出現(xiàn)在自變量非常多幾十個上百個,單因素分析P≤0.05者超過10個以上(P≤0.2的自變量更多了)。這種情況下,嚴格控制多因素回歸自變量個數(shù)。P≤0.05者納入多因素回歸分析中。

五、特別注意


1.上述的方法是本人統(tǒng)計分析習慣,沒有特別的指導文獻,請謹慎采納。

2.“先單后多”的回歸方法是初學者模式,若您要發(fā)表高水平文章,有更多的選擇。詳情可見下面的系列文章,會讓你大開眼界!
12篇文章,手把手教你如何科學地構建回歸模型!

3. “先單后多”的單因素分析,并不是一定要單因素線性回歸或者單因素logistic回歸,單因素線性回歸可以用t檢驗或者F檢驗代替;單因素logistic回歸可以用卡方檢驗代替。

詳細可見下面鏈接學習:
兩組均數(shù)比較,可以用方差分析嗎?談談結果一樣的那些統(tǒng)計方法。

4.本篇文章是本人回歸原則“嚴進嚴納”的上篇,下篇我將介紹嚴納:要不要使用逐步回歸法! 

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多