在前幾期的內(nèi)容中,我們介紹了多因素回歸分析時(shí),為探討影響因素對(duì)結(jié)局事件的影響大小,可以利用森林圖更直觀的將回歸結(jié)果可視化。還沒來(lái)得及閱讀的小伙伴請(qǐng)點(diǎn)擊查看:
同樣是構(gòu)建多因素回歸模型,往往我們另一個(gè)主要目的是為了對(duì)結(jié)局事件的發(fā)生風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),那么是否也可以將預(yù)測(cè)模型的結(jié)果,像森林圖那樣可視化地展示出來(lái)呢?今天小咖就來(lái)帶大家認(rèn)識(shí)一下神奇的列線圖。
認(rèn)識(shí)列線圖
列線圖(Alignment Diagram),又稱諾莫圖(Nomogram圖),它是建立在多因素回歸分析的基礎(chǔ)上,將多個(gè)預(yù)測(cè)指標(biāo)進(jìn)行整合,然后采用帶有刻度的線段,按照一定的比例繪制在同一平面上,從而用以表達(dá)預(yù)測(cè)模型中各個(gè)變量之間的相互關(guān)系。
列線圖的基本原理,簡(jiǎn)單的說(shuō),就是通過(guò)構(gòu)建多因素回歸模型(常用的回歸模型,例如Cox回歸、Logistic回歸等),根據(jù)模型中各個(gè)影響因素對(duì)結(jié)局變量的貢獻(xiàn)程度(回歸系數(shù)的大小),給每個(gè)影響因素的每個(gè)取值水平進(jìn)行賦分,然后再將各個(gè)評(píng)分相加得到總評(píng)分,最后通過(guò)總評(píng)分與結(jié)局事件發(fā)生概率之間的函數(shù)轉(zhuǎn)換關(guān)系,從而計(jì)算出該個(gè)體結(jié)局事件的預(yù)測(cè)值。
列線圖將復(fù)雜的回歸方程,轉(zhuǎn)變?yōu)榱丝梢暬膱D形,使預(yù)測(cè)模型的結(jié)果更具有可讀性,方便對(duì)患者進(jìn)行評(píng)估。正是由于列線圖這種直觀便于理解的特點(diǎn),使它在醫(yī)學(xué)研究和臨床實(shí)踐中也逐漸得到了越來(lái)越多的關(guān)注和應(yīng)用。
解讀列線圖
閑話少說(shuō),先上文章哈。今天我們以2017年發(fā)表在JACC:Cardiovascular Imaging雜志上的一篇文章《Development and Validation of a Simple-to-Use Nomogram for Predicting 5-, 10-, and 15-Year Survival in Asymptomatic Adults Undergoing Coronary Artery Calcium Scoring》為例來(lái)進(jìn)行說(shuō)明,文中結(jié)果部分展示的列線圖如下圖所示。
我們可以看到列線圖主要由左邊的名稱以及右邊對(duì)應(yīng)的帶有刻度的線段所組成。
列線圖的名稱主要包括三類:
1. 預(yù)測(cè)模型中的變量名稱:例如圖中的年齡(Age)、高血壓(Hypertension)、糖尿?。―iabetes)等信息,每一個(gè)變量對(duì)應(yīng)的線段上都標(biāo)注了刻度,代表了該變量的可取值范圍,而線段的長(zhǎng)度則反映了該因素對(duì)結(jié)局事件的貢獻(xiàn)大小。
2. 得分,包括單項(xiàng)得分,即圖中的Point,表示每個(gè)變量在不同取值下所對(duì)應(yīng)的單項(xiàng)分?jǐn)?shù),以及總得分,即Total Point,表示所有變量取值后對(duì)應(yīng)的單項(xiàng)分?jǐn)?shù)加起來(lái)合計(jì)的總得分。
3. 預(yù)測(cè)概率:例如圖中的5-year survival prob,表示5年的生存概率。
介紹了列線圖的基本要素,下面小咖來(lái)教大家如何利用這張列線圖,讓自己也能成為一個(gè)神奇的預(yù)言家。敲黑板,講到重點(diǎn)了哈。
現(xiàn)在假設(shè)我們是一名優(yōu)秀的心內(nèi)科醫(yī)生,有這樣一位患者,男性,60歲,吸煙,有高血壓和糖尿病史,血脂異常,否認(rèn)CAD家族史,冠狀動(dòng)脈鈣化評(píng)分(CACS)為3分。
小咖作為接診醫(yī)生,在和患者交代病情的時(shí)候,為了向患者說(shuō)明疾病的嚴(yán)重性,就拿出了這張列線圖,自信滿滿的告訴這位患者,以他目前的疾病狀態(tài),預(yù)測(cè)未來(lái)5年、10年和15年的生存概率分別是71%、48%和27%。
那么,小咖是怎么算出來(lái)的呢?其實(shí)很簡(jiǎn)單,比如該患者年齡為60歲,我們就在列線圖年齡為60歲的地方向上畫一條垂直線,即可得到其對(duì)應(yīng)的得分(Points)約為55分。同樣性別為男性,對(duì)應(yīng)的分?jǐn)?shù)為1分,以此類推,找出每個(gè)變量狀態(tài)下對(duì)應(yīng)的得分。
最后將所有變量的得分相加,得到患者的總得分(Total Points)約為165.5分,并以總得分為基礎(chǔ),再向下畫一條垂直線,就可以知道該患者對(duì)應(yīng)的未來(lái)5年、10年和15年的生存率了,是不是很簡(jiǎn)單很容易理解呢!
列線圖的效果評(píng)價(jià)
當(dāng)然,制作列線圖通常要求研究擁有足夠數(shù)量的研究對(duì)象,從而才能夠建立有效的預(yù)測(cè)模型,在列線圖制作之前也需要對(duì)預(yù)測(cè)模型的預(yù)測(cè)能力進(jìn)行驗(yàn)證。常用的效果評(píng)價(jià)方式有:
1. 內(nèi)部驗(yàn)證法
可采用Bootstrap自抽樣法,利用建模自身的數(shù)據(jù)來(lái)驗(yàn)證模型的預(yù)測(cè)效果。Bootstrap自抽樣法是指對(duì)樣本人群進(jìn)行有放回的重復(fù)抽樣,每次抽樣樣本數(shù)相同,這樣同一個(gè)個(gè)體就有可能被抽中多次。利用Bootstrap自抽樣產(chǎn)生的新樣本去評(píng)價(jià)列線圖模型的準(zhǔn)確性,常用C-統(tǒng)計(jì)量來(lái)進(jìn)行衡量,其值越接近于1說(shuō)明列線圖的預(yù)測(cè)能力越準(zhǔn)確。
2. 圖形校準(zhǔn)法
圖形校準(zhǔn)法的基本思想是:首先利用列線圖預(yù)測(cè)出每位研究對(duì)象的生存概率,并從低到高排成一個(gè)隊(duì)列,根據(jù)四分位數(shù)將隊(duì)列分為4組(或者根據(jù)其他分位數(shù)分組),然后分別計(jì)算每組研究對(duì)象預(yù)測(cè)生存概率和相應(yīng)的實(shí)際生存概率(由Kaplan-Meier法計(jì)算)的均值,并將兩者結(jié)合起來(lái)作圖得到4個(gè)校準(zhǔn)點(diǎn),最后將4個(gè)校準(zhǔn)點(diǎn)連接起來(lái)得到預(yù)測(cè)校準(zhǔn)曲線。
理論上標(biāo)準(zhǔn)曲線是一條通過(guò)坐標(biāo)軸原點(diǎn)、且斜率為1的直線,如果預(yù)測(cè)校準(zhǔn)曲線越貼近標(biāo)準(zhǔn)曲線,則說(shuō)明列線圖的預(yù)測(cè)能力越好。
3. 外部驗(yàn)證法
使用一組研究對(duì)象去建立列線圖,再使用另外一組研究對(duì)象(即外部數(shù)據(jù))來(lái)驗(yàn)證列線圖預(yù)測(cè)效果的準(zhǔn)確性。
繪制列線圖
其實(shí),列線圖的繪制也很簡(jiǎn)單,R軟件中的rms程序包,為我們提供了相應(yīng)的函數(shù)功能,最后給大家安利一下繪制列線圖最基本的程序代碼,以供有興趣的小伙伴進(jìn)行學(xué)習(xí)和參考哈。
1. 加載survival和rms程序包,以survival包中自帶的數(shù)據(jù)庫(kù)lung為例 library(survival) library(rms) data(package="survival")
(數(shù)據(jù)格式)
2. 打包數(shù)據(jù) dd<-datadist(lung) options(datadist="dd")
3. 構(gòu)建Cox比例風(fēng)險(xiǎn)回歸模型
4. 繪制列線圖
最終繪制的列線圖如下: 當(dāng)我們?cè)谘芯恐辛?xí)慣了使用相對(duì)風(fēng)險(xiǎn)的指標(biāo)時(shí)(例如OR、HR、RR等),也不妨將這種能夠起到預(yù)測(cè)生存概率作用的列線圖結(jié)合起來(lái),這樣會(huì)使預(yù)測(cè)模型的結(jié)果更加形象、直觀、易懂。
患者可以根據(jù)自身各個(gè)影響因素的水平大小,能夠快速查詢到自己未來(lái)的生存概率,便于引起他們對(duì)健康狀況的重視。此外,放一張列線圖在自己的文章里,是不是也會(huì)顯得逼格更高呢,說(shuō)不定會(huì)讓Reviewer多看兩眼哈。
參考文獻(xiàn): JACC Cardiovasc Imaging. 2017 Jun 9. pii: S1936-878X(17)30449-7
提問(wèn)和答疑:
1. Nomogram是建立在多因素回歸分析的基礎(chǔ)上,這樣的話,最終進(jìn)入模型的變量也就是多因素回歸分析結(jié)果中最終有意義的變量咯? 答:列線圖是展示預(yù)測(cè)模型結(jié)果的一個(gè)可視化工具,預(yù)測(cè)模型最終納入哪些有意義的變量,需要根據(jù)多因素回歸的結(jié)果來(lái)判斷,建議在繪制列線圖之前,先確保最終進(jìn)入預(yù)測(cè)模型的變量都是有預(yù)測(cè)意義的。
2. 最后一個(gè)圖的line preditor是什么意思? 答:Linear Predictor是線性預(yù)測(cè)值的坐標(biāo)軸,利用線性預(yù)測(cè)值,通過(guò)一定的轉(zhuǎn)換函數(shù),轉(zhuǎn)化為對(duì)應(yīng)的概率值。在繪制列線圖中,可以在nomogram函數(shù)中添加一個(gè)參數(shù), lp=FALSE,可以將這個(gè)坐標(biāo)軸隱去,可以不用顯示。
3. 外部驗(yàn)證的時(shí)候,相當(dāng)于是用訓(xùn)練組篩選的變量建模,再套我到另一個(gè)組里,得到另一組的c index,再比較這兩個(gè)值嗎? 答:外部驗(yàn)證,是先用建模組的數(shù)據(jù)建立好預(yù)測(cè)模型,然后在驗(yàn)證組的數(shù)據(jù)中進(jìn)行驗(yàn)證,利用對(duì)驗(yàn)證組的預(yù)測(cè)概率繪制ROC并求C統(tǒng)計(jì)量,因此應(yīng)該只有一個(gè)C統(tǒng)計(jì)量。如果用建好的模型在建模組求C統(tǒng)計(jì)量,此時(shí)就不是外部驗(yàn)證了。 |
|
來(lái)自: 風(fēng)雨兼程dy6tij > 《R》