作者:解螺旋.葉子 如需轉(zhuǎn)載請(qǐng)注明來(lái)源:解螺旋·醫(yī)生科研助手 為了確定兩種或兩種以上變量間相互依賴的定量關(guān)系,參數(shù)及非參數(shù)檢驗(yàn)都不好使。這里就要用到回歸分析。這里介紹簡(jiǎn)單的線性回歸和Logistic回歸在SPSS中怎么去做。 除了資料相互之間進(jìn)行比較的統(tǒng)計(jì)學(xué)方法外,臨床研究中還存在另外一種情況:研究2組資料之間是否相互聯(lián)系。先看一個(gè)具體例子: 這里,如果我們想要研究肺活量是否隨體重變化而變化,就要用到統(tǒng)計(jì)學(xué)上一種重要的統(tǒng)計(jì)方法:回歸分析。先看一個(gè)簡(jiǎn)單的方程式:?=a+bx。怎么樣?象不象初中學(xué)的最簡(jiǎn)單的一次函數(shù)?其實(shí),這就是最簡(jiǎn)單的一次函數(shù)。只是統(tǒng)計(jì)學(xué)家們給它起了個(gè)高大上的名字:回歸方程。如果將兩個(gè)事物的取值分別定義為變量x和y,x為自變量,y為因變量,即y因?yàn)閤的變化而變化。在上面這個(gè)例子中,體重就是x,而肺活量就是y。 一般而言,回歸分析的數(shù)據(jù)需要滿足以下四個(gè)條件: 1. 線性趨勢(shì):x和y的關(guān)系是線性的。如果不是,則不能進(jìn)行線性回歸分析; 2. 獨(dú)立性:因變量y的取值相互獨(dú)立,它們之間沒(méi)有聯(lián)系; 3. 正態(tài)性:因變量y的取值呈正態(tài)分布; 4. 方差齊性:因變量y的方差相同。 后兩個(gè)條件其實(shí)沒(méi)有這么重要。一般的臨床研究只是建立回歸方程,探討x和y的關(guān)系,后兩個(gè)條件不用管它們。那么如何判斷x和y的關(guān)系是否是線性的呢?這就要用到另外一個(gè)重要的工具:散點(diǎn)圖。散點(diǎn)圖就是數(shù)據(jù)(x,y)在直角坐標(biāo)系上的分布圖。這其實(shí)也是初中代數(shù)的內(nèi)容。 圖1,圖2和圖3都有明顯的線性關(guān)系。只不過(guò)圖1,圖2是直線,圖3是曲線。而圖4卻雜亂無(wú)章,不成線性關(guān)系。所以,判斷x和y的關(guān)系是否是線性關(guān)系就是做散點(diǎn)圖。 現(xiàn)在市面上的統(tǒng)計(jì)學(xué)軟件,比如SPSS,都可以做散點(diǎn)圖和計(jì)算回歸方程。我們只要輸入一系列x值和y值。結(jié)果會(huì)輸出a值和b值。就形成了一個(gè)回歸方程。 上面那個(gè)例子:?=0.000419+0.058826x。這里,如果b﹥0,則y隨著x的增大而增大,反映在散點(diǎn)圖上,就是一條斜向上的直線;如果b﹤0,則y隨著x的增大而減小,反映在散點(diǎn)圖上,就是一條斜向下的直線。∣b∣越大,y隨x的變化越大,反映在散點(diǎn)圖上,直線越陡峭。 另外,回歸方程還可以揭示變量x對(duì)變量y 的影響大小,可以由回歸方程進(jìn)行預(yù)測(cè)和控制。即根據(jù)一個(gè)特定的x值,就可以計(jì)算出一個(gè)特定的y值。 上面那個(gè)例子中,自變量和因變量都只有1個(gè),如果自變量多于1個(gè)的情況下怎么辦?還是回到上面那個(gè)例子:現(xiàn)在,我們有12名一年級(jí)女大學(xué)生體重,身高與肺活量的數(shù)據(jù)。如果我們想要研究肺活量是否隨體重和身高變化而變化?體重和身高,那個(gè)指標(biāo)對(duì)肺活量的影響更大。這就要用到統(tǒng)計(jì)學(xué)上另一種重要的統(tǒng)計(jì)方法:多元線性回歸分析。 還是用女大學(xué)生的例子,但是增加了一組自變量?,F(xiàn)在,我們有12名一年級(jí)女大學(xué)生體重,身高與肺活量的數(shù)據(jù)。
如果我們想要研究:肺活量是否隨體重和身高的變化而變化?體重和身高,哪個(gè)指標(biāo)對(duì)肺活量的影響更大?這里就要用到統(tǒng)計(jì)學(xué)上另一種重要的統(tǒng)計(jì)方法:多元線性回歸分析。多元線性回歸分析就是研究一個(gè)因變量(這里是:肺活量)和多個(gè)自變量(這里是:體重和身高)之間的關(guān)系。 和一元線性回歸方程差不多,多元線性回歸方程只是增加了一個(gè)自變量而已:?=a+b1x1+ b2x2。 x1和x2為2個(gè)自變量,y為因變量。在上面這個(gè)例子中,身高是x1;體重是x2;而肺活量就是y。如果通過(guò)計(jì)算,得出a=-0.5657;b1=0.005017;b2= 0.05406。那么這個(gè)方程就可以寫(xiě)作:?=-0.5657+0.005017x1+ 0.05406x2。 b1=0.005017,表示在X2,即體重不變的情況下,身高每增加1cm,肺活量增加0.005017L。利用多元線性回歸方程,還可以進(jìn)行預(yù)測(cè)和預(yù)報(bào)。例如x1 =166,x2=46,代入公式,就可以得出?=2.75。這表示:所有身高為166 cm,體重為46公斤的一年級(jí)女大學(xué)生,估計(jì)的平均肺活量為2.75 L。 那么,現(xiàn)在問(wèn)題變得簡(jiǎn)單了,我們只需要算出a和b即可得到方程式。聰明的同學(xué)們可能已經(jīng)猜到我下面要說(shuō)什么了。那就是,計(jì)算機(jī)?,F(xiàn)在的大部分統(tǒng)計(jì)學(xué)軟件都可以做多元線性回歸分析了。以最常用的SPSS為例,輸出的結(jié)果如下圖所示: 要注意的就是紅圈標(biāo)注的三個(gè)數(shù)字,它們就是a,b1和b2。另外,如果要判斷幾個(gè)自變量誰(shuí)對(duì)因變量的影響更大,就看的標(biāo)準(zhǔn)系數(shù)。就是圖中藍(lán)圈標(biāo)注的二個(gè)數(shù)字。在這里,顯然身高對(duì)肺活量的影響更大。 另外,在多元線性回歸中還存在一個(gè)自變量選擇的問(wèn)題。這是因?yàn)椋翰皇撬械淖宰兞慷紝?duì)因變量有意義。例如,我們?cè)谏弦粋€(gè)例子中再引入一組血壓的數(shù)據(jù),這個(gè)血壓就很有可能和肺活量完全風(fēng)馬牛不相及。自變量選擇的方法有前進(jìn)法,后退法和逐步法。一般采用逐步法就可以取得滿意的結(jié)果。而這一切的一切,計(jì)算機(jī)都是可以代勞的。下圖所示的就是SPSS進(jìn)行逐步法的界面,在紅圈標(biāo)注的下拉菜單里選擇stepwise(逐步法)即可。 輸出的結(jié)果會(huì)自動(dòng)告訴你哪些自變量被包括了;哪些自變量被排除了。 在臨床研究中,很少出現(xiàn)上面這兩種簡(jiǎn)單的情況,回歸分析更多的是為了找到危險(xiǎn)因素。比如,為了研究老年患者顱腦手術(shù)后發(fā)生死亡的危險(xiǎn)因素,研究人員總結(jié)出了以下幾個(gè)可能的危險(xiǎn)因素:年齡,腫瘤的性質(zhì),高血壓,心功能不全,糖尿病。那么,在這些可能的危險(xiǎn)因素里面,哪些是真正有危險(xiǎn)的?并且,哪種危險(xiǎn)因素的危險(xiǎn)性最高呢? 這里要注意到的是:與上兩個(gè)例子不同的是,這里的數(shù)據(jù)都是分類變量。因變量的取值僅有兩個(gè):死亡與生存。自變量的取值也僅有兩個(gè):如腫瘤的良性與惡性,高血壓的有與無(wú)。這時(shí)候,就要用到另外一種重要的回歸分析方法:Logistic回歸分析。 Logistic回歸是一種概率分析,即分析當(dāng)暴露因素為x時(shí),個(gè)體發(fā)生某事件(y)的概率的大小。Logistic的方程式為y=β0+β1X1+β2X2+…βmXm。怎么樣?看著眼熟吧? β1,β2…βm稱為回歸系數(shù),反映了在其他變量固定后,x=1與x=0相比發(fā)生y事件的概率
記住OR越大,發(fā)生結(jié)果的可能性越大。因?yàn)檫@類資料是分類資料,所以在做Logistic回歸分析之前的第一件事就是賦值。顧名思義,就是把分類資料賦予一定的數(shù)值。一般賦予0或者1的數(shù)值。陰性或者較輕的情況賦予0;陽(yáng)性或者較重的情況賦予1。如下表所示。
賦值完成之后,就可以正式開(kāi)始Logistic回歸分析了。我們還是以最常用的統(tǒng)計(jì)學(xué)軟件SPSS為例,得出的結(jié)果如下表所示。 紅圈標(biāo)注的數(shù)字,就是Logistic的方程式中的β0和回歸系數(shù)。把相應(yīng)的數(shù)字代入方程式,就可以得出Logistic回歸方程式: y=-9.561+0.098X1+0.066X2+0.058X3-1.013X4+0.075X5。那么,如何判斷在這些可能的危險(xiǎn)因素里面,哪些是真正有危險(xiǎn)的?這就需要看紫圈標(biāo)注的數(shù)字,如果p﹤0.05,就認(rèn)為是真正的危險(xiǎn)因素;如果p﹥0.05,就認(rèn)為不是危險(xiǎn)因素。這個(gè)例子里就是心功能不全。另外,如何判斷哪種危險(xiǎn)因素的危險(xiǎn)性最高呢?那就要看藍(lán)圈標(biāo)注的最后一列數(shù)字。這列數(shù)字其實(shí)就是OR。數(shù)值越大,表明發(fā)生結(jié)果的概率越大。在這個(gè)例子里面,年齡的危險(xiǎn)性最高。 另外,Logistic回歸分析對(duì)樣本量是有一定要求的。這里有個(gè)簡(jiǎn)單的估算方法:樣本量為自變量個(gè)數(shù)的10倍。在本文的例子中,有5個(gè)自變量,那么就要有至少50位患者的數(shù)據(jù),才能進(jìn)行Logistic回歸分析。 這兩種回歸分析是最常用,也是最簡(jiǎn)單的。其他還有Cox回歸和Poisson回歸,要深入系統(tǒng)的學(xué)習(xí)統(tǒng)計(jì)的話,就來(lái)報(bào)名解螺旋《醫(yī)學(xué)統(tǒng)計(jì)實(shí)戰(zhàn)培訓(xùn)班》吧。 本課程講者作為一名臨床一線的醫(yī)生,將從一個(gè)臨床醫(yī)生的視角講解醫(yī)學(xué)統(tǒng)計(jì)學(xué),力求更貼近醫(yī)生以及醫(yī)學(xué)生的思維方式。通過(guò)2天系統(tǒng)的學(xué)習(xí)可以應(yīng)付大多數(shù)的臨床科研論文寫(xiě)作過(guò)程中的統(tǒng)計(jì)學(xué)問(wèn)題。 |
|