轉(zhuǎn)自 臨床研究中處理缺失數(shù)據(jù)的多重插補法:潛力和陷阱 – sci666 在流行病學和臨床研究中,數(shù)據(jù)缺失是不可避免的,但是在醫(yī)學研究中常常忽視了缺失數(shù)據(jù)對研究結(jié)果有效性的破壞。部分原因是醫(yī)學研究者在缺失數(shù)據(jù)問題上,統(tǒng)計方法存在欠缺。但是,現(xiàn)在可以在統(tǒng)計軟件中使用多重插補法來處理缺失數(shù)據(jù)。越來越多地研究使用了這種處理缺失數(shù)據(jù)的方法,但是仍需要謹慎使用,以免產(chǎn)生誤導性結(jié)論。 本文回顧了流行病學和臨床研究中缺失數(shù)據(jù)會導致偏倚和信息丟失的原因。討論了多重插補法可能通過減少偏倚或提高準確度來提供幫助,并揭露了多重插補法在臨床應用中的潛在陷阱。最后描述了在醫(yī)學期刊中使用多重插補進行分析的最新用途和報告,并提出了進行此類分析和報告的指南。 目 錄
1. 數(shù)據(jù)缺失的影響研究人員經(jīng)常通過只納入完整病例分析來解決缺失數(shù)據(jù)問題,納入的完整病例的所有變量都不存在缺失數(shù)據(jù)。但是,這樣處理缺失數(shù)據(jù)會使結(jié)果存在偏倚。另外變量中缺失數(shù)據(jù)的累積效應通常會排除大部分原始樣本,進而會損失結(jié)果的準確性和效力。 數(shù)據(jù)缺失的原因通常分為3類:完全隨機缺失(MCAR)、隨機缺失(MAR)和非隨機缺失(MNAR)。
當缺失數(shù)據(jù)是隨機缺失,而不是完全隨機缺失時,基于完整病例分析的結(jié)果會存在偏倚??梢允褂萌缍嘀夭逖a法來克服這種偏倚,多重插補法可以將具有缺失數(shù)據(jù)的病例進行分析。 不幸的是觀察性數(shù)據(jù)無法判斷數(shù)據(jù)是隨機缺失還是非隨機缺失。這種情況下,只能對缺失數(shù)據(jù)的類型進行不同的假設(shè),并評估在不同的假設(shè)情況下缺失數(shù)據(jù)對結(jié)果產(chǎn)生的影響,從而分析缺失數(shù)據(jù)所帶來的偏移問題。 2. 處理缺失數(shù)據(jù)的方法臨床上經(jīng)常使用各種方法來處理缺失數(shù)據(jù)。方法包括:用觀測數(shù)據(jù)中推算出的值代替缺失值(如觀測值的平均值);將缺失值當作一個類別水平;使用最后一次測量值代替缺失值。這些方法都不是最好的處理缺失值的統(tǒng)計方法,常??赡軐е聡乐氐钠?。 當在隨機對照試驗中,部分病例缺少了結(jié)局事件的數(shù)據(jù)時,常見敏感性分析是將缺失值全部用“好”結(jié)局或“差”結(jié)局替換,并分析這兩種情況下出現(xiàn)的結(jié)果。如果在二分類結(jié)局中只存在少量缺失值,這種方法是很有用的,但是由于將所有的缺失值全部估計為好還是不好是一個很強的假設(shè),因此當結(jié)局有中等數(shù)量的缺失數(shù)據(jù)時,敏感性分析會對干預效果做出非常廣泛的估計。當結(jié)局是定量數(shù)據(jù)時,由于沒有明顯的好或壞的結(jié)局,因此無法進行該類型的敏感性分析。 如果假設(shè)缺失數(shù)據(jù)屬于隨機缺失,那么與基于完整病例分析相比,納入不完整數(shù)據(jù)病例的分析所產(chǎn)生的偏倚更小且在統(tǒng)計上更有效。有時可以通過建立一個更全面的模型來合并部分觀測變量的信息,如使用隨機效應模型將來自中間時間點的部分觀察到的變量的信息合并到一起,或者使用貝葉斯方法將部分觀察到的變量合并到一個完整的統(tǒng)計模型中,由此可以得出感興趣的分析。 其他方法包括對缺失數(shù)據(jù)進行加權(quán)分析以及最大似然估計法。 本文主要關(guān)注多重插補法,這是目前常見的處理缺失數(shù)據(jù)的方法。 3. 什么是多重插補法?多重插補法是解決缺失數(shù)據(jù)問題的常用方法,在幾種常見的統(tǒng)計軟件中都可以使用。 多重插補法通過合理地創(chuàng)建幾個不同的插補數(shù)據(jù)集,并適當結(jié)合每個數(shù)據(jù)集中獲得的結(jié)果,以此來保留缺失數(shù)據(jù)類型的不確定性。 第一步是通過將缺失值用不同的插補值替代來建立多個不同的數(shù)據(jù)集副本。這些插補值是基于觀測數(shù)據(jù)對缺失數(shù)據(jù)的預測分布中進行抽樣得到的,因此多重插補是基于貝葉斯方法。插補程序在預測缺失值時必須充分考慮所有的可能性,因為我們永遠無法知道缺失數(shù)據(jù)的真實值。 第二步是使用標準統(tǒng)計方法使感興趣模型擬合每一個插補數(shù)據(jù)集。由于插補數(shù)據(jù)具有變異性,因此每個插補數(shù)據(jù)集中的插補關(guān)系會有所不同,并且僅當將它們綜合在一起以提供總體插補關(guān)系時,它們才有用。 例如,考慮一項調(diào)查收縮壓與隨后冠心病風險之間關(guān)系的研究,其中某些觀察對象缺少收縮壓數(shù)據(jù)。收縮壓數(shù)據(jù)缺失的可能性隨年齡(老年人測血壓機會較多)、體重指數(shù)和吸煙史的增加而降低(心臟病風險因素和合并癥人群測量比較多)。 如果我們假設(shè)數(shù)據(jù)屬于隨機缺失,并且在擁有收縮壓數(shù)據(jù)的人群中包含了各個年齡層、不同吸煙史、不同體重指數(shù)和不同類型冠心病的人群,那么我們可以使用多重插補來估算收縮壓與冠心病之間的整體關(guān)聯(lián)。 多重插補法可以提高醫(yī)學研究的有效性,然而,多重插補程序要求使用者根據(jù)觀測數(shù)據(jù)來預測每個含缺失值的變量的分布。多重插補結(jié)果的有效性取決于仔細、恰當?shù)慕7椒ā6嘀夭逖a法不應該被看作是一種簡單隨時可用的常規(guī)技術(shù),在任何可能的情況下使用前都應該得到統(tǒng)計專家的幫助。 4. 多重插補法中的陷阱BMJ上一篇文章基于大型研究數(shù)據(jù)庫使用QRISK工具來預測心血管風險。研究人員在數(shù)據(jù)分析中使用多重插補法來處理缺失數(shù)據(jù)。然而令人驚訝的是,在建立的預測模型中,發(fā)現(xiàn)心血管風險與膽固醇水平無關(guān)。 作者隨后澄清說,當他們基于完整病例分析時,膽固醇與心血管風險之間又存在明確的關(guān)聯(lián)。此外,在使用經(jīng)過修正、改進的插補程序后,也獲得了相似的結(jié)果。因此,要意識到多種插補分析中可能出現(xiàn)的問題,我們將在下面進行討論。 4.1 插補時忽略了結(jié)局變量我們經(jīng)常會需要分析探索一個或多個預測變量與結(jié)局變量之間的關(guān)聯(lián),但是某些預測變量存在缺失值。在這種情況下,結(jié)局變量會攜帶有預測變量缺失數(shù)據(jù)的信息,這個信息在插補分析中需要使用到。 4.2 非正態(tài)分布變量處理許多多重插補程序都假設(shè)數(shù)據(jù)是正態(tài)分布數(shù)據(jù),因此對非正態(tài)分布數(shù)據(jù)采用多重插補法可能會對結(jié)果造成偏倚。一個比較可靠的方法是在插補之前將這些變量轉(zhuǎn)換為近似正態(tài)分布變量,然后插補之后再將得到的插補值轉(zhuǎn)換為原來的數(shù)據(jù)形式。當分類變量存在缺失數(shù)據(jù)時,又會出現(xiàn)不同的問題。 4.3 隨機缺失假設(shè)“隨機缺失”是分析時做出的一種假設(shè),而不是數(shù)據(jù)屬性。例如,如果在插補模型中納入一個可以預測感興趣變量中缺失數(shù)據(jù)的變量,隨機缺失的假設(shè)也許是合理的。而如果模型中沒有納入該變量,假設(shè)也許不合理。只有在插補模型中納入足夠多的可預測缺失數(shù)據(jù)的變量時,多重插補分析才能避免偏倚。比如說,如果社會經(jīng)濟地位較高的人更有可能測量收縮壓,較少可能存在較高收縮壓。那么除非在插補收縮壓時,模型中納入了社會經(jīng)濟地位這個變量,否則多重插補將低估平均收縮壓,并可能錯誤估計收縮壓與冠心病之間的關(guān)系。 在插補模型中納入各種變量是很明智的,不這樣做也許意味著隨機缺失的假設(shè)不合理,并且實質(zhì)分析的結(jié)果是有偏倚的。 4.4 非隨機缺失數(shù)據(jù)有些數(shù)據(jù)也許不是隨機缺失數(shù)據(jù),因為無法使用觀測數(shù)據(jù)來解釋缺失值與觀測值之間的系統(tǒng)差異。在這種情況下,多重插補可能會給出誤導性的結(jié)果。例如,在一項研究抑郁癥預測因素的研究中,如果一個人由于約會當天感到沮喪而更容易錯過約會,那么即使在插補模型中納入大量變量,也不可能使隨機缺失假設(shè)看起來合理。 當數(shù)據(jù)不是隨機缺失時,基于多重插補分析產(chǎn)生的偏倚可能與完整病例分析中的偏倚一樣大或更大。不幸的是,我們無法從已有數(shù)據(jù)中確定偏移究竟有多大。數(shù)據(jù)分析人員有責任去考慮缺失數(shù)據(jù)的所有可能原因,并評估非隨機缺失的可能性。 如果完整病例分析和多重插補分析得到的結(jié)果不一樣,數(shù)據(jù)分析人員應找到原因,并在文章中進行報告。 4.5 計算量問題多重插補的計算量很大,涉及近似值。一些算法需要重復運行才能產(chǎn)生足夠的結(jié)果,并且當缺失數(shù)據(jù)很多時,所需的運行長度會增加。當算法在與開發(fā)算法不同的環(huán)境下運行時,可能會出現(xiàn)無法預料的困難,例如缺失數(shù)據(jù)的比例很高,變量的數(shù)量很多以及觀察值很少。這些問題將在其他地方更全面地討論。 4.6 實際影響前面討論的在QRISK心血管風險預測工具的原始版本和修訂版本中使用的插補模型已經(jīng)得到澄清。膽固醇與心血管風險之間沒有關(guān)聯(lián)的主要原因是,在插補膽固醇缺失值時遺漏了心血管疾病的結(jié)局,然后基于膽固醇的插補值計算了膽固醇與HDL的比例。由于缺失數(shù)據(jù)的比例很高(70%的HDL膽固醇值缺失),使得這些錯誤的影響放大了。 5. 建議的報告指南論文作者提供插補分析的詳細信息給同行評審是可行和合理的,而且不會影響論文的實質(zhì)性研究問題???列出了應在補充材料或在主文稿中提供的信息,補充了流行病學文獻中使用多重插補報告分析的建議。
6. 總結(jié)多重插補法可以改善醫(yī)學研究結(jié)果的有效性,并減少由于數(shù)據(jù)缺失而造成的資源浪費。與收集數(shù)據(jù)的成本相比,多重插補法所需的成本較小。如果因為多重插補法中可避免的陷阱而減慢了方法的廣泛使用,那將是很可惜的。 |
|
來自: 閑庭之雨 > 《統(tǒng)計分析方法》