午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

從方差到協(xié)方差分析,這里有你需要掌握的重要知識點 | 護理科研

 Nursing小班長 2020-08-08

作為統(tǒng)計學(xué)的重要內(nèi)容之一,方差分析大家或多或少都聽說過,而且知道,方差分析是用在三個或三個以上的組間比較(兩組比較用t檢驗)??墒乾F(xiàn)在突然冒出另一個詞——協(xié)方差后,好像一下子無從下手了。今天,我們就借講述協(xié)方差分析的機會幫大家一起梳理整個方差分析的所有重點內(nèi)容。

1. 從方差說起

做方差分析當(dāng)然不能不懂什么是方差。我們通過下面這個例子來回顧一下方差的概念。

例如,某地區(qū)男性身高的總體均數(shù)為1.7(m),根據(jù)這個信息,我們大概可以推測這個地區(qū)每個男性的身高都會在1.7上下波動,你可能是1.75,他可能是1.68。

我們用每一個個體的身高值與總體均數(shù)(即1.7)相減,將差值做平方,然后加和再除以總?cè)藬?shù),就得到了方差(開方后即得到“標(biāo)準差”)。

因此,方差或者標(biāo)準差是綜合衡量一組數(shù)據(jù)個體間差異大小的重要指標(biāo),統(tǒng)計學(xué)上稱為離散趨勢。

方差越大(或者說標(biāo)準差大),就證明,平均而言,數(shù)據(jù)離均數(shù)越遠,人們的身高波動很大,比如,有人可能是1.8,而有的人是1.5;

方差小,則意味著,大家身高差異小,可能一個人是1.71,另一個是1.69。這里可以想象一下,參加國慶閱兵隊伍的士兵,身高的方差肯定特別小,因為大家身高幾乎一樣。

2. 方差分析是在做什么

對于方差分析,教科書上是這樣解釋的:因為方差是反映數(shù)據(jù)變異程度的指標(biāo),方差分析也稱變異度分析,其基本思想是根據(jù)研究的目的和設(shè)計類型,將全部觀察值的總變異分解為兩個或多個部分,然后將分解的變異與隨機誤差引起的變異進行比較,來推斷某個研究因素是否真正存在影響效應(yīng)。

好理解嗎?我想大部分初學(xué)者理解起來都很困難。上面這段話中出現(xiàn)最多次、同時也最不好理解的關(guān)鍵詞或許是——變異,所以,我們先來好好看看這個詞。

什么叫做變異?

為了與生物學(xué)中的基因變異相區(qū)別,我認為在這里把“變異”理解為“差異”可能更為合適。

比如,一個班每個學(xué)生的生日、身高、體重等幾乎都不可能完全相同,一定會有不同。再者,我們在醫(yī)學(xué)研究中經(jīng)常會遇到,不同病人接受同種藥物治療后所表現(xiàn)出現(xiàn)的療效有時很不同……這些不同,都是統(tǒng)計學(xué)上所稱的“差異”。

那么,這些差異或者說變異意味著什么?事物之間展現(xiàn)的差異代表了什么?

答案是信息!

身高體重的差異,給了我們誰更高誰更壯的信息;某項生理指標(biāo)的差異,例如血壓,提供了健康與非健康的信息;兩種藥物或治療方法的差異,獲得了孰優(yōu)孰劣的信息……

因此,客觀的講,做統(tǒng)計學(xué)研究,就是希望在這個現(xiàn)實社會中透過大片的數(shù)據(jù)獲取我們想要的信息。

因此,方差,作為衡量數(shù)據(jù)離散程度(也稱變異程度)的最常用的指標(biāo),其大小就決定了數(shù)據(jù)所攜帶信息量的大小,而方差分析就是在告訴我們,這些信息可不可信!

比如我們想比較三種治療糖尿病的藥物(分別稱為A、B、C)的效果是否一樣,怎么辦呢?

我們知道可以做臨床實驗,統(tǒng)計三種藥物的療效。

如果發(fā)現(xiàn)A、B、C三種藥物效果不同,我們就會想,這個差異到底可不可靠?如果重復(fù)再做一次試驗,是否還會出現(xiàn)這樣的差異?

要回答這些問題,我們就需要分析是什么導(dǎo)致了這三種藥物效果的不同,也就是要區(qū)分:這個差異哪些是由于藥物的作用,哪些純粹是因為運氣。而這個區(qū)分的過程就是方差分析的主要內(nèi)容。

3. 方差分析的全過程:以one-way為例

下面,我們通過一個具體的案例看看單因素(one-way)方差分析的全過程。

為了解大骨節(jié)病與糧食中微量元素硒含量之間的關(guān)系,某研究團隊調(diào)查了A(渭源縣)、B(青州市)兩個大骨節(jié)病區(qū)和C(泰山區(qū))、D(長清區(qū))兩個非大骨節(jié)病區(qū)。

每個病區(qū)隨機抽取20戶農(nóng)戶并采集面粉,檢測面粉中硒元素含量(μg/kg),試分析這4個地區(qū)面粉中硒含量是否存在差異。具體的數(shù)據(jù)情況如下表1。

表1 四地區(qū)面粉硒元素含量樣本數(shù)據(jù)表

我們將上述數(shù)據(jù)繪制成圖形(如下圖,每個空心小圓圈代表一個樣本值),可以很直觀地看到,這80個樣本值(20*4)各不相同,即它們存在差異。忽略其他潛在的混雜因素,這種差異的原因可能是由于它們來自不同的地區(qū),但因為四個小組內(nèi)部的數(shù)值也都一一不同,所以,差異也可能僅僅是因為隨機誤差,通俗地理解就是人們說的運氣導(dǎo)致的。

但是仔細地觀察發(fā)現(xiàn)兩個病區(qū)的數(shù)據(jù)好像明顯要低一些,這便提示地區(qū)的不同確實有可能造成了目前的差異。

為了驗證我們的猜測,就需要采用方差分析來檢驗:病區(qū)與非病區(qū)面粉硒含量的差異是否具有統(tǒng)計學(xué)意義。

這里需要再明確一點的是,我們的目標(biāo)是比較這四個地區(qū)面粉中硒含量是否有差異,在實際操作中,我們比較的是四個地區(qū)硒含量的總體平均數(shù),因此,只要總體平均數(shù)有差異,我們就說四地區(qū)硒含量有差異。

要進行方差分析,我們首先要假設(shè),這四組數(shù)據(jù)都沒有差異,注意是都沒有!

在這個假設(shè)下,我們可以把這四組數(shù)據(jù)看做是一個大組,即將上述80個數(shù)據(jù)視為一個整體。對于這個整體,我們可以計算一個平均數(shù)和標(biāo)準差,即表格中72.22和20.00。

可是實際情況下,這80個數(shù)據(jù)是分屬于四個小組的,因此我們也可以分別計算這四個小組的平均數(shù),即57.11、55.58、85.62、90.55。

如果假設(shè)成立(即四組數(shù)據(jù)都沒有差異),那么這四個小組的平均數(shù)應(yīng)該是圍繞著整體平均數(shù)(即72.22)上下波動的,互相差異應(yīng)該不是很大。但現(xiàn)在我們實際獲得的數(shù)據(jù)卻顯示,小組中最低的均數(shù)為57.11、最大的為90.55,直觀上看都與72.22的距離不小,所以我們就會懷疑不能把它們看做一個整體(更嚴謹?shù)谋磉_是,它們不是來自同一個總體),從而拒絕它們相同的假設(shè)。

順著這個思路,我們獲得下面這張表格(表2):

表2 方差分析一般結(jié)果表

上述表格中涉及的具體的計算過程大家不需要細看,只需大概了解所謂的“離均差平方和(SS)”和“均方(MS)”的計算方法,然后對照前面我們談到的方差的概念和計算方法,你是否會發(fā)現(xiàn),不明所以的“均方(MS)”其實可以看做是一種特殊類型的“方差”!

對照下圖方差的計算公式:左邊是離均差平方和,右邊是自由度。

我們首先看衡量“組內(nèi)變異”的均方(MS組內(nèi)),在各個小組內(nèi)部因為沒有地區(qū)差異,所以MS組內(nèi)的大小大小僅反映了隨機誤差(即運氣)的情況。而當(dāng)假設(shè)四組總體均數(shù)相同時,組間均方(MS組間)的大小也僅僅反映隨機誤差的大小。

如何理解這里的談到的“隨機誤差”呢?

對于來自同一個總體的兩個或多個樣本的差異我們可以簡單理解為隨機誤差,也就是說,雖然表面上它們不同,但這種不同并沒有意義,也不會反映額外的信息,僅僅是因為運氣導(dǎo)致的。好比你和別人擲色子比大小,雖然你們獲得的點數(shù)不同,但這種不同完全是因為運氣,不能說明任何其他的問題,同時也不會出現(xiàn)一個人總贏、另一個總輸?shù)木置妗?/p>

但是如果對方悄悄在色子上做了點手腳,知道怎樣擲可以獲得大的點數(shù),這個時候,你們點數(shù)的差異就不再僅僅因為運氣,還有色子的原因。用統(tǒng)計學(xué)的語言來說,就是你們的差異不僅包含了隨機誤差,還包含了其他因素。所以,下次如果感覺自己總是在輸,就要看看是不是色子出現(xiàn)了問題。

回到本例,既然MS組間和MS組內(nèi)這兩者都僅反映隨機誤差的大小,那么其攜帶的信息量就應(yīng)該沒有差異(提示:方差的大小決定了數(shù)據(jù)的信息量),由此,在數(shù)值上MS組間與MS組內(nèi)差異不大,所以使用MS組間除以MS組內(nèi)時,所獲得F值原則上應(yīng)該在1附近。

如果現(xiàn)在我們獲得的數(shù)據(jù)計算出來的F值比1大很多(對應(yīng)的P值會很?。?,則意味著MS組間遠大于MS組內(nèi),從而表示,MS組間攜帶了多余的信息,因此,可以證明MS組間的差異不僅僅包含隨機誤差,還包含其他因素(比如地區(qū)不同),結(jié)合本例,即意味著四地區(qū)間面粉硒含量不都相同!

將上述數(shù)據(jù)用SPSS運算后獲得結(jié)果如下表3。很顯然,F(xiàn)值超過46,遠大于1(注意,在正式情況下F值并非和1比較,這里僅為了方便理解),其對應(yīng)的P值遠小于0.05,由此拒絕零假設(shè),差異有統(tǒng)計學(xué)意義,可以認為這四個地區(qū)硒含量的總體均數(shù)不全相等,也就是說至少有兩個地區(qū)總體均數(shù)不等。

表3 四地區(qū)硒含量方差分析結(jié)果表

4. 從one-way到two-way

一般的衛(wèi)生統(tǒng)計學(xué)教課書中把two-way(雙因素)方差分析稱之為“隨機區(qū)組設(shè)計的方差分析”。我們認為,直接稱之為雙因素方差分析可能更好理解。不過這里稱作“隨機區(qū)組設(shè)計”,也是有其他特別的考慮?!半S機區(qū)組設(shè)計”是實驗研究的概念,強調(diào)的是科學(xué)地獲取數(shù)據(jù)的方法,力爭減少混雜因素。但從統(tǒng)計方法的角度來看,隨機區(qū)組設(shè)計的方差分析其實就是增加了一個新的分組因素,因此,其基本思想實際與單因素方差分析并無區(qū)別。

比如,某團隊想研究人們對當(dāng)前生活滿意度的情況,通過問卷調(diào)查收集了人們對生活滿意度的得分(0~100),現(xiàn)在想探究教育程度與滿意度得分的關(guān)系(教育程度分為三組:高中及以下、大專及本科、研究生及以上)。很明顯,這是一個單因素方差分析的問題,即比較教育程度不同的三組人群,他們的滿意度得分的均數(shù)是否有差異。

可是除了教育程度以外,其他因素也可能影響人們對生活的滿意度,此時,如果我們考慮加入另一個分類變量,比如性別,則當(dāng)我們再進行方差分析時,就屬于兩因素(two-way)的情況了。

為了方便表述,這里我們將“生活滿意度得分”稱之為因變量,用Y表示;將“教育程度”和“性別”稱為“自變量”,分別用“X1”和“X2”表示。

如下表,標(biāo)準的雙因素方差分析的結(jié)果表(或稱隨機區(qū)組設(shè)計方差分析表),相對于上文中的單因素方差分析表,表格中僅多了一行“區(qū)組”。

所以這里,我們其實可以直接將“處理組”看成“X1”;將“區(qū)組”看成“X2”。按照上文單因素方差分析的邏輯直接推廣即可。

比如,在本例中,為了看“教育程度”和“性別”是否會影響人們目前生活的“滿意度得分”,則只需分布看F處理(即F_X1)和F區(qū)組(即F_X2)所對應(yīng)的P值大小判斷兩次即可。

5. 協(xié)方差怎么理解

無論是單因素還是雙因素方差分析,我們可以發(fā)現(xiàn),它們都有一些共性,比如研究的因變量(如上文的硒含量、滿意度得分),都是定量變量;而自變量,即分組變量(如地區(qū)、教育程度、性別)都是定性變量。

現(xiàn)在我們將上文“滿意度得分的例子”繼續(xù)延伸:除了我們關(guān)注的“教育程度”和“性別”外,還有其他變量會影響人們對生活的滿意度得分嗎?

當(dāng)然有,比如收入水平。很顯然,一個人的工資多少完全可能直接決定他目前對生活的滿意度。因此,倘若我們忽視了調(diào)查對象的收入情況,僅研究教育程度和性別的影響,這樣就可能造成結(jié)果產(chǎn)生偏移,也就是說可能本來沒意義的結(jié)果變成了有意義,從而誤導(dǎo)我們的判斷。

因此,在這種情況下,“收入”這個變量就被稱為“協(xié)變量”,本例中記為“Z”。納入?yún)f(xié)變量的方差分析,即稱協(xié)方差分析。一般而言,進行協(xié)方差分析的協(xié)變量為“定量變量”,比如本例中的“人均月收入”,它一般不是研究者重點研究的變量(本例中重點研究的是教育程度和性別),但因為它會對分析結(jié)果造成干擾,因此在分析過程中必須要將其納入。

所以,協(xié)方差分析仍然是建立在方差分析這個基本框架之上的,因此,其思想與單因素即雙因素方差分析區(qū)別也不大,并且在進行分析前數(shù)據(jù)需要滿足的條件也都需要。但是因為加入了一個新的變量——協(xié)變量,所以也有些額外了條件需要滿足。我們今天對這些條件做些概述。

1) 變量的類型:一般而言,進行協(xié)方差分析,因變量是定量的連續(xù)變量(如本例的“滿意度得分”);自變量是分類變量(可以加入多個自變量,如本例中的“教育程度”和“性別”);協(xié)變量是連續(xù)變量(如本例的“收入”)。

2) 線性關(guān)系:原則上需要協(xié)變量與因變量存在線性關(guān)系。

3) 平行性假設(shè):協(xié)變量與因變量的回歸直線互相平行。

這個初次看起來很難理解,但實際上就是為了排除所謂的交互作用。

什么是交互作用呢?

比如我們想研究“教育程度”與“滿意度得分”的關(guān)系,協(xié)變量是收入。在不考慮協(xié)變量時,發(fā)現(xiàn)隨著教育程度的升高,人們的滿意度得分也逐漸升高,比如教育上升一個等級(從“高中畢業(yè)”到“大學(xué)本科”,或者從“大學(xué)本科”升至“研究生及以上”),滿意度得分都會增加5分。

現(xiàn)在加入“收入”這個協(xié)變量之后,發(fā)現(xiàn)隨著教育程度升高,滿意度得分也升高,但是不同的學(xué)歷程度,其升高的幅度不一樣。

比如,加入?yún)f(xié)變量之后,從“高中畢業(yè)”升至“大學(xué)本科”,滿意度得分仍增加5分;但如果從“大學(xué)本科”升至“研究生及以上”,滿意度得分僅僅增加3分。這個時候,我們就說收入與教育程度產(chǎn)生了交互作用。

產(chǎn)生了交互作用,也就意味著收入對生活滿意度的影響會隨著教育程度的變化而變化。用線性回歸的術(shù)語來表示就是:不同的教育程度下,收入與滿意度得分的回歸直線斜率不同,因此,它們就不會平行(直線平行需要斜率相同)。

所以,想滿足平行線假設(shè),就需要協(xié)變量與自變量之間不存在交互作用,這個可以通過專門的檢驗方法來判斷。

以上三個條件是在進行協(xié)方差分析時需要特別關(guān)注的,除此以外,還有一些其他方差分析也需要關(guān)注的條件,在進行協(xié)方差分析時也需要考慮,比如常說的正態(tài)、獨立、方差齊等。這些內(nèi)容,我們會在之后的文章中給大家再詳細講解。在此也順便指出,協(xié)方差分析實際上與多元(或稱多重)線性回歸分析本質(zhì)上是一致的,只不過我們在進行回歸分析時,并沒有嚴格區(qū)分自變量和協(xié)變量,而是將它們一股腦地都納入回歸模型,然后篩選出最終有意義的變量。

為了便于大家更深刻地理解協(xié)方差分析的整個過程,我們明天會發(fā)布教學(xué)視頻,詳細介紹以SPSS軟件為例的單因素、雙因素以及協(xié)方差分析的操作。

感謝關(guān)注!

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多