在前面的文章中,我們學(xué)習(xí)到回歸分析用于研究因變量和自變量之間的關(guān)系(詳見(jiàn)文末歷史合輯中的“線性回歸”系列)。其中,線性回歸模型中要求變量為數(shù)值型。但現(xiàn)實(shí)問(wèn)題中大量數(shù)據(jù)為分類變量。 比如某有序多分類變量被分為四個(gè)類別:“愛(ài)著”、“愛(ài)過(guò)”、“感到喜歡”、“感到惡心”,如果直接將其編碼為4、3、2、1,直接作為自變量納入分析,就等于是假定這四個(gè)等級(jí)之間的差距完全相等,或者說(shuō)它們對(duì)因變量情感幸福指數(shù)的數(shù)值影響程度是均勻上升/下降的,很明顯,這種假定是不合理的。 再比如某無(wú)序多分類變量:不想過(guò)年的因素,被分為五個(gè)類別:“被問(wèn)成績(jī)”、“被問(wèn)年終獎(jiǎng)”、“被催搞對(duì)象”、“被催生小孩”、“被催生二胎”,這五個(gè)類別之間根本不存在數(shù)量高低之分,如果簡(jiǎn)單將其編碼為1、2、3、4、5,也就假定了它們之間存在高低差別,且類別之間差距相等,顯然這種假定也是不合理的。 針對(duì)上述這些情況,我們可以采用兩種辦法來(lái)解決:①設(shè)置啞變量(詳見(jiàn)文章:?jiǎn)∽兞康脑O(shè)置),②最優(yōu)尺度回歸 所謂最優(yōu)尺度回歸,即基于最優(yōu)尺度變換的回歸。最優(yōu)尺度變換專門(mén)用于解決在統(tǒng)計(jì)建模時(shí)如何對(duì)分類變量進(jìn)行量化的問(wèn)題。其基本思路是基于希望擬合的模型框架,分析各級(jí)別對(duì)因變量影響的強(qiáng)弱變化情況,在保證變換后各變量間的聯(lián)系為線性的前提下,采用一定的非線性變換方法進(jìn)行反復(fù)迭代,從而為原始分類變量的每一個(gè)類別找到最佳的量化評(píng)分,使用這些量化評(píng)分代替原始變量進(jìn)行后續(xù)分析。 舉例來(lái)說(shuō),通過(guò)上面的理解我們得知,將“優(yōu)”、“良”、“中”直接賦分為3、2、1是不合理的,而通過(guò)最優(yōu)尺度變換,就可以為每個(gè)類別賦予一個(gè)適當(dāng)?shù)摹⒆罴训牧炕u(píng)分,該評(píng)分的高低可以很好地反應(yīng)各個(gè)類別間的差距。比如“優(yōu)”為4分,“良”為1分,“中”為0.5分,這就說(shuō)明等級(jí)從“良”變?yōu)椤皟?yōu)”時(shí),對(duì)因變量數(shù)值的影響大約是從“中”變?yōu)椤傲肌钡?span>6倍。 同理對(duì)于無(wú)序多分類自變量,經(jīng)過(guò)最優(yōu)尺度變換也可以用評(píng)分表示各類別之間的差異,評(píng)分近似則表示對(duì)因變量的影響程度相近,反之評(píng)分相差越大,對(duì)因變量影響程度的差異也越大。 應(yīng)用最優(yōu)尺度變換的注意事項(xiàng) (1)樣本量應(yīng)當(dāng)較大(這是該方法唯一的適用條件) 由于最優(yōu)尺度變換是對(duì)分類變量各類別求出最佳量化評(píng)分,只有各類別的樣本量較多時(shí)才能保證相應(yīng)評(píng)分的準(zhǔn)確性和穩(wěn)定性。 (2)變換結(jié)果和模型有關(guān)
注意我們?cè)谏厦媸沁@樣介紹最優(yōu)尺度變換的:“基于希望擬合的模型框架,分析各級(jí)別對(duì)因變量影響的強(qiáng)弱變化”。也就是說(shuō),最終的量化評(píng)分受到希望擬合的模型的影響,變換所得的量化評(píng)分僅僅在當(dāng)前模型框架中為最優(yōu),如果模型發(fā)生改變,比如引入了新自變量,或者其他變量的測(cè)量尺度進(jìn)行了更改,那么量化評(píng)分的結(jié)果也會(huì)發(fā)生改變,有時(shí)改變會(huì)較大。 (3)最優(yōu)尺度變換是一種很好的預(yù)分析手段 它主要給出的是變換后評(píng)分的分析結(jié)果,許多有用信息被隱含在變換過(guò)程中,加之其原理較難理解,結(jié)果在直接應(yīng)用上有一定困難。因此可將其作為一種預(yù)分析手段,通過(guò)它快速發(fā)現(xiàn)各類別間的差異和聯(lián)系,然后回到其他更易于理解和使用的分析結(jié)果。 最優(yōu)尺度變換是一種非常有用的方法,如果被用于線性回歸則稱為最優(yōu)尺度回歸(最優(yōu)尺度變換的應(yīng)用范圍不僅限于回歸)。
最優(yōu)尺度回歸的本質(zhì),即基于模型效果最優(yōu)化的原則,首先對(duì)原始變量進(jìn)行變換,將各變量轉(zhuǎn)換為適當(dāng)?shù)?、最佳的量化評(píng)分,然后使用量化評(píng)分代替原變量進(jìn)行回歸分析。(也就是先對(duì)分類變量進(jìn)行最優(yōu)尺度變換,然后用變換所得的量化評(píng)分進(jìn)行回歸分析) 在本文中,我們學(xué)習(xí)了最優(yōu)尺度變換的概念、在什么情況下使用、使用時(shí)的注意事項(xiàng),以及最優(yōu)尺度回歸的概念。 在接下來(lái)的文章中我們將學(xué)到:最優(yōu)尺度回歸的案例操作、最優(yōu)尺度回歸的結(jié)果解釋。 參考文獻(xiàn): 張文彤,董偉.SPSS統(tǒng)計(jì)分析高級(jí)教程.第二版 ![圖片](http://image109.360doc.com/DownloadImg/2022/12/0621/257091741_4_20221206091319398.jpeg) 學(xué)堂正在招募內(nèi)容主筆、短視頻創(chuàng)作者、課程講師,請(qǐng)?jiān)诠娞?hào)底部菜單欄點(diǎn)擊“招聘”了解詳情!
|