CHAID是卡方自動(dòng)交互檢測(cè)(CHi-squared Automatic Interaction Detection)的縮寫,是一種基于調(diào)整后的顯著性檢驗(yàn)(邦費(fèi)羅尼檢驗(yàn))決策樹技術(shù)。CHAID可用于預(yù)測(cè)(類似回歸分析,CHAID最初被稱為XAID)以及分類,并用于檢測(cè)變量之間的相互作用。CHAID基于1960和1970年代,一個(gè)US AID(自動(dòng)交互效應(yīng)檢測(cè))和THAID(THETA自動(dòng)交互檢測(cè))程序的擴(kuò)展。而后者又是早期1950英國研究的擴(kuò)展。 在實(shí)踐中,CHAID經(jīng)常使用在直銷的背景下,選擇消費(fèi)者群體,并預(yù)測(cè)他們的反應(yīng),一些變量如何影響其他變量,而其他早期應(yīng)用是在醫(yī)學(xué)和精神病學(xué)的研究領(lǐng)域。 和其他決策樹一樣,CHAID的優(yōu)勢(shì)是它的結(jié)果是非常直觀的易于理解的。由于默認(rèn)情況下CHAID采用多路分割,需要相當(dāng)大的樣本量,來有效地開展工作,而小樣本??組受訪者可以迅速分為太小了的組,而無法可靠的分析。 卡方自動(dòng)交叉檢驗(yàn)(CHAID)是由戈登V.卡斯在1980年創(chuàng)建的技術(shù)。 CHAID是一個(gè)用來發(fā)現(xiàn)變量之間關(guān)系的工具。 CHAID分析構(gòu)建了一個(gè)預(yù)測(cè)模型,或樹,以幫助確定給定因變量,變量如何最好地合來解釋結(jié)果。 CHAID分析,名義,有序和連續(xù)數(shù)據(jù)可以使用,在連續(xù)預(yù)測(cè)類別被分成大致相等的若干觀測(cè)。CHAID對(duì)每個(gè)分類預(yù)測(cè)創(chuàng)建了交叉表,直到達(dá)到最好的結(jié)果,無法繼續(xù)分類為止。在CHAID技術(shù)中,我們可以直觀地看到在樹的分割變量和相關(guān)因子之間的關(guān)系。決策樹或分類樹的展開,始于確定作為根節(jié)點(diǎn)的目標(biāo)變量或因變量。 CHAID分析將目標(biāo)變量分割成兩個(gè)或兩個(gè)以上的類被稱為根節(jié)點(diǎn),或者父節(jié)點(diǎn),然后使用統(tǒng)計(jì)算法將節(jié)點(diǎn)分為子節(jié)點(diǎn)。不同于回歸分析,CHAID技術(shù)并不要求數(shù)據(jù)是正態(tài)分布。 合并:在CHAID分析,如果因變量是連續(xù)的,則用F檢驗(yàn),如果因變量是分類變量,使用卡方檢驗(yàn)。每對(duì)預(yù)測(cè)分類的評(píng)估,以確定最顯著差異的因變量。由于這些合并步驟,通過計(jì)算修正邦費(fèi)羅尼p值來合并交叉表。 CHAID決策樹的構(gòu)成: 在CHAID分析中,以下是決策樹的要素: 1.根節(jié)點(diǎn):根節(jié)點(diǎn)包含因變量或目標(biāo)變量。例如,CHAID使用于,銀行根據(jù)年齡,收入,信用卡等,來預(yù)測(cè)信用卡風(fēng)險(xiǎn)。在這個(gè)例子中,信用卡風(fēng)險(xiǎn)是目標(biāo)變量,其余變量是預(yù)測(cè)變量。 2.父節(jié)點(diǎn):該算法將目標(biāo)變量分割成兩個(gè)或多個(gè)分類。這些分類被稱為父節(jié)點(diǎn)或者初始節(jié)點(diǎn)。在銀行的例子中,父節(jié)點(diǎn)是高,中,低三個(gè)分類。 3.子節(jié)點(diǎn):CHAID分析樹中獨(dú)立變量分類低于父節(jié)點(diǎn)的分類被稱為子節(jié)點(diǎn)。 4.終端節(jié)點(diǎn):CHAID分析樹最后一個(gè)分類被稱為終端節(jié)點(diǎn)。 CHAID分析樹中,主要的影響變量排在前面,次要的排在后面。因此,它被稱為終端節(jié)點(diǎn)。 |
|