信用評分：第五部分

卜范濤講風(fēng)險 2022-03-21

展開全文

作者：Natasha Mashanovich,

基本原理

計算機(jī)算法

假設(shè)數(shù)據(jù)準(zhǔn)備和初始變量選擇過程（過濾）已經(jīng)完成，并且過濾的訓(xùn)練數(shù)據(jù)集可用于模型構(gòu)建過程，評分卡開發(fā)描述了如何將數(shù)據(jù)轉(zhuǎn)換為評分卡模型。開發(fā)過程包括四個主要部分：變量轉(zhuǎn)換，使用邏輯回歸的模型訓(xùn)練，模型驗(yàn)證和尺度。

圖1.標(biāo)準(zhǔn)評分卡開發(fā)過程

變量轉(zhuǎn)換

“如果你對數(shù)據(jù)進(jìn)行足夠長時間的折磨，它就會承認(rèn)任何事情?！?（羅納德科斯，經(jīng)濟(jì)學(xué)家） - 基于邏輯回歸的標(biāo)準(zhǔn)記分卡模型是一個加法模型; 因此，需要特殊的變量轉(zhuǎn)換。通常采用的轉(zhuǎn)換 - 精細(xì)分類，粗略分類，以及啞編碼或證據(jù)權(quán)重（WOE）轉(zhuǎn)換 - 形成一個順序過程，提供易于實(shí)現(xiàn)和向業(yè)務(wù)解釋的模型結(jié)果。此外，這些轉(zhuǎn)換有助于將自變量和因變量之間的非線性關(guān)系轉(zhuǎn)換為線性關(guān)系 - 業(yè)務(wù)經(jīng)常要求的客戶行為。

精細(xì)的分類
適用于所有連續(xù)變量和具有高基數(shù)的離散變量。這是通常在20到50個細(xì)粒度箱之間進(jìn)行初始分箱的過程。

粗略分類
將分箱過程應(yīng)用于細(xì)粒度箱以合并具有相似風(fēng)險的箱并創(chuàng)建更少的箱，通常最多10個箱。目的是通過創(chuàng)建更少的箱子來實(shí)現(xiàn)簡化，每個箱箱具有明顯不同的風(fēng)險因素，同時最小化信息損失。但是，為了創(chuàng)建一個對過度擬合具有彈性的健壯模型，每個箱應(yīng)該包含來自總帳戶的足夠數(shù)量的觀察結(jié)果（大多數(shù)從業(yè)者建議的最小值為5％）。這些相反的目標(biāo)可以通過最優(yōu)分箱形式的優(yōu)化來實(shí)現(xiàn)，該分級在粗分類過程期間使變量的預(yù)測能力最大化。最佳分箱利用變量選擇期間使用的相同統(tǒng)計度量，例如信息值，基尼和卡方統(tǒng)計量。最受歡迎的措施是：信息價值，盡管兩種或更多種措施的組合通常是有益的。缺失值（如果它們包含預(yù)測信息）應(yīng)該分為單獨(dú)的類或者合并到具有類似風(fēng)險因素的分箱。

啞編碼
為引用類之外的所有粗類創(chuàng)建二元（?。┳兞康倪^程。這種方法可能存在問題，因?yàn)轭~外的變量需要更多的存儲器和處理資源，并且由于自由度降低，偶爾會出現(xiàn)過度擬合。

證據(jù)權(quán)重（WOE）轉(zhuǎn)換
另一種更有利的虛擬編碼方法，用風(fēng)險值替換每個粗類，然后將風(fēng)險值折疊成單個數(shù)字變量。數(shù)值變量描述了自變量和因變量之間的關(guān)系。WOE框架非常適合于邏輯回歸建模，因?yàn)閮烧叨蓟趯?shù)概率計算。此外，WOE變換標(biāo)準(zhǔn)化所有自變量，因此，可以直接比較后續(xù)邏輯回歸中的參數(shù)。這種方法的主要缺點(diǎn)是只考慮每個箱的相對風(fēng)險，而不考慮每個箱中的帳戶比例?？梢允褂眯畔⒅祦碓u估每個箱的相對貢獻(xiàn)。
啞編碼和WOE變換都給出了類似的結(jié)果。選擇哪一個主要取決于數(shù)據(jù)科學(xué)家的偏好。

但是要注意，當(dāng)手動執(zhí)行時，最佳分箱，虛擬編碼和證據(jù)變換權(quán)重是耗時的過程。因此，用于分箱，優(yōu)化和WOE轉(zhuǎn)換的軟件包非常有用并且非常值得推薦。

圖2.使用World Programming Software進(jìn)行自動最佳分箱和WOE轉(zhuǎn)換

模型訓(xùn)練和比例

Logistic回歸是信用評分中用于解決二元分類問題的常用技術(shù)。在模型擬合之前，變量選擇的再一次迭代對于檢查新的WOE變換變量是否仍然是良好的模型候選變量是有價值的。優(yōu)選的候選變量是具有較高信息值（通常在0.1和0.5之間）的變量，與因變量具有線性關(guān)系，在所有類別中具有良好的覆蓋率，具有正態(tài)分布，包含顯著的總體貢獻(xiàn)，并且與業(yè)務(wù)相關(guān)。

許多分析供應(yīng)商在其軟件產(chǎn)品中包含邏輯回歸模型，通常具有廣泛的統(tǒng)計和圖形功能。例如，WPS中SAS語言PROC LOGISTIC的實(shí)現(xiàn)為自動變量選擇，模型參數(shù)限制，加權(quán)變量，不同段的單獨(dú)分析，不同數(shù)據(jù)集評分，生成自動部署代碼提供了一整套選項(xiàng)。

模型一旦對齊，下一步就是將模型調(diào)整到業(yè)務(wù)所需的比例。這稱為縮放。縮放作為一種測量工具，可以在不同的評分卡中提供分?jǐn)?shù)的一致性和標(biāo)準(zhǔn)化。最低和最高分?jǐn)?shù)值以及分?jǐn)?shù)范圍有助于風(fēng)險解釋，并應(yīng)向業(yè)務(wù)部門報告。通常，業(yè)務(wù)要求是對多個評分卡使用相同的分?jǐn)?shù)范圍，因此它們都具有相同的風(fēng)險解釋。

一種流行的評分方法以對數(shù)方式創(chuàng)建離散分?jǐn)?shù)，其中幾率在預(yù)??定數(shù)量的點(diǎn)處加倍。這需要指定三個參數(shù)：基點(diǎn)，例如600點(diǎn)，基準(zhǔn)賠率，例如50：1，并指出賠率加倍，例如20。分?jǐn)?shù)點(diǎn)對應(yīng)于模型變量的每個區(qū)間，而模型截距是翻譯成基點(diǎn)。具有表格分配點(diǎn)的縮放輸出表示實(shí)際評分卡模型。

圖3.評分卡縮放

模型表現(xiàn)

模型評估是模型構(gòu)建過程的最后一步。它由三個不同的階段組成：評估，驗(yàn)證和接受。

評估準(zhǔn)確性 - 我是否構(gòu)建了正確的模型？ - 是第一個要求測試模型的問題。評估的關(guān)鍵指標(biāo)是統(tǒng)計測量，包括模型準(zhǔn)確性，復(fù)雜性，錯誤率，模型擬合統(tǒng)計，變量統(tǒng)計，顯著性值和優(yōu)勢比。

驗(yàn)證穩(wěn)健性 - 我是否構(gòu)建了正確的模型？ - 從分類準(zhǔn)確性和統(tǒng)計評估轉(zhuǎn)向排名能力和業(yè)務(wù)評估時，是下一個要問的問題。

驗(yàn)證度量的選擇取決于模型分類器的類型。二元分類問題最常見的指標(biāo)是增益圖，提升圖，ROC曲線和Kolmogorov-Smirnov圖。ROC曲線是可視化模型性能的最常用工具。它是一個多用途工具，用于：

冠軍挑戰(zhàn)者選擇最佳表現(xiàn)模式的方法;
在看不見的數(shù)據(jù)上測試模型性能并將其與訓(xùn)練數(shù)據(jù)進(jìn)行比較;
選擇最佳閾值，最大化真陽性率，同時最小化假陽性率。

通過繪制靈敏度與不同閾值的誤報概率（誤報率）來創(chuàng)建ROC曲線。評估不同閾值下的性能指標(biāo)是ROC曲線的理想特征。根據(jù)業(yè)務(wù)策略，不同類型的業(yè)務(wù)問題將具有不同的閾值。

ROC曲線下面積（AUC）是指示分類器預(yù)測能力的有用度量。在信用風(fēng)險中，0.75或更高的AUC是行業(yè)認(rèn)可的標(biāo)準(zhǔn)和模型驗(yàn)收的先決條件。

圖4.模型性能指標(biāo)

接受有用性 - 模型是否會被接受？ - 是最后一個問題，以便測試該模型是否對商業(yè)前景有價值。這是數(shù)據(jù)科學(xué)家必須將模型結(jié)果回放給業(yè)務(wù)并“捍衛(wèi)”其模型的關(guān)鍵階段。關(guān)鍵評估標(biāo)準(zhǔn)是模型的商業(yè)利益，因此，效益分析是呈現(xiàn)結(jié)果的核心部分。數(shù)據(jù)科學(xué)家應(yīng)該盡一切努力以簡潔的方式呈現(xiàn)結(jié)果，因此結(jié)果和發(fā)現(xiàn)很容易理解。如果不能實(shí)現(xiàn)這一點(diǎn)，可能會導(dǎo)致模型拒絕，從而導(dǎo)致項(xiàng)目失敗。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：卜范濤講風(fēng)險 > 《信用模型建?！?/a>

舉報/認(rèn)領(lǐng)