無論是金融、互聯(lián)網(wǎng)企業(yè)亦或運營商,都在基于多年積累的大數(shù)據(jù)搭建個人征信評分體系,不僅用于自身,也在提供給其他征信機構做為個人信用評估標準。 那么,個人的信用分到底是如何計算出來的呢? 筆者相信不同的信用分有不同的計算方法,無論是FICO評分、芝麻信用亦或其它信用分,這些評分既可以很簡單,也可以很復雜,使用的建模方法各不同,但也總是會遵循一些基本的原則,這里筆者就信用分計算的一些關鍵技術作簡要介紹,希望于你有益。 一、業(yè)務分析我們在構建信用評分的時候,首先當然要定義何謂信用高,何謂信用低的用戶,這是建模的起點,銀行會基于用戶的還貸歷史來確定高低信用用戶,但如果是第三方企業(yè),則需要基于自身的業(yè)務特點定義出類似的高低信用用戶,即正負樣本,比如運營商可能會基于通信欠費來確定高低信用用戶的樣本,當然這也是遠遠不夠的,需要從更多的途徑獲取,比如可以免費獲取法院公示的老賴名單等。 二、變量初選身份特征、消費能力、信用歷史、行為偏好及人脈關系是當前業(yè)界評估信用的五個方面,很多信用評分體系都基于此而來,當然,不同行業(yè)由于數(shù)據(jù)不同,因此形成的具體明細指標肯定也有明顯的差異,比如針對身份特征,可能選擇的具體指標包括婚姻、年齡、職業(yè)、性別等等,諸如運營商可以有幾十個指標來表征身份特征,五個方面的涉及的具體指標更是多達上百個,因此,關鍵的下一步就是如何刪選合適的變量。 三、特征刪選很多新手喜歡用越多的變量來建模,以為多多益善,其實不然,變量篩選的目在于去除對于模型預測準確提升無效甚至影響模型預測效果的無用變量, 比如兩個相關變量的同時存在往往會導致準確性下降。 特征的選擇有很多方式,比如IV值的判斷,這里以隨機森林來示例,隨機森林算法能夠輸出每個變量對模型預測的重要性大小,重要性越大代表該變量對于提升模型預測準確度所做貢獻就越大,反之如果重要度值為負,就代表該變量加入會降低模型預測準確度,所以在該步驟直接選擇基于模型輸出結果來完成變量篩選,以下是示例: 經(jīng)過隨機森林初步篩選,和變量預測探索分析,最終五個維度共輸入XX個變量分別進入模型訓練。 四、算法選擇一般會采用logistic分類算法,在輸入數(shù)據(jù)形式的標準與線性回歸基本一致。在選擇邏輯回歸時,注意要進行數(shù)據(jù)預處理,最主要是兩點: 1、 離散變量啞變量處理。離散變量不適用于線性分類模型中,建議轉化為0,1類變量,例如用戶行業(yè)字段,存在8個類別(學生、工人、公務員…),經(jīng)過啞變量轉化處理的話,該字段轉化為8個變量:是否學生,是否工人,是否公務員……)。 2、 變量線性化處理。對于線性分類算法,指標與目標變量之間呈現(xiàn)線性關系,對于變量的預測效果會更好,但實際數(shù)據(jù)往往都是非線性表示,因此為提升模型預測效果,需要針對連續(xù)型且非單調性變量進行WOE處理,用WOE值替換指標值,以實現(xiàn)數(shù)據(jù)之間的線性關系。WOE計算公式為 WOE=ln(%good/%bad),其中%good表示違約用戶構成。%bad表示好樣本用戶構成。以資金字段為例: 接下來就是用邏輯回歸進行模型訓練,從而獲得概率值。 五、評分卡轉換1、評分卡刻度 那么如何將概率值轉化為評分呢,其實怎么算都可以,這里采用評分卡轉換的方式,具體網(wǎng)上都有詳細解釋,這里簡要講下,違約與正常比率被定義為一個記錄被劃分為違約的估計概率與被劃分為正常的估計概率之間的比率,將估計違約概率用p表示,估計正常概率為1-p。因此可定義發(fā)生比: Odds=p/(1-p) 評分卡設定的分值刻度是可以將分值表示為比率(Odds)的線性表達式來定義。如下所示: Score=A-B*log(Odds) 其中:A,B都為常數(shù)。其中A成為補償分數(shù),B稱為刻度,它們可以通過兩個已知或者假設的分值代入計算得到,一是在某個特定比率設定特定的預期分值,二是指定比率翻番的分數(shù)(PDO)。 首先,設定比率y的特定點的分值為P0,然后,比率為2y的點的分值為P0 PDO,代入上式可以得到如下兩個等式: P0=A-B*log(y) P0 PDO=A-B*log(2y) 解上述兩方程中的常數(shù)A和B,可以得到: B=PDO/log(2) A=P0 B*log(y) 在這里可以借鑒標準FICO信用分與違約率的定義,比如B=58,A=437,計算分數(shù)公式則為: Score=437-58*log(Odds) 最終可以得到該模型的評分卡刻度情況最終結果,如下表所示: 2、分值分配 對于logistic回歸算法,odds也可以表示為: log(Odds)=B0 B1*X1 B2*X2 … BnXn 由此可得: Score=437-58*(B0 B1*X1 B2*X2 … BnXn) 由于建模過程所有變量都有使用WOE轉換,因此可以將分值分配到每個變量取值上去,以下是示例: 這樣,我們就得到了用戶的信用各個變量取值的信用分值。 六、確定五個維度的權重用戶的信用分總分是基于五個大維度綜合權重計算獲得的,當前每個大維度信用分(該維度涉及很多變量)已經(jīng)可以通過前面計算得到,總信用分表達式如下: Total_score=a1*score1 a2*score2 a3*score3 a4*score4 a5*score5。 網(wǎng)上公開的芝麻信用的五個大維度的最終權值是信用歷史(35%)、行為偏好(20%)、履約能力(25%)、身份特質(15%)及人脈關系(5%),各類信用評分體系權重肯定是不同的,因為有不同的約束條件,需要計算得到a1,a2,a3,a4,a5。 七、模型效果評估信用評分模型主要從準確性,區(qū)分度等方面來進行評估。 1、準確性:感受性曲線下面積(ROC_AUC)是一個從整體上評價模型準確性的指標,是感受性曲線(ROC)與橫軸之間的面積。相比于其他評價指標,感受性曲線(ROC)具有一定的穩(wěn)定性,它不會因為正負樣本分布的變化而產(chǎn)生不同的曲線。感受性曲線(ROC)通過真陽率(True Positive Rate, TPR)和假陽率(False Positive Rate, FPR)兩個指標進行繪制,感受性曲線(ROC)示意如圖1所示,感受性曲線下面積(ROC_AUC)取值范圍為[0,1],取值越大,代表模型整體準確性越好。 2、區(qū)分度:區(qū)分度指標(KS)是度量具體模型下正常樣本和違約樣本分布的最大差距,金融領域評估信用模型的一個核心方法,首先按照樣本的信用分數(shù)或預測違約率從小到大進行排序,然后計算每一個分數(shù)或違約率下好壞樣本的累計占比,正常和違約樣本的累計占比差值的最大值即為區(qū)分度指標(KS),區(qū)分度指標(KS)的示意如圖所示,區(qū)分度指標(KS)小于0.2代表模型準確性差,超過0.75則代表模型準確性高。 可以看到,信用分的計算過程借助了一般的建模方法,也有其自身的特點,信用分要建的好,還有很多的工作要做: 一是為了讓信用分具備可解釋性,需要量化每個變量每個區(qū)間的信用分值分配,比如發(fā)現(xiàn)芝麻信用分下降了,肯定想知道個中原因吧。 二是信用分計算出來后,往往會出現(xiàn)不可預期的結果,比如不符合正態(tài)分布等等,往往需要根據(jù)業(yè)務的需要再進行調整。 三是信用分的運營也存在不少挑戰(zhàn),包括多長時間計算一次,如何確保不要出現(xiàn)大的波動,新變量的引入影響等等。 這都對信用分建模提出了新的挑戰(zhàn)。 |
|