公務(wù)員期刊網(wǎng) 論文中心 正文

談個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型比較

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型比較范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

談個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型比較

摘要:信用卡自20世紀(jì)60年代,在歐美發(fā)達(dá)國(guó)家出現(xiàn)至今已經(jīng)成為主流支付手段之一。但由于信用卡持有人的極大的不確定性,可能出現(xiàn)違約或者壞賬。針對(duì)這些問(wèn)題,本文以臺(tái)灣某銀行客戶的違約支付情況為基礎(chǔ),采用線性判別分析、CART分類樹和AdaBoost算法建立個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型,并從預(yù)測(cè)準(zhǔn)確率、第二錯(cuò)誤率和誤判成本3個(gè)方面比較這3種模型違約概率的預(yù)測(cè)準(zhǔn)確性。結(jié)果表明,AdaBoost算法預(yù)測(cè)效果最好,線性判別效果最差。

關(guān)鍵詞:信用評(píng)估模型;線性判別分析;CART分類樹;AdaBoost算法

在市場(chǎng)經(jīng)濟(jì)社會(huì)中,法律制度,信用,財(cái)產(chǎn)權(quán)和風(fēng)險(xiǎn)是市場(chǎng)經(jīng)濟(jì)的四個(gè)關(guān)鍵。信用對(duì)個(gè)人,社會(huì)和國(guó)家特別重要,是現(xiàn)代社會(huì)的基石[1]。盡管隨著大數(shù)據(jù)、區(qū)塊鏈、人工智能等金融科技的發(fā)展,征信業(yè)將面臨新的發(fā)展機(jī)遇,但是信用卡市場(chǎng)仍然是中國(guó)個(gè)人金融服務(wù)市場(chǎng)成長(zhǎng)最快的產(chǎn)品系列之一。因此,建立一個(gè)合理的個(gè)人信用評(píng)估模型對(duì)個(gè)人信用進(jìn)行評(píng)估就十分必要。一個(gè)較好的信用評(píng)估模型能給銀行的決策提供合理的建議,從而能降低信用卡的不良率,減少由于違約對(duì)銀行造成的損失。個(gè)人信用評(píng)估主要分為兩類,第一種是統(tǒng)計(jì)學(xué)的方法,如logistic回歸方法、線性回歸方法、決策樹方法、最近鄰方法等。第二種是人工智能的方法,如神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、支持向量機(jī)(SVM)方法等[2]。除此之外,在信用評(píng)估的領(lǐng)域依然很多方法。建立信用風(fēng)險(xiǎn)評(píng)估模型的過(guò)程,實(shí)質(zhì)上是評(píng)估方法對(duì)信用預(yù)測(cè)效果的對(duì)比過(guò)程。然而,在進(jìn)行對(duì)個(gè)人信用違規(guī)的情況預(yù)測(cè)時(shí),對(duì)于商業(yè)銀行而言,可以選擇很多種的模型,選擇的指標(biāo)和建立模型的方法也大不相同?;谝陨显颍疚脑谡餍诺幕纠碚摵蛯?shí)踐的基礎(chǔ)上,建立不同的信用評(píng)估模型,并進(jìn)行對(duì)比,明確各種模型的優(yōu)劣情況,讓商業(yè)銀行在進(jìn)行個(gè)人信用評(píng)估模型的構(gòu)建時(shí)能夠有所參考。

一、數(shù)據(jù)預(yù)處理

(一)數(shù)據(jù)來(lái)源與變量設(shè)置本文所用數(shù)據(jù)來(lái)自數(shù)據(jù)集來(lái)自Kaggle公開數(shù)據(jù)源平臺(tái),數(shù)據(jù)包括30000名貸款者及其相關(guān)人口特征和信用記錄數(shù)據(jù),其中,人口信息的特征主要是年齡、受教育程度、婚姻狀況、性別,信用記錄數(shù)據(jù)包括信貸金額(包括個(gè)人和家庭/補(bǔ)充信貸)、還款情況、賬單金額和支付金額等相關(guān)信息(詳見表1)。

(二)數(shù)據(jù)處理本文將原始數(shù)據(jù)中連續(xù)性數(shù)值變量進(jìn)行標(biāo)準(zhǔn)化處理,消除各變量取值水平不同帶來(lái)的量綱影響。并將樣本劃為測(cè)試集(25%)和訓(xùn)練集(75%)兩部分,利用訓(xùn)練集的數(shù)據(jù)制作個(gè)人信用評(píng)價(jià)模型,使用測(cè)試集合數(shù)據(jù)評(píng)價(jià)模型的預(yù)測(cè)效果。本文采取留出法分割法分割數(shù)據(jù),保證訓(xùn)練集和測(cè)試集中違約狀況的比例基本一致,從而提高預(yù)測(cè)的精度。

(三)研究方法選擇本文基于統(tǒng)計(jì)學(xué)和人工智能方法進(jìn)行分析,選用線性判別方法,CART分類樹和集成模型adaboost方法分別建立模型,并從預(yù)測(cè)準(zhǔn)確率、第二類錯(cuò)誤率和誤判成本對(duì)建立的3個(gè)模型進(jìn)行比較。本文使用R軟件對(duì)數(shù)據(jù)進(jìn)行描述性的分析,建立模型并得出實(shí)證結(jié)果,所用程序?yàn)镽軟件中自帶程序包或自己編寫的程序。

二、數(shù)據(jù)的描述性分析

通過(guò)數(shù)據(jù)分析發(fā)現(xiàn),在30000人中,違約率高達(dá)22.12%,相當(dāng)于每五個(gè)人中有一個(gè)人違約還款(一般而言大銀行信用卡的違約率為1%~3%),表明當(dāng)時(shí)臺(tái)灣爆發(fā)的信用卡債務(wù)危機(jī)十分嚴(yán)峻。從信貸額度看,信用卡客戶的信貸額度大多數(shù)集中在20萬(wàn)以下,并且隨著信貸額度的提高,違約率降低。這是因?yàn)楫?dāng)時(shí)各大銀行機(jī)構(gòu)之間的競(jìng)爭(zhēng)十分激烈,為了營(yíng)銷活動(dòng)而放寬信貸標(biāo)準(zhǔn),讓一些信用水平和償還能力低的人也能夠輕松地獲得貸款,從而增加了違約風(fēng)險(xiǎn)。從年齡上看,信用卡客戶年輕的客戶群體占比最大,21~40歲的客戶比例超過(guò)了70%,但是隨著年齡的增加,違約率也在增加。從性別上看,男性客戶與女性客戶的比例約為2:3,但是女性客戶的違約率(20.78%)要比男性的違約率(24.17%)低。從受教育程度看,大學(xué)與研究生學(xué)歷的客戶群體占比最多,并且學(xué)歷越高,違約還款的可能性越小。從婚姻狀況看,單身人士多于已婚人士,并且單身客戶的違約率低于已婚客戶。

三、實(shí)證分析

(一)線性判別分析基于觀察事物的特定數(shù)據(jù)特征,判別分析是對(duì)它們進(jìn)行分類確定事物的類型,對(duì)各個(gè)類型的各種樣本的分類規(guī)則進(jìn)行總結(jié)并建立判別函數(shù),用在未來(lái)出現(xiàn)的新事物上判斷新事物所屬的類型。判別分析也是第一個(gè)適用于個(gè)人信用評(píng)價(jià)的統(tǒng)計(jì)學(xué)模式,被認(rèn)為是分類模型領(lǐng)域最廣泛的統(tǒng)計(jì)技術(shù)之一[3]。其基本原理是根據(jù)特征變量的屬性值,找出特征變量的最佳線性組合,建立判別函數(shù)。而且,通過(guò)這些函數(shù)來(lái)區(qū)分觀察的樣本特征,可以準(zhǔn)確的劃分為幾種不同的類型。本文的建模思想如下:總體客戶分為兩類,一類是“履約客戶”,另一類是“違約客戶”??蛻舻奶卣髯兞吭谟?xùn)練集中是知道的,并且每個(gè)客戶的類別(即是履約客戶還是違約客戶)也是知道的。訓(xùn)練樣本的作用是根據(jù)新申請(qǐng)人的特征變量,能夠從中建立判別函數(shù),并用其來(lái)判斷申請(qǐng)人的信用等級(jí),即履約客戶還是違約客戶。建模完成后,我們將使用已經(jīng)建立好的模型對(duì)剩下的訓(xùn)練集進(jìn)行驗(yàn)證,并確認(rèn)該判別函數(shù)是否可用。本文使用R軟件中MASS包中的Ida函數(shù),參數(shù)均保持默認(rèn)的設(shè)置,通過(guò)分析得出的訓(xùn)練集總體的預(yù)測(cè)準(zhǔn)確度為81.08%。

(二)CART分類樹分類樹是一種非參數(shù)統(tǒng)計(jì)方法。其基本思想是:根據(jù)特征變量的數(shù)值,將樣本分為兩個(gè)組,最大限度地使同組的樣本發(fā)生的概率一致,產(chǎn)生不同組的樣本的概率最大,在這個(gè)過(guò)程中,連續(xù)重復(fù)上述過(guò)程,劃分獲得的子組,直到達(dá)到設(shè)置的要求為止,最終獲得結(jié)果。最后,按照規(guī)則將所有的終端節(jié)點(diǎn)分為不同類型。在建立分類樹模型時(shí),首先要考慮如何將整體分為不同的子類(怎么分),以及何時(shí)停止劃分(如何修剪),如何判斷最終產(chǎn)品類型,最后如何判斷最終節(jié)點(diǎn)類型。常用分支和剪枝的算法有:CART、ID3、C4.5等。本文使用CART算法,其判斷界定信息的有序無(wú)序的方法是Gini系數(shù)。則概率分布的Gini系數(shù)的表達(dá)式如下:其中,K表示一共有幾個(gè)類別,P_k表示第K個(gè)類別的概率。模型的不純度用基尼系數(shù)反應(yīng),不純度越低,基尼系數(shù)越小,特征也就越好。本文使用R軟件中rpart包中的rpart函數(shù),所得模型的訓(xùn)練集總體的預(yù)測(cè)準(zhǔn)確度為81.83%。

(三)AdaBoost模型Boosting,也稱為強(qiáng)化學(xué)習(xí)或增強(qiáng)方法,是一種相對(duì)重要的集成學(xué)習(xí)方法,可以將預(yù)測(cè)準(zhǔn)確性僅比隨機(jī)猜測(cè)稍強(qiáng)的弱學(xué)習(xí)者增強(qiáng)為具有較高預(yù)測(cè)準(zhǔn)確性的強(qiáng)學(xué)習(xí)者。AdaBoost是英語(yǔ)中“AdaptiveBoosting”(自適應(yīng)增強(qiáng))的縮寫。它的自適應(yīng)性體現(xiàn)在:被先前的基本分類器誤分類的樣本的權(quán)重值將增加,而正確分類的樣本的權(quán)重值將降低。并且將再次用于訓(xùn)練下一個(gè)基本分類器。在每輪迭代中添加新的弱分類器,直到達(dá)到預(yù)定且足夠小的錯(cuò)誤率或達(dá)到預(yù)先指定的迭代次數(shù)為止,最后形成一個(gè)強(qiáng)分類器。本文使用R軟件中adabag包中的bosting函數(shù),設(shè)置權(quán)重更新系數(shù)為Freund,其計(jì)算公式為α=ln((1-err)/err)所得模型的訓(xùn)練集總體的預(yù)測(cè)準(zhǔn)確度為81.85%。使用上文的三個(gè)模型,對(duì)測(cè)試集的數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如下(詳見表2)。

四、模型比較

本文將從預(yù)測(cè)準(zhǔn)確率,第二錯(cuò)誤率和誤判成本三個(gè)方面對(duì)信用評(píng)估模型進(jìn)行評(píng)價(jià)。

(一)預(yù)測(cè)準(zhǔn)確率對(duì)于一個(gè)分類模型,本文將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,而在訓(xùn)練集中,樣本的預(yù)測(cè)能力體現(xiàn)了一個(gè)模型的精度,而測(cè)試集的預(yù)測(cè)準(zhǔn)確率則反映了該模型除了對(duì)生成模型以外的樣本進(jìn)行預(yù)測(cè)的能力,即泛化能力[4]。并且從風(fēng)險(xiǎn)管理的角度來(lái)看,預(yù)測(cè)的違約概率的準(zhǔn)確性可以用來(lái)對(duì)可信的或不可信的客戶進(jìn)行分類。三個(gè)模型的測(cè)試集的預(yù)測(cè)準(zhǔn)確率均高于訓(xùn)練集的預(yù)測(cè)準(zhǔn)確率,表明三個(gè)模型的穩(wěn)健性或泛化能力比較好。從訓(xùn)練集預(yù)測(cè)的準(zhǔn)確度來(lái)看,三個(gè)模型的預(yù)測(cè)精度差別并不大,但是從測(cè)試集的準(zhǔn)確性看,AdaBoost方法建立的信用評(píng)估模型的準(zhǔn)確度明顯比其余兩種方法要高,達(dá)到了82.61%。并且三個(gè)模型在測(cè)試集和訓(xùn)練集中的預(yù)測(cè)能力都比較接近,表明它們是較為均衡的模型。

(二)第二錯(cuò)誤率本文將履約用戶誤判為違約客戶定義為第一類錯(cuò)誤,將違約客戶誤判為違約客戶定義為第二類錯(cuò)誤。對(duì)于銀行機(jī)構(gòu)而言,犯第二類錯(cuò)誤的損失將遠(yuǎn)遠(yuǎn)大于第一類錯(cuò)誤,因而較好的預(yù)測(cè)模型應(yīng)該有較小的第二類錯(cuò)誤率。從表2中可以看出AdaBoost建立的信用評(píng)估模型測(cè)試集對(duì)違約判定的準(zhǔn)確率為36.48%,比其余兩種模型高,也即第二類錯(cuò)誤率較低。

(三)誤判成本在信用貸款業(yè)務(wù)中,把違約客戶誤認(rèn)為是履行合同的客戶對(duì)銀行造成的損失更大。因此,評(píng)價(jià)模型的預(yù)測(cè)效果時(shí),應(yīng)該考慮錯(cuò)誤分類的成本。誤判代價(jià)的計(jì)算公式如下:1表示客戶履約,2表示客戶違約;π1和π2分別表示客戶履約和違約的先驗(yàn)概率;n1/N1表示第一類錯(cuò)誤;n2/N2表示第二類錯(cuò)誤的概率;c(2/1)和c(1/2)分別表示第一類錯(cuò)誤和第二類錯(cuò)誤對(duì)應(yīng)的錯(cuò)誤分類的成本。本文將使用West[5]文章中使用方式,將c(1/2)設(shè)置為1,c(2/1)設(shè)置為5,即第二類錯(cuò)誤成本為第一類錯(cuò)誤成本的5倍,同時(shí)將客戶履約和違約的先驗(yàn)概率均設(shè)為0.5。從表2中可以看出AdaBoost建立的信用評(píng)估模型的誤判成本最低為43.92%,明線由于線性判別(45.22%)和CART分類樹(44.03%)。

五、結(jié)語(yǔ)

本文以臺(tái)灣某銀行客戶的違約支付情況為基礎(chǔ),使用相同的訓(xùn)練集與測(cè)試集,分別使用線性判別分析、CART分類樹和AdaBoost算法3種方法建立個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型,對(duì)同一測(cè)試集測(cè)試客戶違約率,并從預(yù)測(cè)準(zhǔn)確性、第二錯(cuò)誤率和誤判成本三個(gè)方面比較這三個(gè)模型的預(yù)測(cè)能力。分析結(jié)果表明,無(wú)論是從預(yù)測(cè)準(zhǔn)確率、第二錯(cuò)誤率還是誤判成本這三方面,AdaBoost算法的預(yù)測(cè)效果最好,線性判別預(yù)測(cè)效果最差。在我國(guó),信用風(fēng)險(xiǎn)的研究還并不成熟,各方面仍有許多值得討論的問(wèn)題,但各方面條件的缺乏在一定程度上限制了這一領(lǐng)域的研究。由于缺乏條件,本文模型仍然存在一定的缺陷,有待于進(jìn)一步完善和完善。首先,指標(biāo)體系的建立有待進(jìn)一步完善。由于沒(méi)有完全開放的數(shù)據(jù)庫(kù),使得研究中樣本的選擇更加困難。其次,模型的算法還有進(jìn)一步改進(jìn),雖然本文中AdaBoost算法的分類準(zhǔn)確率比較高,但是可能存在由于數(shù)據(jù)不平衡導(dǎo)致分類精度下降,弱分類器的數(shù)目也不太好設(shè)定。最后,在實(shí)際中,由于我國(guó)是一個(gè)大國(guó),各地的經(jīng)濟(jì)發(fā)展不均衡,區(qū)域特征有顯著的差異,因而在構(gòu)建個(gè)人風(fēng)險(xiǎn)評(píng)估模型時(shí),應(yīng)考慮到上述差異,針對(duì)不同地區(qū)的人群構(gòu)建不同的模型。

參考文獻(xiàn):

[1]王富全.個(gè)人信用評(píng)估與聲譽(yù)機(jī)制研究[M].濟(jì)南:山東大學(xué)出版社,2010.

[2]謝霖銓,趙楠,徐浩.個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型發(fā)展研究[J].河南科技,2018(02):13-16.

作者:熊梁程 單位:上海對(duì)外經(jīng)貿(mào)大學(xué)