网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

談個人信用風(fēng)險評估模型比較

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談個人信用風(fēng)險評估模型比較范文,希望能給你帶來靈感和參考,敬請閱讀。

談個人信用風(fēng)險評估模型比較

摘要:信用卡自20世紀(jì)60年代,在歐美發(fā)達(dá)國家出現(xiàn)至今已經(jīng)成為主流支付手段之一。但由于信用卡持有人的極大的不確定性,可能出現(xiàn)違約或者壞賬。針對這些問題,本文以臺灣某銀行客戶的違約支付情況為基礎(chǔ),采用線性判別分析、CART分類樹和AdaBoost算法建立個人信用風(fēng)險評估模型,并從預(yù)測準(zhǔn)確率、第二錯誤率和誤判成本3個方面比較這3種模型違約概率的預(yù)測準(zhǔn)確性。結(jié)果表明,AdaBoost算法預(yù)測效果最好,線性判別效果最差。

關(guān)鍵詞:信用評估模型;線性判別分析;CART分類樹;AdaBoost算法

在市場經(jīng)濟(jì)社會中,法律制度,信用,財產(chǎn)權(quán)和風(fēng)險是市場經(jīng)濟(jì)的四個關(guān)鍵。信用對個人,社會和國家特別重要,是現(xiàn)代社會的基石[1]。盡管隨著大數(shù)據(jù)、區(qū)塊鏈、人工智能等金融科技的發(fā)展,征信業(yè)將面臨新的發(fā)展機(jī)遇,但是信用卡市場仍然是中國個人金融服務(wù)市場成長最快的產(chǎn)品系列之一。因此,建立一個合理的個人信用評估模型對個人信用進(jìn)行評估就十分必要。一個較好的信用評估模型能給銀行的決策提供合理的建議,從而能降低信用卡的不良率,減少由于違約對銀行造成的損失。個人信用評估主要分為兩類,第一種是統(tǒng)計學(xué)的方法,如logistic回歸方法、線性回歸方法、決策樹方法、最近鄰方法等。第二種是人工智能的方法,如神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、支持向量機(jī)(SVM)方法等[2]。除此之外,在信用評估的領(lǐng)域依然很多方法。建立信用風(fēng)險評估模型的過程,實(shí)質(zhì)上是評估方法對信用預(yù)測效果的對比過程。然而,在進(jìn)行對個人信用違規(guī)的情況預(yù)測時,對于商業(yè)銀行而言,可以選擇很多種的模型,選擇的指標(biāo)和建立模型的方法也大不相同?;谝陨显?,本文在征信的基本理論和實(shí)踐的基礎(chǔ)上,建立不同的信用評估模型,并進(jìn)行對比,明確各種模型的優(yōu)劣情況,讓商業(yè)銀行在進(jìn)行個人信用評估模型的構(gòu)建時能夠有所參考。

一、數(shù)據(jù)預(yù)處理

(一)數(shù)據(jù)來源與變量設(shè)置本文所用數(shù)據(jù)來自數(shù)據(jù)集來自Kaggle公開數(shù)據(jù)源平臺,數(shù)據(jù)包括30000名貸款者及其相關(guān)人口特征和信用記錄數(shù)據(jù),其中,人口信息的特征主要是年齡、受教育程度、婚姻狀況、性別,信用記錄數(shù)據(jù)包括信貸金額(包括個人和家庭/補(bǔ)充信貸)、還款情況、賬單金額和支付金額等相關(guān)信息(詳見表1)。

(二)數(shù)據(jù)處理本文將原始數(shù)據(jù)中連續(xù)性數(shù)值變量進(jìn)行標(biāo)準(zhǔn)化處理,消除各變量取值水平不同帶來的量綱影響。并將樣本劃為測試集(25%)和訓(xùn)練集(75%)兩部分,利用訓(xùn)練集的數(shù)據(jù)制作個人信用評價模型,使用測試集合數(shù)據(jù)評價模型的預(yù)測效果。本文采取留出法分割法分割數(shù)據(jù),保證訓(xùn)練集和測試集中違約狀況的比例基本一致,從而提高預(yù)測的精度。

(三)研究方法選擇本文基于統(tǒng)計學(xué)和人工智能方法進(jìn)行分析,選用線性判別方法,CART分類樹和集成模型adaboost方法分別建立模型,并從預(yù)測準(zhǔn)確率、第二類錯誤率和誤判成本對建立的3個模型進(jìn)行比較。本文使用R軟件對數(shù)據(jù)進(jìn)行描述性的分析,建立模型并得出實(shí)證結(jié)果,所用程序?yàn)镽軟件中自帶程序包或自己編寫的程序。

二、數(shù)據(jù)的描述性分析

通過數(shù)據(jù)分析發(fā)現(xiàn),在30000人中,違約率高達(dá)22.12%,相當(dāng)于每五個人中有一個人違約還款(一般而言大銀行信用卡的違約率為1%~3%),表明當(dāng)時臺灣爆發(fā)的信用卡債務(wù)危機(jī)十分嚴(yán)峻。從信貸額度看,信用卡客戶的信貸額度大多數(shù)集中在20萬以下,并且隨著信貸額度的提高,違約率降低。這是因?yàn)楫?dāng)時各大銀行機(jī)構(gòu)之間的競爭十分激烈,為了營銷活動而放寬信貸標(biāo)準(zhǔn),讓一些信用水平和償還能力低的人也能夠輕松地獲得貸款,從而增加了違約風(fēng)險。從年齡上看,信用卡客戶年輕的客戶群體占比最大,21~40歲的客戶比例超過了70%,但是隨著年齡的增加,違約率也在增加。從性別上看,男性客戶與女性客戶的比例約為2:3,但是女性客戶的違約率(20.78%)要比男性的違約率(24.17%)低。從受教育程度看,大學(xué)與研究生學(xué)歷的客戶群體占比最多,并且學(xué)歷越高,違約還款的可能性越小。從婚姻狀況看,單身人士多于已婚人士,并且單身客戶的違約率低于已婚客戶。

三、實(shí)證分析

(一)線性判別分析基于觀察事物的特定數(shù)據(jù)特征,判別分析是對它們進(jìn)行分類確定事物的類型,對各個類型的各種樣本的分類規(guī)則進(jìn)行總結(jié)并建立判別函數(shù),用在未來出現(xiàn)的新事物上判斷新事物所屬的類型。判別分析也是第一個適用于個人信用評價的統(tǒng)計學(xué)模式,被認(rèn)為是分類模型領(lǐng)域最廣泛的統(tǒng)計技術(shù)之一[3]。其基本原理是根據(jù)特征變量的屬性值,找出特征變量的最佳線性組合,建立判別函數(shù)。而且,通過這些函數(shù)來區(qū)分觀察的樣本特征,可以準(zhǔn)確的劃分為幾種不同的類型。本文的建模思想如下:總體客戶分為兩類,一類是“履約客戶”,另一類是“違約客戶”??蛻舻奶卣髯兞吭谟?xùn)練集中是知道的,并且每個客戶的類別(即是履約客戶還是違約客戶)也是知道的。訓(xùn)練樣本的作用是根據(jù)新申請人的特征變量,能夠從中建立判別函數(shù),并用其來判斷申請人的信用等級,即履約客戶還是違約客戶。建模完成后,我們將使用已經(jīng)建立好的模型對剩下的訓(xùn)練集進(jìn)行驗(yàn)證,并確認(rèn)該判別函數(shù)是否可用。本文使用R軟件中MASS包中的Ida函數(shù),參數(shù)均保持默認(rèn)的設(shè)置,通過分析得出的訓(xùn)練集總體的預(yù)測準(zhǔn)確度為81.08%。

(二)CART分類樹分類樹是一種非參數(shù)統(tǒng)計方法。其基本思想是:根據(jù)特征變量的數(shù)值,將樣本分為兩個組,最大限度地使同組的樣本發(fā)生的概率一致,產(chǎn)生不同組的樣本的概率最大,在這個過程中,連續(xù)重復(fù)上述過程,劃分獲得的子組,直到達(dá)到設(shè)置的要求為止,最終獲得結(jié)果。最后,按照規(guī)則將所有的終端節(jié)點(diǎn)分為不同類型。在建立分類樹模型時,首先要考慮如何將整體分為不同的子類(怎么分),以及何時停止劃分(如何修剪),如何判斷最終產(chǎn)品類型,最后如何判斷最終節(jié)點(diǎn)類型。常用分支和剪枝的算法有:CART、ID3、C4.5等。本文使用CART算法,其判斷界定信息的有序無序的方法是Gini系數(shù)。則概率分布的Gini系數(shù)的表達(dá)式如下:其中,K表示一共有幾個類別,P_k表示第K個類別的概率。模型的不純度用基尼系數(shù)反應(yīng),不純度越低,基尼系數(shù)越小,特征也就越好。本文使用R軟件中rpart包中的rpart函數(shù),所得模型的訓(xùn)練集總體的預(yù)測準(zhǔn)確度為81.83%。

(三)AdaBoost模型Boosting,也稱為強(qiáng)化學(xué)習(xí)或增強(qiáng)方法,是一種相對重要的集成學(xué)習(xí)方法,可以將預(yù)測準(zhǔn)確性僅比隨機(jī)猜測稍強(qiáng)的弱學(xué)習(xí)者增強(qiáng)為具有較高預(yù)測準(zhǔn)確性的強(qiáng)學(xué)習(xí)者。AdaBoost是英語中“AdaptiveBoosting”(自適應(yīng)增強(qiáng))的縮寫。它的自適應(yīng)性體現(xiàn)在:被先前的基本分類器誤分類的樣本的權(quán)重值將增加,而正確分類的樣本的權(quán)重值將降低。并且將再次用于訓(xùn)練下一個基本分類器。在每輪迭代中添加新的弱分類器,直到達(dá)到預(yù)定且足夠小的錯誤率或達(dá)到預(yù)先指定的迭代次數(shù)為止,最后形成一個強(qiáng)分類器。本文使用R軟件中adabag包中的bosting函數(shù),設(shè)置權(quán)重更新系數(shù)為Freund,其計算公式為α=ln((1-err)/err)所得模型的訓(xùn)練集總體的預(yù)測準(zhǔn)確度為81.85%。使用上文的三個模型,對測試集的數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測結(jié)果如下(詳見表2)。

四、模型比較

本文將從預(yù)測準(zhǔn)確率,第二錯誤率和誤判成本三個方面對信用評估模型進(jìn)行評價。

(一)預(yù)測準(zhǔn)確率對于一個分類模型,本文將樣本數(shù)據(jù)分為訓(xùn)練集和測試集,而在訓(xùn)練集中,樣本的預(yù)測能力體現(xiàn)了一個模型的精度,而測試集的預(yù)測準(zhǔn)確率則反映了該模型除了對生成模型以外的樣本進(jìn)行預(yù)測的能力,即泛化能力[4]。并且從風(fēng)險管理的角度來看,預(yù)測的違約概率的準(zhǔn)確性可以用來對可信的或不可信的客戶進(jìn)行分類。三個模型的測試集的預(yù)測準(zhǔn)確率均高于訓(xùn)練集的預(yù)測準(zhǔn)確率,表明三個模型的穩(wěn)健性或泛化能力比較好。從訓(xùn)練集預(yù)測的準(zhǔn)確度來看,三個模型的預(yù)測精度差別并不大,但是從測試集的準(zhǔn)確性看,AdaBoost方法建立的信用評估模型的準(zhǔn)確度明顯比其余兩種方法要高,達(dá)到了82.61%。并且三個模型在測試集和訓(xùn)練集中的預(yù)測能力都比較接近,表明它們是較為均衡的模型。

(二)第二錯誤率本文將履約用戶誤判為違約客戶定義為第一類錯誤,將違約客戶誤判為違約客戶定義為第二類錯誤。對于銀行機(jī)構(gòu)而言,犯第二類錯誤的損失將遠(yuǎn)遠(yuǎn)大于第一類錯誤,因而較好的預(yù)測模型應(yīng)該有較小的第二類錯誤率。從表2中可以看出AdaBoost建立的信用評估模型測試集對違約判定的準(zhǔn)確率為36.48%,比其余兩種模型高,也即第二類錯誤率較低。

(三)誤判成本在信用貸款業(yè)務(wù)中,把違約客戶誤認(rèn)為是履行合同的客戶對銀行造成的損失更大。因此,評價模型的預(yù)測效果時,應(yīng)該考慮錯誤分類的成本。誤判代價的計算公式如下:1表示客戶履約,2表示客戶違約;π1和π2分別表示客戶履約和違約的先驗(yàn)概率;n1/N1表示第一類錯誤;n2/N2表示第二類錯誤的概率;c(2/1)和c(1/2)分別表示第一類錯誤和第二類錯誤對應(yīng)的錯誤分類的成本。本文將使用West[5]文章中使用方式,將c(1/2)設(shè)置為1,c(2/1)設(shè)置為5,即第二類錯誤成本為第一類錯誤成本的5倍,同時將客戶履約和違約的先驗(yàn)概率均設(shè)為0.5。從表2中可以看出AdaBoost建立的信用評估模型的誤判成本最低為43.92%,明線由于線性判別(45.22%)和CART分類樹(44.03%)。

五、結(jié)語

本文以臺灣某銀行客戶的違約支付情況為基礎(chǔ),使用相同的訓(xùn)練集與測試集,分別使用線性判別分析、CART分類樹和AdaBoost算法3種方法建立個人信用風(fēng)險評估模型,對同一測試集測試客戶違約率,并從預(yù)測準(zhǔn)確性、第二錯誤率和誤判成本三個方面比較這三個模型的預(yù)測能力。分析結(jié)果表明,無論是從預(yù)測準(zhǔn)確率、第二錯誤率還是誤判成本這三方面,AdaBoost算法的預(yù)測效果最好,線性判別預(yù)測效果最差。在我國,信用風(fēng)險的研究還并不成熟,各方面仍有許多值得討論的問題,但各方面條件的缺乏在一定程度上限制了這一領(lǐng)域的研究。由于缺乏條件,本文模型仍然存在一定的缺陷,有待于進(jìn)一步完善和完善。首先,指標(biāo)體系的建立有待進(jìn)一步完善。由于沒有完全開放的數(shù)據(jù)庫,使得研究中樣本的選擇更加困難。其次,模型的算法還有進(jìn)一步改進(jìn),雖然本文中AdaBoost算法的分類準(zhǔn)確率比較高,但是可能存在由于數(shù)據(jù)不平衡導(dǎo)致分類精度下降,弱分類器的數(shù)目也不太好設(shè)定。最后,在實(shí)際中,由于我國是一個大國,各地的經(jīng)濟(jì)發(fā)展不均衡,區(qū)域特征有顯著的差異,因而在構(gòu)建個人風(fēng)險評估模型時,應(yīng)考慮到上述差異,針對不同地區(qū)的人群構(gòu)建不同的模型。

參考文獻(xiàn):

[1]王富全.個人信用評估與聲譽(yù)機(jī)制研究[M].濟(jì)南:山東大學(xué)出版社,2010.

[2]謝霖銓,趙楠,徐浩.個人信用風(fēng)險評估模型發(fā)展研究[J].河南科技,2018(02):13-16.

作者:熊梁程 單位:上海對外經(jīng)貿(mào)大學(xué)

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表