数据挖掘算法在个人信用风险评估的应用
摘 要:随着数据时代的带来,如何从海量数据中发掘客观的规律、挖掘潜在的价值已成为业界最关注的研究方向。近年来随着消费信贷、金融行业在我国的高速发展,传统商业银行和互联网金融公司的信贷业务激增,随之而来的信贷风险问题日益突出。有关政府部门、业界和学术界也越来越重视对个人信用评估体系的建设。而传统的个人信用风险评估多依赖于人工审核,同时伴随着业务周期长、精确度不佳、效率低下等问题,因此,建设新型个人信用风险评估模型迫在眉睫。本文参考了前人对于个人信用风险评估的研究内容,总结了前人基于各类方法对信用体系的研究成果,包括以统计学理论为依据的判别分析法和回归分析法;以常见的算法如聚类分析、决策树等为核心的数据挖掘方法;以人工智能算法如神经网络、支持向量机等为突破的新研究。同时,本文也评价了先前的模型的优点与不足,并在将来的研究中进一步创新,从而达到更高准确度与更强解释性的评估结果。
关键词:数据挖掘算法;个人征信;风险评估
- 问题的提出及研究意义
进入2000年后,消费信贷逐渐出现在大众的视野中,同时以一种不可思议的速度,在我国得到了飞速发展。而它作为一种拉动经济增长的新型手段,已经成为我国经济结构中不可或缺的一部分。耐用品信贷(如汽车等)、住房信贷、助学信贷等等各种业务规模持续壮大。随之而来的 P2P 模式公司也如雨后春笋般纷纷发展壮大起来。 在这样的机遇和挑战中,我国的消费信贷总体上呈现出良好的发展态势,但相对应地,也存在一些潜在的、比较严峻的问题。首先,到目前为止我国还没能建立完善的个人信用记录,我国的消费信贷模式是根据发达国家建立起来的,但是每个国家的国情不尽相同,我国是人口大国,大规模的建立一种个人信用评估体系在我国的实现要更加困难,因此我国的信贷机构严重欠缺对借款人个人信用进行评估的有效方式,可是人员的众多使我国信贷规模的扩大速度越来越快,信贷机构所承受的信贷风险也已经越来越大,并且现实的情况就是,这样的发展已经给他们造成了大量的资产损失。随之而来的,信贷机构为了有效的降低信贷风险,必须要使用严格的个人信用审核流程。这样使得贷款流程过于繁琐,无论对借款人还是信贷机构,都无端地增加了许多交易的成本,这样的情况严重阻碍了消费信贷的进一步便捷发展。 而能够根本上解决上述问题的最优方式就是尽快树立起一个完善有效的个人信用评估体系,然而如何进行个人信用评估,建立怎样的信用评估模型,则是个人信用评估体系建设的关键点。 个人信用评估从 David Durand 在 1941 年开始建立模型以来,得到了社会的高度关注,各专家学者纷纷探索建立评分模型,取得了非常突出的成就。但是就目前国内外的相关研究来看,依然存在一些问题,即单一模型的饱和状态。目前来看,单一模型总是会存在一些难以克服的缺陷,预测效果很可能差强人意。它们没办法做到预测准确度、泛化能力和可解释性的同时优化。这使得个人信用评估领域一度陷于低迷。 为了突破这一瓶颈,学者们开拓了新的研究方向:组合模型。他们认为,若是能将各种优劣不同的单一模型进行归一整合,将它们的长处充分发挥,则非常有可能提高整个个人信用评估体系的预测准确率。
- 文献回顾
个人信用评估从产生到现在已经有超过 150 年的历史了,它的发展最初主要集中在一些发达的资本主义国家,但是随着我国经济水平的增长,国内也有了近 50 年的发展,因此个人信用评估的技术已经相对成熟,具体评估方法可以归为以下三类:
第一类方法主要以传统的统计学参数分析理论为依据,包括判别分析法和回归分析法等。最早将判别分析法运用到信用评估当中的是 David Durand(1941),前文已有提及过,他是最先将信用评分技术运用于区分贷款优劣的[1]。后来,Eisenbds(1977)在 David 的基础上将判别分析法进行了推广应用,由于判别分析独特的优势,在众多评估模型当中,它至今仍然有很广泛的应用价值空间[2]。回归分析是则经典的统计学方法,它的应用已经涉及到各个领域,它包括线性回归、Logistic 回归、Probit 回归等。线性回归是最基本的回归模型,它的意义也是最为广泛的,而个人信用评估更多需要的是概率估计,Logistic 回归是线性回归的进一步优化变形,它正好可以将回归的估计结果变成概率的形式来表达,因此在信用评估领域应用的极其广泛,其回归性能更是优于判别式分析。Mangasarian 在 1965 年的时候就意识到也许将线性回归的方法应用到分类问题当中可以得到很好的预测结果,但他的提出直至 1981 年才由 Freed 和 Glover 完成了真正的实际应用,他们证实了线性回归在信用评估中的优良性质,初步体现了回归模型的在分类问题上的应用价值[3]。Cramer(2004)则在前人的基础上,对 Logistic 回归方法进行了优化,他对几种变形进行了研究,认为边界 logistic 回归在几种变形中分类准确率更高[4]。国内学者史小康,何晓群(2014)则进一步利用有偏 Logistic 回归模型对个人信用评级进行了划分,优化参数后得到了优于其他普通模型的结果[5]。Probit 回归是同样是一种二分类非线性回归方法,它与 Logistic回归是一个等价的存在,区别在于它只是将模型符合的分布定义为正态分布,Grablowsky 和 Talley(1981)将它应用于信用评估,虽然二者的估计和分类是大同小异的,但是由于 Probit 模型即没有比 Logistic 回归更突出的优点,反而在解释性上要劣于Logistic 模型,因此在信用评估领域一直没能有更深入的研究[6]。
第二类方法是包括 k 近邻判别法、聚类分析法和决策树法等的数据挖掘算法。Henley 和 Hand(1996)对最近邻法进行了深层的剖析和研究,他们的研究重点在其最近邻的定义以及数目的选择上[7]。以期能从这两个方面改善最近邻法模型的预测精度。Elizabeth Mays(1998)运用聚类分析法对借款人的年龄、职业、婚否等方面进行了分类,并对每一类进行回归评分[8]。Makowski(1985)首次提出将决策树的方法结合到个人信用评估当中进行分类[9],此后赵静娴等学者(2009)更加深入地将决策树法加以优化运用,得到了很好的分类预测结果[10]。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。