客户信用评估模型
作者:赵亚鹏 丁以中
来源:《上海海事大学学报》2008年第02期
摘 要:为克服由因于客户信用评估的非线性和不确定性,且样本数据积累少、偏差大和真实数据获得难度较大而产生的困难,提出1种基于改进的遗传神经网络客户信用评估模型.将该模型应用于客户信用评估研究及试验均表明,基于改进的遗传神经网络客户信用评估模型在模型分类准确率和分类准确率的标准偏差两方面均明显优于Logit, K-NN和BP神经网络客户信用评估模型,并有效地解决样本量少和偏差大的问题,显著提高信用评估模型的推广能力,具有良好的稳健性和精度.
关键词:信用评估; 遗传算法; 神经网络; 偏差 中图分类号:F830; TP183文献标志码:A Customer credit scoring model ZHAO Yapeng, DING Yizhong
(School of Transport & Communications, Shanghai Maritime Univ., Shanghai 200135, China) Abstract: In order to overcome the difficulties of customer credit scoring such as nonlinearity, uncertainty, few sample data accumulation, large deviation and the problem that real data is hard to obtain, an improved genetic neural network model is proposed to evaluate customer credit risk. It is showed by research and experiment that the improved genetic neural network model is much better than Logit, K-NN and BP network models on classification accuracy and standard deviation of classification accuracy. The problems of few samples and large deviation of customer credit risk assessment are availably solved. The generalization of the model with good stability and accuracy is significantly improved.
Key words: credit scoring; genetic algorithm; neural network; deviation 0 引 言
信用风险是指企业面临债权安全因数的不确定性,表现为其客户由于各种原因,不愿或者无力偿还债务,使企业债权无法收回,形成呆账或坏账.信用评估是企业信用风险管理的关键工作之
龙源期刊网 http://www.qikan.com.cn
一,旨在分析其可能面临的信用风险——客户如期履行特定债务的能力与意愿,从而为信用控制和信用决策提供依据.帮助企业采取针对性的预防措施,纠正信用管理偏差.
信用评估本质为非线性分类问题,故神经网络被认为是1种适于进行信用分析的精确工具.[1]王宪全等[2]指出在众多较新的方法中,神经网络有非线性和映射能力等独特优势,但神经网络全局搜索能力差、收敛速度慢、易陷入局部极值[3],单独使用的效果不是很理想,并指出信用风险评估领域下一步的工作重点应是进一步发展神经网络,提高其推广能力.遗传算法(Genetic Algorithms, GA)是模拟生物的遗传和长期进化过程发展起来的1种随机搜索和优化算法,已成功解决许多复杂的优化问题,即使对多态的和非连续的函数,也能获得全局最优解.与传统算法相比,遗传算法训练神经网络无须先验知识,且对初始参数不敏感,但是其局部搜索能力不足.研究表明, 遗传算法能用极快的速度达到最优解的90%左右,但要达到真正的最优解则要花费很长时间.而神经网络在用于局部搜索时较为有效.因此,文献[3-6]均尝试将遗传算法与神经网络结合,利用遗传算法优化设计神经网络,并取得良好效果,但传统遗传算法不能保证收敛到全局最优解.
鉴于神经网络和遗传算法的特点,考虑到客户信用评估的非线性和不确定性,且样本数据积累少、偏差大、影响因素多和真实数据获得难度较大,统计方法效果不好.本文提出1种基于改进的遗传神经网络信用评估模型,算法流程见图1. 图1 遗传神经网络实现流程
首先,采用随机抽样技术根据初始样本集生成多组训练集和测试集,解决初始样本量少的问题;其次,采用改进的遗传算法对神经网络模型的权值和阈值在解空间进行全局搜索优化,选出适应度值最大的个体,反映出最优的网络权阀值的分布,确定1个较好的搜索空间,以此确定BP网络的初始权阈值,代替一般初始权阈值的随机选取,然后在该解空间里对神经网络进行精调,搜索出最优解或近似最优解.实验表明,该方法能提升模型的推广能力,具有较高的分类正确率和稳定性.
1 小样本量问题的改进及数据处理
在采集数据的过程中,主要考虑样本数据的可获得性、可靠性和代表性.本文的样本数据来源于中国建设银行上海市分行.首先,对样本数据进行稳健性处理,选用2倍和3倍标准差检验法进行异常数据剔除,最终获得有效样本共73个.其中,财务状况良好、能够按时偿还的企业42家,信用记录为“好”;不能按时偿还的企业31家,信用记录为“差”.将73个样本数据分为两部分,53个样本作为训练样本集,剩下20个样本作为测试集.由于企业客户数据积累少,客户
龙源期刊网 http://www.qikan.com.cn
信用评估面临样本量较少的问题,因此,采用随机抽样技术从初始样本集中随机抽取53个样本组成训练集,余下20个样本组成测试集.重复上述随机抽取过程5次,共得5组训练集和测试集用来训练和测试网络.经过此随机抽样技术处理,样本量增加若干倍,可使网络得到充分训练.
2 改进的遗传算法
传统的遗传算法不能保证收敛到全局最优解,而通过改进遗传算法,即在选择作用前(或后)保留当前最优解,则能保证收敛到全局最优解.因此,本文提出以下改进方法:(1)防止算法出现未成熟收敛现象,对选择策略进行调整;(2)改进交叉算子,防止个体趋向一致,改进算法的收敛性能;(3)改进变异算子,动态确定变异概率,保持种群多样性,防止“过早收敛”.通过改进,保证算法收敛到全局最优空间,从而克服神经网络的不足,保证神经网络获得最优结构,提高模型的推广能力和稳定性.
2.1 问题的空间编码
传统的遗传算法采用二进制编码,位串较长, 使得计算繁复且占用大量空间, 尤其是在优化神经网络权值时,由于待优化参数较多,该缺陷尤为明显.针对这个问题,采用浮点数编码,即基因用神经网络的权、阈值直接表示,1个染色体表示1个神经网络,不用进行常规解码,可以提高运算的精度和速度,且便于与其他技术结合.
2.2 适应度函数及选择算子
在本算法中,遗传算法的目标函数是神经网络的误差平方和E(wi),而遗传算法以适应度函数F(wi)来指导寻优搜索,且只能朝着适应度函数值增大的方向进化,其好坏是衡量算法优劣的关键,这里采用目标函数的倒数作为适应度函数
龙源期刊网 http://www.qikan.com.cn
3 实 验
3.1 指标体系构建
基于我国信用现状,企业面临的客户信用风险往往比较大.因此,企业亟需建立1套科学且反应灵敏的信用指标体系,为企业信用管理决策提供支持.本文依据指标选择原则,借鉴我国财政部统计评价司的企业绩效评价指标体系,兼顾我国信用风险的特殊性和数据的可获得性,在查阅国内外相关企业信用文献的基础上,从偿债能力、经营能力、盈利能力、成长能力和信用品质等5方面最终确定18个信用风险评估指标: 速动比率、流动比率、资产负债率、已获利息倍数、流动资产周转率、存货周转率、应收账款周转率、资产周转率、主营业务净利率、净资产收益率、总资产报酬率、成本费用利润率、总资产增长率、主营业务收入增长率、利润增长率、领导者经营素质、领导者道德素质和企业信誉等.
3.2 模型建立和训练参数选取
针对上述确定的5方面18个信用风险评估指标,经主成分提取后,得到速动比率、资产负债率、流动资产周转率、存货周转率、应收账款周转率、主营业务净利率、净资产收益率、总资产增长率、主营业务收入增长率、领导者道德素质和企业信誉等11个指标作为输入,把确定的信用评估指标作为网络输入,BP神经网络的输出可理解为客户信用评估分,设置1个输出神经元,经多次训练比较取优,隐含层神经元数确定为7个,传递函数采用tansig函数.因此,BP神经网络的结构为11-7-1.
在Matlab 6.5环境下进行编程,Pentium 4上运算,网络训练的最大次数为3 000,误差为0.000 1,学习率为0.01,GA的初始种群为50,最大进化代数为200,初始权值为[-0.5,0.5];交叉概率为0.7,变异概率为0.1.
用改进的遗传算法优化BP神经网络权和阈值,迭代次数为80时,种群的平均适应度趋于稳定,算法基本收敛.将结果赋给BP神经网络作为初始权和阈值,BP神经网络采用LM算法迭代532次达到精度要求,其遗传算法误差平方和曲线、适应度曲线和BP算法的训练目标曲线分别见图2和3.
3.3 评估方法比较
龙源期刊网 http://www.qikan.com.cn
泛化能力是信用评估模型中非常重要的性能参数,以5组测试集的分类正确率平均值表示GA—BP信用模型的泛化能力.表1给出GA—BP,BP网络,Logit和K-NN的性能比较结果. 从表1可知,对于这5组测试集,本文提出的方法取得的分类正确率比Logit,K-NN和BP网络模型都高,说明该方法具有良好的泛化能力.
另外,模型的稳定性也是重要的性能参数.标准偏差反映模型的稳定性,标准偏差越小,神经网络越稳定.以5组测试集的标准偏差平均值表示模型的稳定性,表2给出GA—BP,BP,Logit和K-NN分类准确率标准偏差的比较,说明GA—BP比BP,Logit和K-NN更稳定,抗噪音和抗干扰的能力更强,表明本文所提方法的有效性. 4 结 论
采用改进的遗传算法和神经网络构建客户信用评估模型并对客户信用进行评估,同时与传统的信用评估方法Logit,K-NN和BP网络进行比较,实验结果表明该方法具有良好的泛化能力,且模型的稳定性及精度比较高.
参考文献:
[1]TRIPPI R R, TURBAN E. Neural networks in finance and investing[M]. Chicago: Probus Publishing Company, 1992.
[2][3][4][5][6][7][8][9] (编辑 王文婧)
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
因篇幅问题不能全部显示,请点此查看更多更全内容