监察器

反洗钱系统结合XGBoost有监督机学习

发布时间:2022/5/7 15:00:32   
北京皮肤科医院简介 http://m.39.net/pf/a_4655748.html

作者:陆俊天,目前就职于科技开发部数据开发中心,承担监管报送相关开发工作,在ORACLE、大数据等数据开发处理方面有一定经验。

反洗钱系统背景

近年来,随着我行业务量不断上升,客户数量以及客户交易发生笔数不断上升,反洗钱工作面临的内外部形势日益复杂。一是银行经营模式转变,近年来商业银行不断创新经营模式,全面推广线上化、非接触服务,金融服务内容和交易渠道日趋复杂和多样,反洗钱工作范围广、专业性强,涉及所有客户、产品和交易,新模式、新业务、新渠道需要反洗钱工作方式和技术创新变革。二是监管标准持续趋严,自年以来,监管机构接连发布反洗钱和恐怖融资相关的管理办法及指引。中国人民银行和银保监会在客户尽职调查、受益所有人识别、定向金融制裁等领域对商业银行反洗钱工作提出了更高要求。三是监管处罚不断加码,国内反洗钱检查处罚力度加大,国际监管问责从严态势持续加剧,至年,全球金融业反洗钱监管处罚金额总数超过亿美元,年均处罚金额约为35.2亿美元,平均每笔处罚金额超过1.8亿美元。

反洗钱系统案例排序算法

鉴于严峻复杂的反洗钱形势,根据目前我行的反洗钱现状,运用先进的大数据以及机器学习算法,对现有反洗钱系统可以案例的处理流程进行优化,通过案例各个维度特征分析,对其重要性以及风险大小进行打分排序,满足我行目前高效高质量的洗钱风险防控需求。1、对案件进行分析和清洗,保留与案件分类相关的交易数据和字段目前,使用2年案件数据(共个案件,时间间隔从-06-19到年5月18日)进行建模。所涉及到的表一共7张:1)客户个人基本信息2)案件信息3)案例客户关系4)案例触发流水5)案件涉及模型6)案件涉罪类型7)全部流水主要涉及的特征如下表1所示:表1数据特征表2、利用XGBoost有监督算法对案件进行排序、打出每个案件的风险评分XGBoost是boosting算法的一种,是以决策树为基础的一种梯度提升算法。通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。弱分类器一般会选择为CARTTREE。由于上述高偏差和简单的要求每个分类回归树的深度不会很深。最终的总分类器是将每轮训练得到的弱分类器加权求和得到的(也就是加法模型)。XGBoost的优点:1.XGBoost在目标函数里加入了正则项,用于控制模型的复杂度。从偏差方差权衡的角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合。2.XGBoost则对目标函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。3.树节点在进行分裂时,我们需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下,贪心算法效率就会变得很低,所以XGBoost采用了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者,然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。4.列抽样(columnsubsampling):XGBoost支持列抽样,不仅能降低过拟合,还能减少计算。5.XGBoost考虑了当数据量比较大,内存不够时怎么有效的使用磁盘,主要是结合多线程、数据压缩、分片的方法,尽可能的提高算法效率。图1XGBoost结构图1展示了XGBoost评分的大致结构。在本方案中,首先构建原始输入数据的特征,然后利用原始数据和构建的特征训练XGBoost;然后用训练好的XGBoost预测案件可能为异常案件的案件,最终输出对每个案件为可疑案件的概率,既案件的评分。表2中列出了XGBoost需要调整的主要参数。表2XGBoost需要调整的主要参数3、模型训练首先,将历史反洗钱数据情况进行训练集、测试集、验证集的拆分,将数据等分为六份,分别标记A、B、C、D、E、F。F数据集设置为验证集,用于模型训练后的数据准确性验证;A、B、C、D、E轮流设置4个训练集以及1个测试集,进行五次实验,更加可靠地对不同的训练效果进行检验,防止出现收敛误差等情况。数据分类情况如下图2所示。图2数据分类通过取两年的数据共个案件进行模型训练与测试,测试集与验证集分别占总数据的1/6,其中测试集有条数据,包含上报数据条,验证集有条数据,包含上报数据条,五折交叉验证五次测试的平均值取整如下图3所示:图3模型计算结果从训练结果统计中可以得出:头部:打分前20%的案宗中,召回率达到90%以上,实现了快速识别高风险洗钱案宗的目的;尾部:打分前50%的案宗中,召回率达到了97%,在没有明显遗漏的情况下,可大幅削减人力审核资源投入。4、总结现在,通过使用XGBoost有监督算法,配合大数据平台的高性能计算,每日对反洗钱新增的案例模型进行分析检查,将所有案例根据评估指标进行评分,由业务人员优先处理高评分案例,降低了对案例评价的误差,提升了报送准确率,从而提升了整体反洗钱效率,让调查人员可以更加精确的调查案例内容以及案例人员,全面增强我行的抗风险能力。预览时标签不可点收录于话题#个上一篇下一篇

转载请注明:http://www.aideyishus.com/lkyy/176.html
------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章