让字符、类别特征变成数值,再让数值变“丝滑”,智能风控原来都是这么玩的
AI领域的科学家,越来越像手艺人。
手艺人可以将在外人看来无用的东西,加工成一件件颇具价值的工艺品;而AI科学家则可以把字符、类别特征,变成智能风控系统中的重要一环。二者的区别在于,手艺人只能以人力一件一件地创作,而科学家们通过科技的手段,直接让“量变”变成“质变”。
“外行看热闹,内行看门道”,科技公司的AI科学家们究竟是如何化腐朽为神奇的?本文将以萨摩耶数科在目标编码上的应用为例,揭开智能风控一隅。
目标编码:让类别特征和字符特征变成数值
在聊目标编码前,我们先聊聊全民都在参与的垃圾分类。
1吨废塑料可回炼600公斤无铅汽油和柴油;回收1500吨废纸,可避免砍伐用于生产1200吨纸的林木。因此,垃圾回收既环保,又节约资源。同时,垃圾回收也可以减少环境污染。废弃的电池等含有金属汞等有毒物质,会对人类产生严重的威胁,废塑料进入土壤,会导致农作物减产。
过去,居民生活产生的废纸、废塑料等可回收垃圾将与厨余垃圾、有害垃圾一并扔进垃圾桶,14亿人日复一日将带来多大的资源浪费?垃圾分类是在终端环节,将生活垃圾的价值最大化,做好垃圾分类,就能让垃圾回收及处理等配套系统更高效地运转。
目标编码在智能风控中的价值也是如此,甚至目标编码更进一步,让没有太多价值的“其他垃圾”变成可以创造价值的“可回收垃圾”。
具体而言,智能风控的3个重要方向:模型、策略、架构。在机器学习模型的构建和使用过程中,模型处理的信息通常都是数值型。但在风控场景下,特别是贷前审批流程中,用户信息通常存在大量的字符型或类别特征。
比如1000名样本中,有15名样本在30天内坐过动车,这种数据必须经过转换后,才能进入到风控模型中,而转换后的特征表达效果,直接影响到模型的最终预测效果,因此针对类别特征或字符型特征的处理方法,其作用便尤为重要。
在风控场景下,由于更注重模型与变量的可解释性,对于类别特征或字符型特征常用的处理方式就是目标编码。
萨摩耶数科人工智能团队表示:“智能风控机器学习模型的构建和使用过程中,目标编码起到非常重要的作用,如在信贷风控场景下,通过目标编码可以实现模型与变量的可解释性,从而提升模型的效果。”
目标编码,也称为均值编码,是特征编码的一种非常有效的方法。该方法是统计每个类别标签对应目标值,每个类别标签都被该类别的平均目标值替代。上文提到的1000名样本,其中男性600名,女性400名,“在30天内坐过动车”标签为1,相应的男性有10名标签为1的样本,女性有5名标签为1的样本,则对应的男性标签目标编码值为10/600 = 0.0167,女性标签的目标编码值为5/400 = 0.0125。
“将字符型数据或类别特征通过目标编码变成目标值后,就可以进行风控建模。看上去和风控无关的数据,就变成了风控模型中的一颗‘螺丝钉’。”萨摩耶数科人工智能团队总结道。
让目标编码变“丝滑”,萨摩耶数科的智能风控实践
实践是检验真理的唯一标准。目标编码的原理并不复杂,这并不意味着目标编码在智能风控中的应用也一样简单,风控不是理论,而是实践。
作为目标编码的应用企业,萨摩耶数科意识到了目标编码在智能风控中的价值,也发现了目标编码的短板:当一个类别标签其数量较少,但其对应的目标值较大,会导致其编码值较大,但其在总体样本占比较小,可信程度可能不高,从而导致模型会出现一定程度的过拟合。
举个例子,A球员投篮,投100个,命中50个,命中率(即目标编码值)50%可信度较高,但当他投3个命中3个,命中率100%,可信度可能不足以让人信服。
故而,萨摩耶数科在目标编码的应用中设置了阈值,对类别标签数量少于阈值的,其编码采用全量样本的目标均值(即全部样本的坏样本率)来进行填充。
还是以球员投篮为例,假设教练设置了一个阈值是投球10个,A球员投了3个(在阈值之下),命中率100%,而他整个生涯的命中率(即整体样本目标均值)为28%,最终的结果则以28%作为A球员的命中率填充。
图:编码方式对比
萧伯纳曾说过的:“科学每解决一个问题,都要引发十个新问题。”这种填充方式则引入另一个问题—编码噪声,即在阈值附近,编码值会发生突变,从而引入编码噪声。
继续上例,阈值为10,A球员投了9个命中9个,此时A球员的命中率为28%,但A球员投了第10个球又命中了,则A的命中率从28%突然变成了100%。
而这种突变引起的噪声会影响模型提取编码信息的能力,从而影响模型效果。智能风控是一项精密的工作,每一个数据的偏差都可能导致资金的损失,更何况是数据的突变?
为避免编码噪声出现,萨摩耶数科进一步对目标编码存在的问题进行改进。“我们希望提出一种编码方式来对其进行改进,消除这种突变带来的影响,概率平滑编码便由此诞生。”萨摩耶数科人工智能团队表示。
从具体方法而言,萨摩耶数科引入了一个机器学习模型中常用的概率平滑函数——sigmoid函数。
引入概率平滑函数后,模型会发生什么变化?
若A球员一次投篮40次,投中25个,则命中率是62.5%,整体命中率为28%,阈值为10,通过上述公式可得出其概率平滑函数值为0.9999,则其对应的目标编码值0.28*(1-0.9999)+ 0.625*0.9999 = 0.6249。若A球员一次投篮8次,投中7次,命中率为87.5%,则其概率平衡函数值为0.1192,对应的目标编码值为0.28*(1-0.1192)+0.875*0.1192 = 0.3509。
通过平滑函数,目标编码避免了突变问题,此外,萨摩耶数科还通过增加平滑系数,来对函数的平滑程度进行控制,效果如下图所示,图中的绿线为概率平滑编码,相比红线的目标编码值,当其类别标签数量小于阈值时,其编码值逐渐接近全量样本平均目标值,大于阈值时,其编码逐渐接近类别标签对应的目标均值,从而有效避免噪声的出现。
以目标编码的方式将类别特征或字符型特征变为数值,并将其优化为“丝滑”,这大大丰富了萨摩耶数科智能风控建模时的数据维度,大幅度优化了萨摩耶数科旗下的自动建模平台AUTOMAN效果。
AUTOMAN自动建模平台是将人工智能应用在模型设计领域,可使模型开发周期减少60%-80%,最短1周内可完成千万级样本建模任务,具备样本研判及处理、最优模型保存及部署、新样本预测、模型训练及调优四大功能,能通过便捷的方式直接接入金融机构的系统中,使得风控模型辨识风险的精准度更高。
为验证改进目标编码的效果,采用真实贷前审批业务场景特征,使用变量包含数值型变量和类别变量,分别使用均值目标编码和概率平滑目标编码方法对类别变量进行处理,对处理后的特征,使用Automan自动建模工具进行建模,建模效果如下图所示:
在同一份OOT样本上,概率平滑编码的AUC为0.714,略高于均值编码AUC0.705,且在风控常用指标KS上,KS从均值编码的0.33提升到了0.38,模型效果提升较为明显,表明概率平滑编码确实有助于消除均值编码的噪音。
“数据决定AI算法的精度,算法精度决定AI产品质量。”萨摩耶数科董事长林建明说道,唯有精度高了才能帮助客户构建智能化的风控大脑。不只是萨摩耶数科,任何金融科技平台的人工智能解决方案都需遵循这一前提。