金融风控场景的机器学习模型可解释性浅析
一、机器学习模型的信任危机
我们是如何区分哈士奇和狼的?我们人类可以通过经验来区分温顺的家犬和危险的野生动物。但是机器学习算法根据模型分类器的数据和权重,这个结果的判断是如何做出的则是个谜。
2016 年,加州大学欧文分校的研究表明,区分哈士奇犬和狼的高度准确的算法并不是通过区别动物本身的样貌属性,而是根据辅助数据做出决策的——特别是雪的存在。这一测试结果引出了一个重要的问题:如果我们无法解释机器学习算法的黑盒工作原理,我们怎么相信它给出的结果?
机器学习的种类繁多,但是一般我们会根据训练期间接受的监督数量和监督类型进行分类,将机器学习分为以下两种类型:有监督学习、无监督学习。
在有监督学习中,算法需要解决方案的训练数据来做标签或标记,以此指导算法作出符合训练规律的决策。简单的有监督线性模型中,我们可以通过检查分类器的结构获得线索,从而了解运算逻辑。但随着模型复杂性的增加,机器学习模型变成了“黑盒”,算法越复杂,结果就越难解释。同时,我们也认为数据标签越多,结果也越准确。准确性和可解释性在有监督算法的实际落地中产生了矛盾。
二、为什么金融风控需要可解释性?
当机器学习的预测结果对用户的隐私和安全产生影响,而机器学习的建模者或用户会因此面临法律或财务风险时,一个具有可解释性和说服力的风控结论就变得至关重要。高盛的Apple Card就曾发生过一起机器学习模型训练结论存在争议的负面事件,一位知名企业家指责高盛存在歧视,因为他的妻子尽管信用评分比他高,但仍被拒绝增加信用额度,高盛的信用卡业务因此受到了审查。这起投诉事件引发了纽约州金融服务部(DFS)进行了一项关于算法的调查,调查信用额度的算法是否存在性别歧视等违法行为。由此可见,可解释性是保护消费者权益的必需品,也是保证金融机构健康、安全、合规运行的重要指标。
三、金融风控的痛点
虽然我们已经了解到可解释性在金融风控中的重要性,但是想要将可解释性的算法落地在金融风控场景并不是一件易事。金融行业的大数据资源丰富,数据应用由来已久,为满足丰富的用户需求和不断提升的用户体验,对金融业务创新模式的要求和对大数据处理能力的要求也水涨船高。
▪数字化的欺诈风险升级
传统银行在数字化过程中,欺诈攻击也随着银行数字化业务的升级一并进化,个人欺诈攻击向有组织的团伙型欺诈攻击转变,规模更大,技术更加专业,所造成的欺诈损失也更多。
▪风控体系需要智能化与专家决策的有机结合
随着数据的不断积累,运营客户的案例和数据的维度都更加丰富,在这种背景下传统的专家决策模式在效率和精度上都存在问题,所以需要以智能方案为核心、依据量化结论形成决策、并结合专家运营输出可解释的风控意见。
▪风控决策时间要求极短
原有的金融风控体系响应时间长,难以做到实时检测。当前更多的业务正在往线上转移,留给技术后台的处理时间可能只有一秒钟,这就对大数据处理的技术架构提出了极高的要求。而产生客诉后,留给风控业务的审核时间也是少之又少。
四、无监督模型在风控领域的工作原理
一个常见的误区是:无监督机器学习(UML)由于其不需要标记数据来发现新模式,更像是一种黑盒模型。
但是,事实相反。
无监督学习模型可以风控领域识别欺诈者时,提供良好的解释性。无监督学习与有监督学习的核心区别是训练数据只有自变量没有因变量(就是没有Y值)。常见的无监督学习有聚类算法、可视化和降维、关联规则学习。
聚类或基于关联分析的无监督学习在风控场景可以得到极佳的应用,因为它能够提供出特殊交易或欺诈活动的具体原因代码,主要是通过聚类出不同维度的特征,如活动、行为、时间和其他因素,结果常常以可疑的分组形式出现。这些特征可以在模型的图表中直观地聚集在一起,这些聚集行为展示了欺诈团伙的可疑活动、联系方式和作案规律。这样我们既可以获得高准确性的欺诈团伙捕捉,又可以解释机器学习的决策理由。
图中展现了无监督机器学习的特点,它将可疑用户和事件聚集,因为从风控经验上讲:“好人分散,坏人扎堆”。为了集中获得高的欺诈收益,欺诈者往往会躲避规则的同时又在规则的极限边缘试探,从而形成了一些正常用户不会出现的行为数据,这在不同聚类子空间中会被定义为可疑团伙。
五、无监督机器学习的风险事件认定
无监督学习依靠其不依赖标签、捕捉特殊群组、具有可解释性的这三大特点,它为何能够在金融风控领域成功落地并解决金融风控中的核心痛点呢?
▪第一,因为欺诈者为逃避风控规则,其手法变化快,仅依赖历史数据和标签往往难以捕捉新型未知欺诈。
▪第二,现代欺诈逐渐形成了链条化、组织化的专业形态,巨额欺诈损失的背后是团伙型欺诈者的高效工作。
▪第三,金融机构追求客户体验,而风控业务人员又不希望规则造成大量客诉,具有可解释性的模型至关重要。
基于这三点,无监督学习的用武之地可见是风控领域。
不过,无监督学习在实际落地中的可用性和效果一直存疑,人们常问:靠聚类如何区分是欺诈团伙还是行为良好的团队?其实,仅靠一些开源的无监督算法,比如K-means或DBSCAN,聚类逻辑主要依靠运算距离等方式,这样的预测结果的确是不可用的。想要稳稳落地,一个可用的算法必须结合风控经验来打通逻辑,也就是在聚类子空间中,“聚”出针对风控场景的可疑群组,这既需要经验支持,也有一定技术门槛。
那么,一个可用的无监督学习算法是如何判定风险事件和欺诈用户的?维择科技在服务全球金融机构的案例中,总结了许多可复用的聚类子空间和规则。
案例一:
维择科技依靠无监督学习算法,发现了疑似黑中介代办的欺诈申请团伙,其中涉及18个申请人分别通过虚假信息包装提交贷款申请。欺诈者运用了一定的伪装手法:该群组中申请人的个人信息(名称、证件号、手机号、家庭地址等)均不相同,大多数申请人的单位名称不同。申请时间相对分散在周内的不同时间。在一般规则审查中,很难发现这些看似不相关的人是同一个犯罪团伙。
无监督算法从不同聚类子空间中摘出了这些申请人的可疑共同点:
▪18个申请账户中12个账户的家庭地址与征信信息中的家庭地址不一致,且11个账户的城市信息不一致;
▪18个申请均通过手机浏览器完成,其中使用的苹果手机IOS版本较低;
▪每单申请过程中均出现登陆的GPS不唯一,且存在跨城市的现象;
▪不同申请之间都有登录同一城市的GPS信息,且登陆的均为苹果手机。
案例二:
维择科技在为某股份制银行卡中心进行信用卡反诈场景的检测服务时,发现了疑似养卡提额的团伙,他们紧扣住银行信用评估系统和风控系统的规则,投入成本并长期保持信用卡活跃,制造出真人刷卡消费的假象。
无监督算法则能够摘出这些持卡人的可疑共同点:
▪特定借记卡给多个信用卡账户还款,还款金额集中;
▪每个信用卡账户都在过固定多个商户交易,且为同一家收单机构,收单机构所在地相同;
▪每个卡的消费总额是授信额度的数倍;
▪每天1分钟同一个商户消费多笔,且金额类似;
▪每天还款1笔,且金额集中。
这两个案例中的特征合并在一起看,是高度可疑的,但在逐个筛查中极难被发现。
总而言之,并非所有机器学习模型都是黑盒,对于大多数应用场景来说,一定程度的可解释性足以满足法律和监管的要求。对于金融场景的欺诈检测,从业者则更推崇准确性与可解释性并存的算法。发现不同机器学习的用武之地,向所有人展示“这是狼,不是哈士奇”的理由。
作者:维择科技李梦晓
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
标签:
责任编辑:hnmd003
相关阅读
-
接入年轻一代的数据线 主流综艺节目点燃了大家对民歌现状与未来的关注
许多人认为民歌距离自己十分遥远,这只是因为大家还没找到恰当的‘打开方式’,不知道通过什...
2022-07-18 -
当前资讯!“19蓝光01”持有人会议审议通过增加增信措施议案
观点网讯。7月15日,中信证券股份有限公司披露有关 "19蓝光01 "2022年第二次债券持有人会议决议的公告...
2022-07-18 -
审评审批体系建设卓有成效 中药产业为保障人民健康发挥了重要作用
国家中药科学监管大会7月14日在京召开,会上发布的《2021国家中药监管蓝皮书》显示,截至2021年底,我国...
2022-07-18
阅读排行
资讯播报
- 加大宏观政策调节力度 上半年全...
- 6月份商品住宅销售价格环比总体...
- 今夏全国优质专用小麦比例达到38...
- 需求激发了更多的消费潜力 季节...
- 7月15日起已经获得过助学贷款支...
- 一系列扎实稳住经济政策成效明显...
- 复苏的脚步越来越快 上半年中国...
- 上半年中国经济究竟表现如何?还...
- 世界今头条!银保监会:千方百计...
- 环球今热点:知识城投资集团5亿...
- 环球通讯!调查|浙江瑞安一豪宅...
- 全球今日讯!李栋:看清细胞更深...
- 上半年海南对东盟进出口154.4亿...
- 继续当前企稳回升的势头 下半年...
- 全球观焦点:华南城:拟12.57亿...
- 热点评!光控安石商业地产150亿A...
- 一直合理区间内小幅温和波动 中...
- 监管能力和监管水平全面提升 中...
- 总会出现新的渠道 短期疫情影响...
- 全球快看点丨自动驾驶下游任务的...
- 热资讯!上周楼市成交环比同比均...
- 天天时讯:【即将隆重开幕】第三...
- 快讯:北京从7月18日起将发放1亿...
- 【环球快播报】标价1.45亿,看房...
- 天天讯息:华南城拟出售第一亚太...
- 世界微资讯!基于振动的疲劳失效...
- 全球观察:融信:19融信01、19融...
- 当前速看:南京、武汉阿里巴巴商...
- 天天快看点丨星中之星!明星挑战...
- 环球今日报丨银保监会再回应停贷...
- 世界动态:业绩快报 | 财信发展...
- 天天信息:资本圈 | 宝龙完成交...
- 每日速读!WTT球星挑战赛布达佩斯...
- 全球时讯:2022中国家帆赛首战扬...
- 当前讯息:WTT球星挑战赛布达佩...
- 每日速看!“华金-华发租赁住房二...
- 【全球独家】龙泉股份拟转让淄博...
- 天天热头条丨福建漳龙集团4.49亿...
- 每日资讯:WTT球星挑战赛布达佩...
- 【世界热闻】西部数据交易中心正...
- 天天快看:宝新金融:李均雄辞去...
- 爱慕新品舒适内衣,一秒感受“沉...
- 焦点热门:苏炳添:接力大概率启...
- 天天热头条丨佳兆业旗下航运健康...
- 全球焦点!【在希望的田野上】全...
- 焦点信息:广汇集团在四川广元建...
- 每日播报!【奋进新征程 建功新...
- 今日快看!新华都制定年均35%以上...
- 当前消息!助企纾困 | 新疆克...
- 天天热讯:祖国内地天地广阔 香...
- 每日热议!海航投资延期至7月29日...
- 天天消息!财信发展聘任熊欢伟为...
- 全球资讯:海航投资股价异动 3...
- 环球快看:财信发展2022年上半年...
- 当前速看:财信发展上半年计提资...
- 全球观焦点:“体总杯”全国街头...
- 当前热门:WTT球星挑战赛:王楚...
- 即时看!走进县城看发展|贵州龙...
- 当前快报:云南出台措施支持高校...
- 全球热点评!高考花钱可录取?别...
- 天天观焦点:巩立姣收获个人第七...
- 天天观天下!数次梦见自己夺冠,...
- 环球视点!华侨城深圳湾新玺名苑...
- 环球热资讯!青海首家“青少年女...
- 焦点讯息:奋斗者正青春|扎根沙...
- 天天速看:用好区位优势 提升...
- 天天百事通!马勒动力总成开设新...
- 天津乾升冠成科技发展有限公司企...
- 当前要闻:全国碳市场启动一周年...
- 全球看热讯:看见博鳌丨开讲楼市...
- 天天实时:【在希望的田野上】重...
- 当前信息:中国男篮95:80战胜中...
- 快看点丨连扳三局!王楚钦王曼昱...
- 世界即时看!【在希望的田野上】...
- 环球快播:大山里的“陶艺村”:...
- 环球热消息:打出“组合拳” 天...
- 环球滚动:王艺迪4:1石川佳纯晋级...
- 每日看点!马龙王楚钦2:3赵大成...
- 天天速讯:什么样的爱情,才能长...
- 每日速看!直落三局!孙颖莎王曼...
- 环球新消息丨科技助力夏季田间管...
- 当前讯息:战高温 | 90后“女...
- 焦点简讯:中国经济半年报 | 上...
- 今日热门!高温下劳动者特写:为...
- 2022北京数字经济体验周下周启幕...
- 喜羊羊新片开播!羊村守护者高燃...
- 世界热文:中国恒大接获额外复牌...
- 世界热议:热问|避免入住“踩坑...
- 全球即时看!中国冰雪大篷车“开...
- 世界要闻:获两项吉尼斯世界纪录...
- 环球新动态:2022(第二届)京张...
- 最新消息:格斗时刻之列阵揭幕赛...
- 当前信息:海南:保障性租赁住房...
- 信息:晋级世锦赛百米半决赛!苏...
- 每日热闻!中国恒大接获复牌额外...
- 天天热门:武汉渡江节:92名“泳...
- 每日热闻!苏炳添:可能让大家失...
- 天天新动态:火了!积分摇号,成...
- 全球即时看!恒大接获复牌额外指...
- 动态焦点:一周公告合辑丨房企上...