【金猿案例展】中国银联:以内外联动的数据竞赛驱动企业数字化转型

大数据产业创新服务媒体

——聚焦数据 · 改变商业

伴随着前沿技术的不断成熟和云端迁移的趋势,处于银行卡业务核心枢纽地位的中国银联希望通过打造常规性、延续性、品牌性的数据科学竞赛促进内外协同创新,持续引领金融领域的技术前沿,树立数据驱动的创新标杆。

因此,在企业内部连续三年举办数据科学竞赛的丰富经验的基础上,中国银联于2019年6-9月在和鲸科技的全程技术与运营支持下面向公众举办了首届高校极客挑战赛。旨在通过竞赛触达优质数据科学人才的同时,以赛题承载真实业务中与大数据与人工智能算法息息相关的问题,借助公众竞赛的形式收集解决思路与方法。

实施时间:

A.竞赛筹备——2019年5月22日-6月23日,共32天,主要服务内容包括:

●赛题设计与定制

●消费金融主题数据集采购与预处理

●赛题测评算法开发

●数据科学平台系统部署及功能支持

B.初赛——2019年6月24日-7月21日,共27天

C.复赛——2019年7月29日-8月18日,共21天

D.决赛——2019年9月20日

应用场景

在首届高校极客挑战赛中,竞赛赛题承载了中国银联在真实业务中面临的真实问题。要求参赛选手基于脱敏和采样后的用户消费行为数据,设计相应的算法进行数据分析和处理,预测在未来的一段时间内,用户对于某产品是否会有购买和收藏的行为。

基于如下四个赛题考察点,最终竞赛成果将高度贴进真实业务场景的实际情况,可运用于新产品或新业务在冷启动阶段,对于潜在目标用户的行为分析与针对性营销策略制订。

1.对于小数据的考察,在习惯了传统的大量结构化数据的前提下,考察选手对于小数据(冷启动数据)的适应和调整能力,我们在减少数据条数的同时并没有因此缩减数据的维度,考察选手在处理此类数据时的思路和方法;

2.对于脱敏数据的数据分析和特征工程思路,因为数据安全性的考虑,本次的数据采用的是脱敏后的数据,这对于选手团队的数据分析以及基于数据分析的特征工程能力提出了一定的要求,判断哪些数据字段或是数据字段的组合是有效的,如何衡量每个数据字段的重要性甚至如何去推测某个指标的含义都是值得关注的点;

3.指标分布不平均的情景,本次赛题需要预测的两个指标(用户的购买和收藏行为)的分布并不全是平均的,本次赛题也旨在考量选手对于待预测指标分布不平均的情况下的处理思路;

4.训练集测试集分布不同,本次数据集的训练集和测试集有着相当不同的分布,如何解决甚至利用分布不同这个问题,使得选手的模型在线下的验证和线上的成绩能够得到一定的趋同,也会是选手们面临的一大难题。

面临挑战

●数据涉及客户敏感信息,在竞赛环境中需要高度保障数据案例和防止信息泄露;

●AI协作开发工具、竞赛系统与银联网站需要打通协作的产品定制化开发要求;

●在全球各类数据科学竞赛中均无法彻底规避的竞赛作弊行为可能严重影响赛事公平性、成果有效性、选手积极性和中国银联的品牌声誉。

数据支持

首届高校极客挑战赛数据建模赛道运用了57,453条经过脱敏处理的消费金融主题数据。其中,初赛使用14,366条数据,合计26.5MB;复赛使用43,087条数据,合计106MB。数据集样例示意如下:

竞赛数据共包含346个字段,示意如下:

应用技术/实施过程

数据建模赛道比赛系统

此次竞赛在银联自建网站上进行发布和开发操作,而由和鲸提供协同AI开发工具K-Lab和评审系统。和鲸科技选择从银联方面最小的改动和工作量出发,进行了高度定制化的技术方案设计及完善——提供API接口将评审系统与银联系统对接,同时,K-Lab也进行了定制开发,接入了银联方面提供的标准SSO解决方案。在方案确定后,双方开发人员密切配合,高效完成了联调任务。

在生产环境部署阶段,和鲸科技为银联提供了测试账号和测试样例,并安排专人对比赛运营进行了K-Lab使用培训和演示。在赛题和提交确定后,在K-Lab内提供了比赛样例,演示了比赛中的关键操作的实现。在比赛开始后,和鲸技术团队抽调资源,解决选手提交和代码运行问题。

此外,和鲸科技也在比赛排行榜设计、用户指引、用户如何查看比赛提交等多个关键细节上提供了咨询和建议。其中用户查看提交记录和得分是一个非常关键的需求点,银联平台在设计阶段未设计相关功能,和鲸技术团队主动沟通提出此问题,并提供了补救技术方案,在短时间内配合银联平台的开发人员解决了此项问题。

提交功能

参赛选手能过为其配置的专属token可将在K-Lab上开发完备的算法模型或答案文件稳定地提交上传到竞赛系统。和鲸科技搭建了token和用户提交接口测试服务,供银联方面调试。

客观评审服务

通过提交token的跟踪,系统可自动判别提交文件属于是由哪去参赛团队上传的。同是,和鲸科技在竞赛系统中预置了自动评审代码,可对选手提交文件进行快速地自动评审并给出分数。

由于本次赛题考察的是选手对于两个指标的建模,因此设计的测评指标为两个独立指标的AUC的平均值。在竞赛系统中预置自动测评代码即可对选手的提交文件进行自动测评并出分。

排行榜功能

系统根据所有队伍的评审分数自动生成排行榜,并以API的方式提供给银联网站进行显示。

数据科学平台系统部署及功能支持

和鲸科技为竞赛搭建了便捷易用的数据科学协作平台,供参赛选手进行模型开发,数据科学协作平台整体架构与功能如下:

简洁明了的运行页面,提高数据分析效率

数据文件预览与数据库凭证管理

模型解析与部署服务

最优竞赛成果算法模型解析

最终夺得第一名的团队AUC得分达0.692。

该团队采用了“数据清洗 - 特征工程 - 单模型预测 - 模型融合”的机器学习建模思路,其整体思路当中包含了对于行业业务的分析以及用户群特征的分析的内容。在对于收藏这一消费者行为的预测的模型当中采用了word2vec的方式进行用户行为的特征处理,制作成用户行为的顺序星系,随后采用deepwalk构建同构网络,使用图网络当中节点与节点的共线关系来学习节点的向量表示,构建用户与ID的全局关系网络。

同时,针对消费者行为的特征,筛选出一些具有业务特色的数据(如买家和卖家拥有相同的id,即自刷点击量),辅之以三大类基础业务数据(用户行为数据、业务时序特征群和信息完整度特征群),构成模型输入的主要特征群。通过优秀的特征工程使模型线上线下具有较高的一致性,稳定,提高模型的鲁棒性。

在模型训练阶段,采用了业内对于CTR类问题的经典解决模型Lightgbm, 结合上文所述图表示学习和自动化特征筛选的技术,在单模型阶段就能够取得稳定的高分数,同时采用graph embedding的技术使得模型在大数据量上的延展性更强,同时兼顾了线上部署的便捷性和实用性。

在最终的模型融合阶段,将Lightgbm 模型结合了近年来多个海内外先进的CTR训练模型,如CatBoost,DeepFM, XGBoost, 并且加入了规则过滤来进行模型组合,确保最终生成的模型有着更加优秀的预测结果。

外部合作

CareerX作为和鲸科技的协作伙伴,为中国银联首届高校极客挑战赛提供了参赛选手社群运营和决赛现场运营管理的服务支持。

在参赛选手社群运营方面,和鲸科技向参赛选手微信群中派驻专业的技术及项目人员,对选手问题进行及时响应和协助解决,同时,通过FAQ的方式对高频出现的问题进行定期梳理、总结和沉淀,保障选手能够通过集中呈现问题的通道得到更有效率的答疑体验。

在决赛现场运营管理方面,CareeX提供了会场布置、相关人员对接、决赛流程把控等全方位的服务支持,确保了决赛的有序进行,为参赛选手充分展示其算法模型开发成果与创新思路提供了良好的条件。

商业变化

拓宽人才接触管道,优化人才考核方式,招聘成本大幅下降

在传统的校园招聘模式下,企业往往需要耗费大量的成本和精力投入线下宣讲、简历收集与筛选、面试安排等一系列工作中。且传统的面试手段往往因时间短、问题模板化等问题,难以真实反应求职人员的素质与能力是否与企业需求契合。

而首届高校极客挑战赛数据建模赛道为中国银联吸引了来自451所海内外高校的871名参赛选手,985/211高校覆盖率高达84.6%,最终13支团队进入决赛环节,近20名参赛选手进入中国银联2020年接招绿色通道。在近3个月的竞赛周期中,通过与中国银联实际业务高度贴近的赛题,不仅对数据科学人才的各项能力进行了全方位的考察与验证,而且让数据科学人才对具体行业场景的技术应用能力得到了锻炼和提升,起到了岗前培训的效果。为中国银联有效降低了人才招募成本。

优质竞赛成果高度贴合业务场景,更敏捷地检验技术应用效果

通过数据科学竞赛这类面向社会的开放式创新手段,中国银联能够在对不同前沿AI技术和数据在具体业务场景下的应用方向进行更低成本的探索,对应用效果进行更高效率的验证。同时可真实收获在赛马机制驱动下诞生的优质算法成果。

本次比赛在客观评审的阶段采用了双AUC取平均值的计算方法,将两个预测难度差距较大的指标的AUC进行了平均计算。参赛选手成绩从初赛到复赛的阶段有了很大的提高,其中初赛的成绩前十名的水平线维0.621,而在复赛阶段该水平线提升到了0.669,有了接近8%的提升。而在最终的排行榜上,复赛阶段的最高成绩比初赛阶段的最高成绩高出了4.8%,最终进入决赛的队伍更是无一例外的超过了初赛的最好成绩。成绩分布方面,初赛的大部分成绩集中在0.59 - 0.61分,而复赛的队伍得分集中在0.63 - 0.65,可以看出有了比较明显地提高。

此次选手的得分表现,既真实地反映了赛题的难点(数据小、分布差距大),同时体现了选手团队优秀的建模能力,0.68+的AUC 分数在该赛题设定的场景下是非常出色的水准,而所有获奖团队都获得了好于这个指标的分数。

案例提交企业·和鲸科技:

和鲸科技(运营主体为“上海和今信息科技有限公司”)2015年创始于上海,是中国领先的“数据科学协同平台”供应商,以“connect people with data ”为使命,专注于挖掘商业数据和数据人才的价值。旗下拥有连接30万数据人才的第三方数据科学社区——和鲸社区(即Kesci.com,原“科赛网”),具备国际领先水平的数据科学协同平台——KesciLab(简称“K-Lab”)。

和鲸科技是爱分析评选的2019“中国数据智能创新企业50强”,AWS高级技术合作伙伴,同盾科技、Talkingdata、Udacity战略合作伙伴,并获得了国内一线AI、数据领域投资机构10fund和线性资本的PreA轮投资,晨兴资本的A轮投资。创始人范向伟入选由美国福布斯杂志发布的第三届“30 under 30” 科技榜单。