作者 | Felix Xu
责编 | Carol
出品 | 区块链大本营(blockchain_camp)
数据是现代商业与个人的核心价值与重要资产。数据正在重新塑造人类生活的方方面面,IDC Research统计2019年大数据和分析市场的销售收入约为1870亿美元。跨机构、跨行业的数据融合、联合分析和建模的需求日趋增加。
但由于数据本身可复制,易传播,一经分享无法追踪,数据资产的确权困难,商业化被严重制约。在传统大数据分析中,数据的集中化收集容易导致隐私信息泄露等风险。私有化部署则需要开发人员现场部署模型于数据源的服务器上,耗时耗力,且算法也存在泄露隐患。
此外,数据隐私监管日益加强,中央出台了《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据纳入生产要素。2019年下半年,监管部门则密集出台了《数据安全管理办法》、《App违法违规收集使用个人信息行为认定方法》、《个人金融信息(数据)保护试行办法》等多项征求意见稿及草案。
针对数据共享面临的问题,笔者认为隐私计算技术可为业界提供新思路,赋能数据确权并实现数据”可用但不可见”。设想参与数据分析的各方,互相看不到数据,但是可以共同做分析甚至训练模型,将最终结果发送给数据付费方,即可杜绝数据泄漏的风险。目前安全多方计算、联邦学习等隐私计算技术逐步走向成熟,在涉及用户隐私数据的金融、医疗、政务等领域中,让机构间的数据合作成为可能。
而隐私计算与区块链技术的结合,既能保证输入数据可信,亦可隐藏运算过程,可谓鱼和熊掌兼得。本文中笔者将简单介绍安全多方计算的原理,并抛砖引玉介绍潜在应用。
安全多方计算(Secure Multi-Party Computation, MPC)技术,亦称安全计算(Secure Computation)和隐私保护计算(Privacy-Preserving Computation)。安全多方计算是当今密码学的一个重要分支,是继成熟解决数据加密存储、传输之后的重要尝试,在密文数据上直接构建运算。
具体而言,安全多方计算由 n 个互相不信任的参与方进行,联合对一个协商确定的函数进行计算,能够保证参与方的隐私输入数据 x1,x2,···,xn 无法被其他参与方获得。姚期智院士(Andrew C.Yao)于1982 年发表的文章“ Protocols for Secure Computation”首次提出姚氏百万富翁问题和安全多方计算的概念。这个有趣的问题是,两个百万富翁希望知道谁更富有,但是不希望对方或第三方知道自己的财富值。
之后 Goldreich,Micali 和 Widgerson 等密码学家将这个问题一般化成为现在的安全多方计算问题。此后该领域内学术研究和商业应用蓬勃发展,如今安全多方计算协议是多种密码协议的组合,如同态加密、零知识证明、秘密分享等。
近10年来,密码学界对安全多方计算的探索有了长足的发展,笔者在实践中发现一些特定协议的计算效率已经达到商用程度。与区块链类似,安全多方计算同样存在“不可能三角”,需要在安全性,通用性,计算效率这三点之间权衡。工业界,如ARPA,根据不同场景优化协议使之满足商业需求。
当今使用的安全多方计算技术按底层技术分为两个分支,基于混淆电路(Garbled Circuit)的与基于秘密分享(Secret Sharing)。混淆电路与不经意传输(Oblivious Transfer)为姚期智院士提出的安全计算技术路径。
简单来讲,基于混淆电路的协议更适用于两方逻辑运算,通讯轮数固定,但是拓展性稍差。另一类基于秘密分享的安全多方计算中,数据输入和计算中间值都会以“密文分片”的方式存在。秘密分享技术可以把隐私数据切割为2份或更多份后,将随机分片分发给计算参与方,这个过程保护了数据隐私又允许多方联合对数据进行计算。之后,就可以利用分片间存在的同态计算性质来实现在分片上计算并重建得到隐私数据计算结果。
基于秘密分享的安全多方计算目前主要由欧洲密码学界主导,如Smart, Damgard等密码学家,其拓展性较强,理论上支持无限多方参与计算,计算效率高,但通讯负载较大。
隐私计算正在逐步被应用于金融和保险风控、OTC交易、资产管理、互联网营销等领域。同时作为一项前沿技术,隐私计算的从业者在积极推动技术的标准化工作。
2019年6月,工信部直属单位中国信息通信研究院正式发布《基于安全多方计算的数据流通产品技术要求与测试方法》行业标准,ARPA、阿里巴巴、蚂蚁金服、百度等企业参与制定。国际上,IEEE安全多方计算国际标准的制定和MPC Alliance企业联盟的建立也预示着隐私计算从学术界向工业界的拓展。笔者接下来分享几个值得探索的隐私计算应用场景。
金融、保险黑名单安全查询
黑名单主要用于记录个人或企业客户的不良行为。每个机构都会维护多种业务的黑名单,从小型商业公司到跨国机构,从金融交易到信用记录。机构之间的黑名单共享和查询有助于帮助机构规避风险,如多头借贷、多头骗保等,然而对于黑名单的明文共享既危害用户隐私也泄露商业机密。利用隐私计算进行的黑名单查询可以在保护隐私的情况下降低机构风险。这类计算需要对比两组列表并找出其中重合的部分,这个过程应能保证参与方无法获得除结果外的信息,并可以规避被查询方获得查询条件。
营销转化率计算
转化率计算这类数据共享问题即“隐私交集问题”。两家公司分别持有自己业务范围内活跃用户数据集,一方拥有与第一个活动相关的用户列表,例如在互联网上查看广告的用户,另一方拥有在第二个活动中进行过交易的用户列表,例如购买过广告商品的用户,以及与每个用户关联的数值(比如该用户的支出)。
其中一方希望了解他们共有的用户数量以及相关数值的总和,而并不希望分享更多的数据。例如,广告主希望知道“三十岁一下的男性消费总和是多少”,可以通过隐私计算在不共享数据和查询条件的情况下获得交集,计算转化率等指标。
多维度风控模型
目前信贷风控需要通过多个数据源采集数据,进行决策树、逻辑回归、随机森林等运算。从2019年下半年开始,国家对非法采集贩卖个人隐私数据的大数据公司进行了整顿,原始数据愈加难以获得。
隐私计算可以合规的链接同业和异业公司,组成数据联盟,在各方输入数据不泄露前提下进行分布式模型推断或者训练,有效降低多头信贷、欺诈等风险。同时风控模型的参数在计算中亦不会暴露,保护了模型提供方的知识产权。
结语:信息时代的大厦建立在数据的地基上,隐私计算即为这座大厦的电梯。笔者认为隐私计算目前在我国的仍处于萌芽阶段,可以预见的是随着国家对隐私数据监管的加强,企业于个人对自身数据价值重视程度的提高,隐私计算将在2020-2030年实现爆炸式增长,甚至有望从零发展到数据共享的技术基础设施。
目前隐私计算行业既有蚂蚁金服、百度、微众银行等大企业,也有ARPA、华控清交等具有技术实力的创业企业,以及中国信息通信研究院、央行等国家研究机构。未来发展如何,让我们拭目以待!
作者介绍:
Felix Xu, ARPA联合创始人 & CEO,纽约大学信息技术和金融专业,曾于复星集团负责金融科技和区块链领域的研究与早期投资。此前曾任职于纽约Sackler Family Office, Vertical Research Partners等机构。Felix于2018年创立ARPA,致力于新型隐私计算技术的开发,参与了与中国信通院牵头制定的安全多方计算行业标准。
ARPA是一家专注于隐私计算的研发型企业,公司的核心产品为基于密码算法的大数据隐私计算平台,赋能企业间高价值数据的安全查询、联合分析与模型训练,可使用于金融联合风控、黑名单查询、跨部门数据协同等众多场景。ARPA团队成员来自清华大学、卡内基梅隆大学、纽约大学、浙江大学等顶尖学府,曾就职于谷歌、 亚马逊、华为、复星、国家密码重点实验室等领先机构。
推荐阅读
- 5分钟!就能学会以太坊JSON API基础知识!
- 一文带你认识keepalived,再带你通关LVS + Keepalived!
- 那个分分钟处理10亿美元图表计算的Plato,现在怎么样了?
- “谷歌杀手”发明者,科学天才Wolfram
- 数据库激荡40年,深入解析PostgreSQL,NewSQL重新历程
- 超详细!一文告诉你SparkStreaming如何整合Kafka!附代码可实践
老铁们求在看! 👇