AAAI 2018快报：京东公布基于计算机视觉的电商推荐技术

AAAI会议（Associationfor the Advancement of Artificial Intelligence）是人工智能领域的顶级学术会议，是中国计算机学会（CCF）推荐的A类会议。AAAI专注于推进人们对思想、智力背后机理的科学认识及其在机器中的实现。第32届AAAI会议将于2018年2月2日-7日在美国新奥尔良举行。

京东重大战略“无界零售”提出了零售基础设施智能化的要求，推荐系统作为现代电商零售基础设施的核心技术之一，在京东的各个购物入口都将发挥越来越重要的作用。在这一背景下，京东商业提升事业部成立了智能广告实验室，京东集团副总裁、商业提升事业部总裁颜伟鹏表示，京东智能广告实验室的研究范畴覆盖深度学习、强化学习、自然语言处理和计算机视觉，旨在深入探索计算广告和推荐技术背后的深刻机理，为“无界零售”的实现铺平道路。本文分享的是京东智能广告实验室的最新成果：Telepath推荐模型，该模型相关论文已以标题《Telepath: Understanding Users from aHuman Vision Perspective in Large-Scale Recommender System》在AAAI 2018大会发表。

独立研发Telepath模型，落地京东推荐和信息流广告应用

Telepath模型是一个基于视觉的仿生学推荐模型，它尝试模拟人类在购物决策中的大脑活动，从人类视觉的角度来理解用户，从而达到更佳的推荐效果。这一成果已经在京东推荐和信息流广告这两个最典型的场景落地，取得了显著的线上效果提升。值得一提的是，Telepath的工作完全由京东智能广告实验室独立完成，文章的7名作者都是在京东商业提升事业部工作多年的员工。

Telepath:Understanding Users from a Human Vision Perspective in Large-Scale RecommenderSystem

Yu Wang, Jixing Xu, Aohan Wu, Mantian Li, YangHe, Jinghe Hu, Weipeng P. Yan

(王玉，徐吉兴，吴傲寒，李满天，赫阳，胡景贺，颜伟鹏)

业界通用的推荐系统的核心包括检索（Retrieval）和排序（Ranking）两个模块，京东也不例外。在某个用户访问京东网站或APP时，检索模块负责为用户从数以亿计的商品中选择出数百个候选商品的集合，排序模块负责给这些候选商品打分，决定最终呈现给用户哪几个商品。本文主要关注排序阶段，但所述的技术对检索阶段来说是通用。

图1 推荐系统架构

Telapath心灵感应者-让心仪的商品找到顾客

京东拥有2.66亿的活跃用户，数以十亿计的商品库存单元（SKU），这样的业务规模世所罕见。如何把合适的商品推荐给每位用户，节约用户购物时间，增强用户购物体验，是横亘在京东技术人面前的最大难题。

原理

人类的购物决策是非常复杂的大脑活动，研究[1][2]表明，人类擅长从复杂的图像中发现其感兴趣的事物。具体来说，这些事物产生的视觉信号会激活大脑皮层的神经元，通过这些激活的神经元，大脑的特定功能区域受到影响，形成人类的潜意识和表意识。另有研究[3][4]表明，人脑的潜意识和表意识共同影响人类的决策行为。此外，近年来深度学习在很多任务如围棋[5]和图像识别上[6]上已经达到了人类乃至超过人类的表现。

这些研究给我们带来了灵感来设计这样一个排序引擎，它能像人一样提取视觉信号，并从视觉角度来理解用户。参考大脑结构，我们把这个排序引擎分为三个组件：一个是视觉感知模块（VisionExtraction），它模拟人脑的视神经系统，提取商品的关键视觉信号并产生激活；另一个是兴趣理解模块（InterestUnderstanding），它模拟大脑皮层，根据视觉感知模块的激活神经元来理解用户的潜意识（决定用户的潜在兴趣）和表意识（决定用户的当前兴趣）；此外，排序引擎还需要一个打分模块（Scoring），它模拟决策系统，计算商品和用户兴趣（包括潜在兴趣和当前兴趣）的匹配程度。

最好的推销员莫过于能猜透用户心思的那些人，我们对这个排序引擎给予同样的希望，为其命名为Telepath，即心灵感应者。

图2 Telepath的模型结构

Telepath的模型结构如图2所示，具体来说，视觉感知模块将用户浏览过的商品序列（图2中的1、2、3…N）通过深度卷积网络映射为激活信号，商品序列只提供商品图像和描述等信息，即用户在浏览推荐页面时能直接观看到的信息，卷积网络我们采用的是自己开发的Inception网络[7]的变种，网络规模更小，但速度更快。同时，视觉感知模块也把推荐候选集中的商品（图2中的C）也通过同一个卷积网络，形成候选商品的激活信号。

兴趣理解模块收集到用户浏览序列的激活信号后，分别通过DNN和RNN，生成两路向量。RNN常用于序列分析，我们用来模拟用户的直接兴趣，DNN一般用以计算更广泛的关系，我们用来模拟用户的间接兴趣。最终，直接兴趣向量和间接兴趣向量和候选商品激活拼接在一起，送往打分模块。

打分模块是个普通的DNN网络，我们用打分模块来拟合用户的点击/购买等行为。最终这些行为的影响通过loss回馈到整个Telepath模型中。

在图2右侧，我们还引入了类似Wide &Deep网络[8]的结构，以增强整个模型的表达能力。

可视化

图3 视觉感知模块对不同商品激活信号的可视化

可视化对理解深度网络的行为至关重要，我们完成模型设计和训练后，考虑了两个维度来做可视化：1)视觉感知模块对视觉信号的敏感程度；2)用户兴趣理解模块对用户兴趣的区分度。我们使用t-SNE来将这两个模块的输出二维化。视觉感知模块的可视化结果如图3所示。

由图3可见，虽然整个Telepath网络并非用商品类目信息来训练，但仍然能够非常好地区分不同的商品。这符合我们的预期，也符合常理，因为卷积网络对相似的输入必然产生相似的输出。

图4 兴趣理解模块对不同用户激活信号的可视化

图4是用户兴趣理解模块的可视化结果，我们分析的是对手机、饼干、沙滩鞋感兴趣的三类用户。可以看出，对三类用户同时做可视化，兴趣理解模块的区分度并不显著，但如果只区分两类用户的话，兴趣理解模块可以做出不错的区分。这也符合常理，人在挑选多样物品的时候，也容易“挑花眼”，但如果只是从两件物品中选一件，一般来说更容易做出较好的选择。

实验

在Telepath之前，京东的全量基准所用的模型和Wide & Deep网络很接近，因此Telepath的离线实验主要是和Wide &Deep网络对比，见图5：

图5 Wide & Deep和Telepath对比（离线）

从图中可见，Telepath的Loss和AUC比起Wide & Deep网络都有一定改善。

Date	Day1	Day2	Day3	Day4
CTR	+0.02%	+2.37%	+1.93%	+2.84%
GMV	+15.04%	+7.81%	-2.36%	+10.05%
Orders	+6.62%	+5.10%	+8.54%	+13.92%
Date	Day5	Day6	Day7	Average
CTR	+0.62%	+2.36%	+0.97%	+1.59%
GMV	+6.77%	+8.36%	+11.48%	+8.16%
Orders	+9.90%	+12.17%	+4.7%	+8.71%

表1 Telepath在某京东App推荐位的上线效果

Date	Day1	Day2	Day3	Day4
CTR	+5.15%	+8.07%	+10.5%	+6.15%
GMV	+ 126.48%	+9.1%	+18.4%	-19.24%
ROI	+129.53%	+14.35%	+14.2%	-17.44%
Date	Day5	Day6	Day7	Average
CTR	+4.63%	+2.11%	+9.48%	+6.58%
GMV	+8.53%	+143.09%	+ 145.74%	+61.72%
ROI	+9.17%	+161.36%	+147.79%	+65.57%

表2 Telepath在某京东合作媒体广告的上线效果

作为一项以应用为目标的基础研究成果，Telepath在京东的诸多场景都有落地，在推荐、广告等实际业务中都发挥了作用。表1和表2分别展示了Telepath在一个京东App推荐位和一个京东广告合作媒体上线的效果，可以看出，在这两种场景下，点击率（CTR）和GMV都有显著的效果提升。

结语

为了更好地服务京东的数亿级用户，Telepath还在不断进化，后续的成果也将在适当时机陆续公布。Telepath团队的几位成员习惯坐地铁下班，Telepath的思路就来自一次地铁上的讨论。这样的团队在京东还有很多。“无界零售”不仅在影响京东的每个用户，也在影响京东的每个技术人，“无界零售”对技术提出的更高要求，会迫使我们在基础研究上不断追赶学术界，在应用上不断将最新的AI技术落地到京东的各项产品中，为用户提供更好的服务。京东对核心技术的公布，也表达出了开放的姿态，“无界零售”必将对业界造成深远而深刻的影响。

注：Telepath论文的抢鲜版本可点击“阅读原文”下载

学术交流联系：wangyu5@jd.com

参考文献

[1] Brewer, J. B.; Zhao, Z.; Desmond, J. E.; Glover, G. H.;and Ga- brieli, J. D. 1998. Making memories: brain activity that predicts howwell visual experience will be remembered. Science 281(5380): 1185-1187.

[2] Çukur, T.; Nishimoto, S.; Huth, A. G.; and Gallant, J. L.2013. Attention during natural vision warps semantic representation across thehuman brain. Nature neuroscience 16(6): 763-770.

[3] Galli, M.; and Gorn, G. 2011. Unconscious transfer ofmeaning to brands. Journal of Consumer Psychology 21(3): 215-225.

[4] Watanabe, N. and Haruno, M. 2015. Effects ofsubconscious and conscious emotions on human cue–reward association learning. Scientific reports, 5.

[5] Silver, D.; Huang, A.; Maddison, C. J.; Guez, A.; Sifre, L.; Van DenDriessche, G.; Schrittwieser,J.; Antonoglou, I.; Pan- neershelvam, V.; Lanctot, M.; and others. 2016.Mastering the game of go with deep neural networks and tree search. Nature 529(7587): 484-489.

[6] Taigman, Y., Yang, M., Ranzato, M.A. and Wolf, L. 2014.Deep- face: Closing the gap to human-level performance in face verifi- cation.In Proceedingsof the IEEE conference on computer vision and pattern recognition, 1701-1708.

[7] Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.;Anguelov, D.; Erhan, D.; Vanhoucke V; and Rabinovich, A. 2015. Going deeperwith convolutions. In Proceedings of the IEEE conference on computer vision andpattern recognition, 1-9.

[8] Cheng, H. T.; Koc, L.; Harmsen, J.; Shaked, T.;Chandra, T.; Aradhye, H.; and others. 2016. Wide & deep learning for recom-mender systems. In Proceedings of the 1st Workshop on Deep Learning for Recommender Systems, 7-10.