知识图谱正在从专业走向大众可理解
在挑战中寻找新机遇,是腾讯的惯性。
10 月 23 日是世界雪豹日,这一天,腾讯将雪豹带到了公众视野,呼吁大众保护珍稀动物。这是一个名为”神秘雪豹在哪里“的小程序,也是腾讯科技公益互助计划在生态环保领域的创新尝试,它的诞生耗时 2 个月,涉及产品研发 30 余人。
打开小程序,你会发现,里面并非冗长的科普图文,而是用了大量视频、图片等多媒体方式,展示了雪豹以及其生存环境,你甚至可以体验四川卧龙国家级自然保护区的雪豹“巡护员”工作。
通过这个小程序,除了能直观感受到雪豹的生动可爱,还能了解其背后的生态价值,激发人们的保护欲望。
为了进一步解开全民窥豹背后的技术能力,InfoQ 采访了该项目的相关产品技术负责人,即腾讯云小微行业产品总经理刘凌、腾讯云小微知识图谱产品总监曹浩、腾讯智能平台产品部高级研究员闫昭。
1 全民窥豹背后的知识图谱技术
一方面,我们要构建一个非常专业和全面的雪豹知识图谱体系。另外一方面,我们希望以直观和趣味方式能够将雪豹知识呈现给用户。
与传统科普应用不同,雪豹保护小程序项目背后有着极其复杂的技术工程。除了要将专业的知识体系通过小程序实现直观趣味的呈现外,在底层数据上要做到三点:专业、全面、新。专业和全面不难理解,但要做到「新」就需要数据直接来自于第一手拍摄资料。
一方面,团队需要通过与 WWF 动物保护专家及雪豹自然保护区专家进行访谈和调研,获取最新的专业数据,包含雪豹及其他动植物的照片;另一方面,腾讯云小微 AI 团队过去所积累构建的动植物知识百科数据库及结构化知识图谱,需要将新旧知识关联起来。
这个过程中,不同来源的数据质量往往不同,如何关联在一起?这就涉及知识图谱构建中一个重要环节——知识融合。知识融合过程可以分两层:
第一层,一般交由自动化技术执行操作。首先,是实体链接的技术,可以将不同来源的同一实体关联起来。例如,我们在表达雪豹或羚羊这些实体的时候,表述方式或语音方案会有些许不同,就需要通过实体链接的技术关联起来;其次,是属性融合,在抽取出关联好的知识后,将其之间的属性和关系梳理、区分出来,因为同样的表述方式也可能代表不同的实体;最后,是方法统一的数据清理技术。
第二层,则会在自动化技术的处理基础之上,由平台上的行业专家与操作人员,进行再度编辑处理与知识融合的操作。最后,将不同来源的数据,融合得到更为专业且全面的结果。基于此,便可构建统一的平台,用于数据的检索、分析和利用。
图:雪豹项目知识图谱
知识图谱本质上来说就是一个大规模语义的网络,在这个网络上有节点有边,能用图谱的形式把知识关联起来,进而具备从“关系”角度分析问题的能力。用户能够感觉到搜索以及搜索的结果变得更加精确、个性化,同时,个性化推荐的需求也能得到满足。这是知识从量变到质变的一个过程。
在应用场景方面,除了雪豹的科普宣传,生态科普、人文科普等都面临工作的升级,尤其是景区、文旅、博物馆等文博单位。
国内外有很多文物知识图谱研究应用。大英博物馆的知识图谱构建项目共发布了超过一亿条信息;俄罗斯的知识图谱项目内容来自俄罗斯各地的博物馆、图书馆和档案馆,提供了丰富的知识呈现方式,包括时间轴、地图、关系图等,并支持多终端使用;欧盟知识图谱建设项目整合了欧洲 27 个国家 200 多家博物馆、图书馆和档案馆数据资源,发布了三千万条数据记录,几百万个外部链接……
知识图谱可实现世界范围内的文物知识聚集、关联分析和挖掘、知识可视化呈现,并实现精确检索和全面摘要。基于知识图谱体系,博物馆可以建立文物知识图谱应用平台,生态、植树保护等部门也可以搭建自己的知识传播体系。这已经成为文物数字资源建设一个新的发展方向。
2 腾讯云小微知识图谱服务平台的行业探索
腾讯云小微团队,专注于 AI 技术的研究和应用,为行业提供专业的 AI 助手解决方案,包括车载语音助手、智能客服机器人、智能家居硬件产品等等。接入腾讯云小微 AI 助手的硬件可以快速具备听觉感知能力。从智能语音交互方面来说,听得清、听得懂、善交流,是最重要的目标。在知识图谱的应用上,如何解决“听得懂”的问题至关重要。
在腾讯云小微平台上,构建知识图谱的方式有两种,一种是由领域专家团队基于腾讯云小微平台来构建图谱。另一种是在领域专家缺少的情况下,腾讯云小微帮助行业伙伴整合数据、构建数据平台。
图:知识图谱平台架构
腾讯云小微知识图谱平台的核心能力,可以从三个方面来描述:
- 用户友好的工具:利用腾讯云小微平台积累的数据结构,使企业数据能够快速关联和构建图谱;
- 知识抽取的技术:把非结构化的数据提炼出结构化的能力,且关联到图谱;
- 腾讯的技术底座:整合腾讯云的基础技术能力,包括存储和计算等。
此外,腾讯云小微平台也积累了一定的方法与模型,当不同行业用户的数据量不够,也能让知识抽取等技术顺利进行。
在具体应用场景上,腾讯云小微主要针对两类领域。一是应用于交通、政务、能源领域,满足行业需求;二是应用于文化及旅游领域,解决大众需求,这也是腾讯云小微的未来发展方向。
文化旅游又包含文化历史与生态保护两个类别。文化历史主要是与省市对口单位展开合作,梳理当地的历史人物及事件,建立其历史知识图谱,助力其历史文化的数据化存储与传播;生态保护主要是珍稀动物保护、湿地保护等。本次雪豹项目,就是借助腾讯公益的力量,与 WWF 动保团队展开雪豹的公益保护。
在文化历史方面,知识图谱技术整合了景区、旅游地等相关信息,让游客能够随时直观生动地获取相关信息。游云南 APP 借助腾讯云小微的 AI 技术能力,提供文旅知识图谱构建服务,帮助景区实现智能客服问答、文物知识问答等服务,提升景区数字化旅游体验。
在生态保护方面,腾讯云小微与中科院昆明植物所等行业专家一起梳理的植物层级的关系,包括生物的界门纲目科属种的情况。此外,腾讯云小微有能力提炼行业用户所有的难以整合通用的专业数据,与腾讯云小微平台的数据结合在一起,更有效率地去构建专属的行业知识图谱。
目前,腾讯云小微已经通过与行业专家合作、公司内数据资源整合、线上资源积累等多种方式,建设了数十个通用领域知识图谱,包含亿级实体及十亿级关系。
近年来,知识图谱为 AI 的场景落地贡献了前沿力量,腾讯云小微平台正在发挥“底座”作用,持续深耕 AI 技术,积极探索前沿技术及应用研究。
腾讯云小微已经获得多项专利,如基于半结构化知识的多属性抽取方法、一种基于多任务学习的实体关系抽取技术、等多种 AI 领域的技术专利。在 2019 年的中国“法研杯 CAIL2019”和司法人工智能挑战赛上,腾讯云小微知识图谱服务平台的阅读理解获得全国第一名。
我们也看到,腾讯云小微正在结合对行业的理解,自研或与生态伙伴合作打造适合行业场景的应用,不断沉淀数字化经验,助力各行业的数字化转型升级。