(文末福利)云上论剑,谈谈如何构建新的数据系统技术体系

✏️ 编者按:

11 月 13 日至 14 日,中国计算机协会(CCF)主办的全国开放式分布与并行计算学术年会(DPCS 2021)圆满落下帷幕。DPCS 2021 旨在为分布式计算与系统相关领域研究者、开发者和用户提供一个学术交流和展示成果的平台。会议内容涵盖开放环境下的分布式处理和并行计算模型、数据中心网络与大数据、分布式边缘智能、边缘计算、算力网络、区块链、新型分布式系统与应用等。

大会上,Zilliz 合伙人、研发总监郭人通博士受邀发表了题为《非结构化数据 + AI + 云原生:构建新的数据系统技术体系》的报告,与工程院院士郑纬民、十余名杰青、长江、优青等知名学者,以及来自华为、阿里、微软、快手等国内外知名企业的专家云上论剑。学术界与工业界交流碰撞,共话分布式计算与系统的发展现状与趋势,探索产学研合作契机。让我们一起来看看郭人通博士的分享吧!

随着 5G、物联网等技术的高速发展,各行业都在着手构建丰富的数据采集通路,我们正在把现实世界更加立体地投射到数字空间。此刻,我们正在同时经历着「非结构化数据」「人工智能」「云原生」三场变革,未来的数据基础软件将会面临怎样的变革?目前,神经网络应用正在加速落地,Embedding 作为一种用神经网络表示语义的核心数据形式,呈现出爆炸性的增长,然而在基础软件层面,缺乏对向量数据的管理及分析能力。针对这个问题,Zilliz 团队先后发起两个开源项目:开源向量数据库 Milvus 和其孪生项目 Towhee。

开源向量数据库 Milvus 目前是 LF AI & Data 基金会的毕业项目,能够管理大量非结构化数据集,在新药发现、推荐系统、聊天机器人等方面具有广泛的应用。

数据库 Milvus 应用举例

Towhee 则是一个开源的非结构化数据语义提取平台。在研发 Milvus 数据库的过程中,工程师们发现大量用户在「非结构化数据的语义理解」「向量化编码」两方面遇到了许多困难。Towhee 项目的发起,正是希望围绕开源社区构建一套标准化的 Embedding pipeline,并提供丰富的 Embedding 算子,从而大幅度降低用户们做 Embedding 任务的门槛。

郭人通博士还总结了研发过程中令他感触最深的三大难点:多分析引擎协作框架、混合向量索引、多层索引存储结构

尽管面临重重挑战,他相信未来的数据基础软件将会以非结构化数据作为数据基础,以人工智能作为计算手段,以云原生作为环境底座,Zilliz 团队也将会在这一领域不断精进探索。

想要详细了解开源项目 Milvus

和 Towhee 的架构设计?

关注公众号并回复「学术年会」

领取本次报告 PPT!


Zilliz 以重新定义数据科学为愿景,致力于打造一家全球领先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的隐藏价值。

Zilliz 构建了 Milvus 向量数据库,以加快下一代数据平台的发展。Milvus 数据库是 LF AI & Data 基金会的毕业项目,能够管理大量非结构化数据集,在新药发现、推荐系统、聊天机器人等方面具有广泛的应用。