数据智能产业创新服务媒体
——聚焦数智 · 改变商业
新年开工,祝大家开工大吉,事业都兔飞猛进!
2022年是魔幻年,2.24号,在外面爬雪山团建,谈着刚刚打响的俄乌战争。4月招聘一位上海员工,但因为疫情管控只能远程报到,杭州亚运会也被迫推迟,随后几个月大家都笼罩在阴影中,唯有世界杯带来了快乐,但原计划12.18号一起看决赛,没想到公司瞬间阳了一半,看球活动也被迫取消。好在疫情快速消停,和家人度过一个大团圆春节。
2022也是我们创业完整的第一年,团队、产品和技术都突飞猛进,特别感谢所有支持我们的朋友(客户、老朋友、投资人和业务伙伴),也结识了很多创业的前辈,向各位学习。
作为数据领域20年的从业者,曾负责过阿里云数据库产品的整体规划,经历了不一样的2022,想谈谈2023年可能会不一样的数据库。
百仓大战,一触即发
2020年Snowflake上市,市值冲高到1000亿美金,数据仓库市场重新被点燃,要知道,二十年数仓王者Teradata市值也不到50亿美金。
2010以后,数据仓库也一直被大数据概念碾压,仿佛是落后技术代表,但是经过10年发展,人们逐渐认识到大数据困境,一般的企业投入大、落地难、技术架构复杂,大数据巨头Cloudera在2021年黯然退市。而数据仓库是更成熟的理念,也是企业核心需求。
2020年开始,谁会是中国的Snowflake,这个是投资人和技术创业者最关心的事情。中国做数据技术的大牛们开始陆续投身到创业浪潮里,并且拿到不少的启动资金,前期有积累的公司产品陆续面世,虽然很多还在孵化期,但参与者谁都知道,百仓大战,一触即发。
不管是OLAP还是HTAP都在面向同样的业务场景,避免不了兵戎相见。如果是在大公司内部孵化,还可以有稳定的公司内部业务支撑,但是在外部市场就大相径庭。外部市场是充分竞争的,并且是有时机的,不容许创业公司慢慢研发,如果市场被瓜分完了,并且还有生态优势,那后发者会更难突破,需要投入更多的资金并且更考验公司的业务能力。市场竞争是残酷的,软件技术产品竞争和互联网产品类似,将来都会是赢者通吃,也许只有前三能活好。
基础软件国产化浪潮
达梦IPO
中国软件技术蓬勃发展,在互联网领域基本上实现了自主可控,这里面使用了大量的开源技术和自主研发的平台,但是在传统IT领域,尤其是大型政企市场,核心基础软件仍然由国际巨头占领。
大家都清楚,国产化浪潮是大趋势,这不只是因为政策导向,而是中国基础软件技术已经蓄势待发,只要大力发展市场经济,政策决策不犯错误,国产化是必然趋势。有如中国的电视、手机、汽车等领域,中国企业不仅是看中国,而是已经开始走出国门。
再回到数据库领域,2022年,达梦已经提交了上市申请,预计是500亿人民币的市值,大家都非常期待能成功IPO。达梦是我非常敬佩的公司,如果中国数据库只留下一款产品,那达梦数据库是强力竞争者。不管是产品的成熟度还是对核心技术的掌控以及市场的影响力,我认为达梦都是国内的领导者。
2023年,希望达梦能够成功上市,这将极大增强中国企业发展核心技术的信心。要知道,很多中国企业对基础技术是极度缺乏信心的,甚至不惜走盗版、仿冒、贴壳包装这种低劣操作。
分布式与HTAP融合
数据库号称是计算机软件的明珠,而分布式一直是数据库领域大难题,OceanBase、Spanner、TiDB、CockroachDB、PolarDB-X、Vitess都是领域的先行者。中国在这个领域已经处于全球领先的水平,但是从市场需求来看,分布式是面向海量数据的问题,是大型系统需求,导致市场拓展压力大。Oracle和MySQL这些数据库也推出过分布式数据库功能,但并没有得到市场的认可。从技术角度来看,分布式技术是复杂的,运维会更复杂,基本是要专业团队才能搞定。
市场需求和技术的复杂度,导致分布式虽然有技术的制高点,但是业务拓展非常困难,可能80%的场景都很难发挥分布式数据库价值。分布式数据库必须要能挖掘更普遍的业务场景。
一般系统的并发和数据没有那么大,核心需求是在线业务办理和报表分析,数据量普遍在1TB以内,甚至没有数据库管理员,所以大部分企业级软件(ERP、CRM)要考虑规模化推广,都支持使用了单个数据库来解决在线业务和报表查询需求,数据仓库也暂时不建。所以在企业级软件里HTAP(OLTP+OLAP)是数据库的默认需求,Oracle、DB2、SQLServer几大数据库在OLTP和OLAP方面都是领导者,这个足以证明HTAP在通用市场的重要性。
我们看见TiDB和OceanBase两大分布式数据库都在发力HTAP能力,虽然大家的技术方案完全不同,但是要解决的问题是相似的,HTAP核心是要同时具备TP和AP能力,并且AP不能影响TP的响应时间。TiDB使用了不同的引擎来解决OLTP和OLAP需求,通过内置的数据传输来解决数据同步问题。OceanBase与Oracle等传统数据库类似,使用了一套引擎来实现,没有数据同步问题,通过增强资源隔离能力来解决AP对TP的干扰。我感觉技术难度都非常大,TiDB的方案会更适合互联网公司,而OceanBase的方案更适合企业级市场。
在企业级市场核心数据库场景里HTAP是标配,HTAP实际是部分数据库在补足与主流商业数据库差距提出的问题,我印象中曾经HANA宣传过比较多。Oracle、DB2、SQLServer等数据库在TP和AP方面都非常强,这些产品在复杂SQL多维查询能力是非常优秀的,不管是执行优化、诊断分析、资源隔离都是业界领先,但是在分布式扩展性方面落后了,因为互联网企业在分布式方面有更高的性价比要求,所以才有了今天分布式数据库、大数据的新格局。
HTAP能力在中小型系统(数据量不到TB级,数据采集来源单一)里是非常有竞争力,这也是很多企业使用了Oracle、SQLServer,在数据量还没有增长起来不需要建设数据仓库的原因。不管是企业日常运维还是简单BI分析,如果能在单一数据库里完成,对于业务软件研发效率和运维都是巨大的优势,很多商场、医院、工厂都是这么解决的,有些互联网早期产品也是不用AP发展起来的。
HTAP对于大型核心系统的价值在慢慢下降,核心原因是大型系统数据量大、并发高,所以资源隔离更加复杂,数据来源也有多个渠道甚至是多个供应商。所以企业使用单独的AP系统可以有更好的性价比,这样也能保障TP业务的稳定性。第二个原因是大型企业要具备更强大的数据分析挖掘能力,需要保留大量历史数据做趋势分析和预测,如果使用原始的TP或者HTAP,一份数据是很难满足的,所以更需要单独的AP系统。
我理解今天很多TP产品在增强AP能力是合理的,不管是在单一引擎做还是通过数据复制多种引擎做都是有价值,也是成长为未来企业核心数据库必须要具备的能力,但是也要看到企业大型场景使用单独AP是更合理的数据规划。
迈向云数据库3.0
云数据库是近10年来数据库领域最大的变化,依然会是未来10年的主线,结合云计算做数据库已经是海内外基本共识。我把云数据库发展分为三个阶段,每个阶段不是说提一个架构就行,而是需要在市场上等到验证,一款产品要能获得全球10亿美金或者中国10亿人民币的收入,这里RDS、Aurora、PolarDB、DynamoDB都得到了市场验证。
第一阶段是以RDS、EMR这类托管服务为代表云数据库1.0,这个阶段核心技术是构建云管控平台,具备基础的开源数据库内核修改能力,确保内核能即时更新并且发现重大bug时可以快速修复,对客户最大价值是提升了数据库运维效率和稳定性。
第二阶段是以AWS Aurora、阿里云PolarDB引领的存储计算分离架构为代表的云数据库2.0,这个阶段需要对数据库IO架构深入理解,充分发挥云平台的优势,结合分布式存储,把数据库做成面向云的存储计算分离架构,需要对数据库的IO模型彻底改造,第二阶段相比第一阶段的RDS最重要是提升了数据库弹性扩展能力。
第三阶段是指在云上构建Serverless+HTAP的云原生数据库,称为云数据库3.0。这需要对数据库做更彻底的重构,要融入到云架构骨髓,会涉及到数据库的计算引擎重构,并且要面向云建立新的商业模式,甚至要重新定义面向数据库的开发模式,这将是更难的突破。在NoSQL和数据仓库已经走在前面,尤其是云厂商全新构建的产品,如AWS的DynomoDB,阿里云的MaxCompute和Google的BigQuery,但是在云数据库最重要的关系型模型还没有完全突破,海外也还是探索中,Serverless是难点,HTAP是刚需,我觉得今天大家都还有时间和机会去引领这个创新。
这三个阶段的产品会共存,毕竟云计算还没有完全普及,随着云计算的全面普及,云数据库3.0的竞争力将大幅增强。
新数据爆发
计算机让人类有了第二个大脑;互联网让你我远在天边,近在咫尺;移动互联网让人们的生活更加便利、美好。
我们来到了数据时代,新数据在不停的产生,数字、文字、语音、图片、视频已经充满了世界,IDC预测2025年全球数据量将达到175ZB,随着物联网和AIGC(AI Generated Content)的成熟,数据又将迎来大爆炸。
物联网虽然没有当初人们想象对家庭带来巨大变革,但是我们已经感受到智能车联网、机器人时代就要来临,这必将带来海量的新数据处理需求。
我们看到面向物联网设计的时序数据库在蓬勃发展,国内有TDEngine、DophinDB、YMatrix、GreptimeDB、IoTDB、Lindorm等等,国际上的InfluxDB、TimescaleDB、OpenTSDB、Prometheus,虽然国际的产品起步早,但是中国的产品发展迅速,物联网场景也更加丰富,很有机会引领时代。
在图片、视频充满屏幕的时代,面向新媒体数据的识别分析会有更多场景,尤其是与AI结合,Milvus、Pinecone等产品都在这个领域探索。AIGC概念会给数据库带来新的变数,今天数据库是用来采集、存储、分析数据,如果将来数据库也具备了AIGC的能力,那就可以自己产生并存储数据,我们已经领教了ChatGPT的威力,数据和AI的结合会带来无限想象。
当时序数据库在面向海量数据场景发展时,而另外一个创业热潮是图数据库。图数据库是NoSQL浪潮的重要分支,也是最需要创新的领域。文档、时序等数据库本质上是关系型数据库的特殊场景优化,而图数据库是在彻底重构数据存储与检索模型,图数据库更像人脑思考模型,而今天大量的数据组织是按计算机模型准备的,所以这是巨大的挑战,必须要在输入和输出侧都发生变化才可能成功。我们也看到Neo4j、TigerGraph、Nebula、Galaxybase、Neptune等产品在不停探索,目前主要是场景化突破,期待能在新数据爆发时代发力。
现代数据栈MDS
Modern Data Stack,简称MDS。
这是2020年圈子里开始探讨的理念,早期是dbt和Fivetran提出来的,Modern Data Stack翻译过来是现代数据栈,随着新数据爆发,结合当前数据需求和技术特征,本质是云原生的实时多源数据管理产品体系。
图片摘自https://tanay.substack.com/p/understanding-the-modern-data-stack
从技术和市场的角度看,单一数据库已经无法满足各种客户场景,所以客户需要各种数据源统一管理,面对业务竞争,客户会要求数据能更实时的传输和处理,同时要能简洁易用、安全可靠,另外云数据库是大方向,所以MDS本质是云原生的实时多源数据管理产品体系。
Snowflake,Fivetran是具备了一些MDS特征,提供了简洁易用的云服务,并且能够实时处理各种数据,在国际市场得到了广泛的应用。另外阿里云DTS,AWS的DM是云厂商推出的数据传输类产品,玖章算术NineData是新一代云原生数据管理服务,这些产品都是面向云时代设计的解决多种数据源实时数据管理问题,包括存储、开发、传输、备份等等,是MDS的落地实践。MDS的思想在持续酝酿,相信很快会在领域内绽放,非常期待。
写在最后
2023年,我们会走出疫情,国家对平台和民营经济的支持,信心逐渐回归,一切都在向好的方向发展。创业是艰难的,但是创业者一定是乐观的,虽然看见了遍地的机会,但是我们更需要脚踏实地,在产品技术和商业模式上不断突破,我相信中国基础软件很快会在中国崛起并服务全球市场。