2023，不一样的数据库 - 成就云开发者社区

‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业

新年开工，祝大家开工大吉，事业都兔飞猛进！

2022年是魔幻年，2.24号，在外面爬雪山团建，谈着刚刚打响的俄乌战争。4月招聘一位上海员工，但因为疫情管控只能远程报到，杭州亚运会也被迫推迟，随后几个月大家都笼罩在阴影中，唯有世界杯带来了快乐，但原计划12.18号一起看决赛，没想到公司瞬间阳了一半，看球活动也被迫取消。好在疫情快速消停，和家人度过一个大团圆春节。

2022也是我们创业完整的第一年，团队、产品和技术都突飞猛进，特别感谢所有支持我们的朋友（客户、老朋友、投资人和业务伙伴），也结识了很多创业的前辈，向各位学习。

作为数据领域20年的从业者，曾负责过阿里云数据库产品的整体规划，经历了不一样的2022，想谈谈2023年可能会不一样的数据库。

百仓大战，一触即发

2020年Snowflake上市，市值冲高到1000亿美金，数据仓库市场重新被点燃，要知道，二十年数仓王者Teradata市值也不到50亿美金。

2010以后，数据仓库也一直被大数据概念碾压，仿佛是落后技术代表，但是经过10年发展，人们逐渐认识到大数据困境，一般的企业投入大、落地难、技术架构复杂，大数据巨头Cloudera在2021年黯然退市。而数据仓库是更成熟的理念，也是企业核心需求。

2020年开始，谁会是中国的Snowflake，这个是投资人和技术创业者最关心的事情。中国做数据技术的大牛们开始陆续投身到创业浪潮里，并且拿到不少的启动资金，前期有积累的公司产品陆续面世，虽然很多还在孵化期，但参与者谁都知道，百仓大战，一触即发。

不管是OLAP还是HTAP都在面向同样的业务场景，避免不了兵戎相见。如果是在大公司内部孵化，还可以有稳定的公司内部业务支撑，但是在外部市场就大相径庭。外部市场是充分竞争的，并且是有时机的，不容许创业公司慢慢研发，如果市场被瓜分完了，并且还有生态优势，那后发者会更难突破，需要投入更多的资金并且更考验公司的业务能力。市场竞争是残酷的，软件技术产品竞争和互联网产品类似，将来都会是赢者通吃，也许只有前三能活好。

基础软件国产化浪潮

达梦IPO

中国软件技术蓬勃发展，在互联网领域基本上实现了自主可控，这里面使用了大量的开源技术和自主研发的平台，但是在传统IT领域，尤其是大型政企市场，核心基础软件仍然由国际巨头占领。

大家都清楚，国产化浪潮是大趋势，这不只是因为政策导向，而是中国基础软件技术已经蓄势待发，只要大力发展市场经济，政策决策不犯错误，国产化是必然趋势。有如中国的电视、手机、汽车等领域，中国企业不仅是看中国，而是已经开始走出国门。

再回到数据库领域，2022年，达梦已经提交了上市申请，预计是500亿人民币的市值，大家都非常期待能成功IPO。达梦是我非常敬佩的公司，如果中国数据库只留下一款产品，那达梦数据库是强力竞争者。不管是产品的成熟度还是对核心技术的掌控以及市场的影响力，我认为达梦都是国内的领导者。

2023年，希望达梦能够成功上市，这将极大增强中国企业发展核心技术的信心。要知道，很多中国企业对基础技术是极度缺乏信心的，甚至不惜走盗版、仿冒、贴壳包装这种低劣操作。

分布式与HTAP融合

数据库号称是计算机软件的明珠，而分布式一直是数据库领域大难题，OceanBase、Spanner、TiDB、CockroachDB、PolarDB-X、Vitess都是领域的先行者。中国在这个领域已经处于全球领先的水平，但是从市场需求来看，分布式是面向海量数据的问题，是大型系统需求，导致市场拓展压力大。Oracle和MySQL这些数据库也推出过分布式数据库功能，但并没有得到市场的认可。从技术角度来看，分布式技术是复杂的，运维会更复杂，基本是要专业团队才能搞定。

市场需求和技术的复杂度，导致分布式虽然有技术的制高点，但是业务拓展非常困难，可能80%的场景都很难发挥分布式数据库价值。分布式数据库必须要能挖掘更普遍的业务场景。

一般系统的并发和数据没有那么大，核心需求是在线业务办理和报表分析，数据量普遍在1TB以内，甚至没有数据库管理员，所以大部分企业级软件（ERP、CRM）要考虑规模化推广，都支持使用了单个数据库来解决在线业务和报表查询需求，数据仓库也暂时不建。所以在企业级软件里HTAP（OLTP+OLAP）是数据库的默认需求，Oracle、DB2、SQLServer几大数据库在OLTP和OLAP方面都是领导者，这个足以证明HTAP在通用市场的重要性。

我们看见TiDB和OceanBase两大分布式数据库都在发力HTAP能力，虽然大家的技术方案完全不同，但是要解决的问题是相似的，HTAP核心是要同时具备TP和AP能力，并且AP不能影响TP的响应时间。TiDB使用了不同的引擎来解决OLTP和OLAP需求，通过内置的数据传输来解决数据同步问题。OceanBase与Oracle等传统数据库类似，使用了一套引擎来实现，没有数据同步问题，通过增强资源隔离能力来解决AP对TP的干扰。我感觉技术难度都非常大，TiDB的方案会更适合互联网公司，而OceanBase的方案更适合企业级市场。

在企业级市场核心数据库场景里HTAP是标配，HTAP实际是部分数据库在补足与主流商业数据库差距提出的问题，我印象中曾经HANA宣传过比较多。Oracle、DB2、SQLServer等数据库在TP和AP方面都非常强，这些产品在复杂SQL多维查询能力是非常优秀的，不管是执行优化、诊断分析、资源隔离都是业界领先，但是在分布式扩展性方面落后了，因为互联网企业在分布式方面有更高的性价比要求，所以才有了今天分布式数据库、大数据的新格局。

HTAP能力在中小型系统（数据量不到TB级，数据采集来源单一）里是非常有竞争力，这也是很多企业使用了Oracle、SQLServer，在数据量还没有增长起来不需要建设数据仓库的原因。不管是企业日常运维还是简单BI分析，如果能在单一数据库里完成，对于业务软件研发效率和运维都是巨大的优势，很多商场、医院、工厂都是这么解决的，有些互联网早期产品也是不用AP发展起来的。

HTAP对于大型核心系统的价值在慢慢下降，核心原因是大型系统数据量大、并发高，所以资源隔离更加复杂，数据来源也有多个渠道甚至是多个供应商。所以企业使用单独的AP系统可以有更好的性价比，这样也能保障TP业务的稳定性。第二个原因是大型企业要具备更强大的数据分析挖掘能力，需要保留大量历史数据做趋势分析和预测，如果使用原始的TP或者HTAP，一份数据是很难满足的，所以更需要单独的AP系统。

我理解今天很多TP产品在增强AP能力是合理的，不管是在单一引擎做还是通过数据复制多种引擎做都是有价值，也是成长为未来企业核心数据库必须要具备的能力，但是也要看到企业大型场景使用单独AP是更合理的数据规划。

迈向云数据库3.0

云数据库是近10年来数据库领域最大的变化，依然会是未来10年的主线，结合云计算做数据库已经是海内外基本共识。我把云数据库发展分为三个阶段，每个阶段不是说提一个架构就行，而是需要在市场上等到验证，一款产品要能获得全球10亿美金或者中国10亿人民币的收入，这里RDS、Aurora、PolarDB、DynamoDB都得到了市场验证。

第一阶段是以RDS、EMR这类托管服务为代表云数据库1.0，这个阶段核心技术是构建云管控平台，具备基础的开源数据库内核修改能力，确保内核能即时更新并且发现重大bug时可以快速修复，对客户最大价值是提升了数据库运维效率和稳定性。

第二阶段是以AWS Aurora、阿里云PolarDB引领的存储计算分离架构为代表的云数据库2.0，这个阶段需要对数据库IO架构深入理解，充分发挥云平台的优势，结合分布式存储，把数据库做成面向云的存储计算分离架构，需要对数据库的IO模型彻底改造，第二阶段相比第一阶段的RDS最重要是提升了数据库弹性扩展能力。

第三阶段是指在云上构建Serverless+HTAP的云原生数据库，称为云数据库3.0。这需要对数据库做更彻底的重构，要融入到云架构骨髓，会涉及到数据库的计算引擎重构，并且要面向云建立新的商业模式，甚至要重新定义面向数据库的开发模式，这将是更难的突破。在NoSQL和数据仓库已经走在前面，尤其是云厂商全新构建的产品，如AWS的DynomoDB，阿里云的MaxCompute和Google的BigQuery，但是在云数据库最重要的关系型模型还没有完全突破，海外也还是探索中，Serverless是难点，HTAP是刚需，我觉得今天大家都还有时间和机会去引领这个创新。

这三个阶段的产品会共存，毕竟云计算还没有完全普及，随着云计算的全面普及，云数据库3.0的竞争力将大幅增强。

新数据爆发

计算机让人类有了第二个大脑；互联网让你我远在天边，近在咫尺；移动互联网让人们的生活更加便利、美好。

我们来到了数据时代，新数据在不停的产生，数字、文字、语音、图片、视频已经充满了世界，IDC预测2025年全球数据量将达到175ZB，随着物联网和AIGC（AI Generated Content）的成熟，数据又将迎来大爆炸。

物联网虽然没有当初人们想象对家庭带来巨大变革，但是我们已经感受到智能车联网、机器人时代就要来临，这必将带来海量的新数据处理需求。

我们看到面向物联网设计的时序数据库在蓬勃发展，国内有TDEngine、DophinDB、YMatrix、GreptimeDB、IoTDB、Lindorm等等，国际上的InfluxDB、TimescaleDB、OpenTSDB、Prometheus，虽然国际的产品起步早，但是中国的产品发展迅速，物联网场景也更加丰富，很有机会引领时代。

在图片、视频充满屏幕的时代，面向新媒体数据的识别分析会有更多场景，尤其是与AI结合，Milvus、Pinecone等产品都在这个领域探索。AIGC概念会给数据库带来新的变数，今天数据库是用来采集、存储、分析数据，如果将来数据库也具备了AIGC的能力，那就可以自己产生并存储数据，我们已经领教了ChatGPT的威力，数据和AI的结合会带来无限想象。

当时序数据库在面向海量数据场景发展时，而另外一个创业热潮是图数据库。图数据库是NoSQL浪潮的重要分支，也是最需要创新的领域。文档、时序等数据库本质上是关系型数据库的特殊场景优化，而图数据库是在彻底重构数据存储与检索模型，图数据库更像人脑思考模型，而今天大量的数据组织是按计算机模型准备的，所以这是巨大的挑战，必须要在输入和输出侧都发生变化才可能成功。我们也看到Neo4j、TigerGraph、Nebula、Galaxybase、Neptune等产品在不停探索，目前主要是场景化突破，期待能在新数据爆发时代发力。

现代数据栈MDS

Modern Data Stack，简称MDS。

这是2020年圈子里开始探讨的理念，早期是dbt和Fivetran提出来的，Modern Data Stack翻译过来是现代数据栈，随着新数据爆发，结合当前数据需求和技术特征，本质是云原生的实时多源数据管理产品体系。

图片摘自https://tanay.substack.com/p/understanding-the-modern-data-stack

从技术和市场的角度看，单一数据库已经无法满足各种客户场景，所以客户需要各种数据源统一管理，面对业务竞争，客户会要求数据能更实时的传输和处理，同时要能简洁易用、安全可靠，另外云数据库是大方向，所以MDS本质是云原生的实时多源数据管理产品体系。

Snowflake，Fivetran是具备了一些MDS特征，提供了简洁易用的云服务，并且能够实时处理各种数据，在国际市场得到了广泛的应用。另外阿里云DTS，AWS的DM是云厂商推出的数据传输类产品，玖章算术NineData是新一代云原生数据管理服务，这些产品都是面向云时代设计的解决多种数据源实时数据管理问题，包括存储、开发、传输、备份等等，是MDS的落地实践。MDS的思想在持续酝酿，相信很快会在领域内绽放，非常期待。

写在最后

2023年，我们会走出疫情，国家对平台和民营经济的支持，信心逐渐回归，一切都在向好的方向发展。创业是艰难的，但是创业者一定是乐观的，虽然看见了遍地的机会，但是我们更需要脚踏实地，在产品技术和商业模式上不断突破，我相信中国基础软件很快会在中国崛起并服务全球市场。