算力不竭如江海,天翼云“息壤”如何助力千行百业算力智能调度?

数字时代下,算力已成为新型生产力,并朝着多元泛在、安全可靠、绿色低碳的方向演进。以算力为核心的数字信息基础设施,是国家战略性布局的关键组成部分,也成为数字经济时代的“大国重器”。

作为云服务国家队,天翼云在科技创新道路上,不断加强关键核心技术自主研发,在算力技术方面不断取得突破,将最新研发成果惠及千行百业,“息壤”就是其中代表。

在第六届数字中国建设峰会上,天翼云算力分发网络平台“息壤”荣获“十大硬核科技”奖项。同时,在第三届国有企业数字化转型论坛上,“息壤”还入选国务院国资委发布的“十项国有企业数字技术成果”。

算力网络建设并非一朝一夕之功,其中涉及多个技术领域,在现有技术和商业模式上都面临全新挑战。

针对这些问题,在第六届数字中国建设峰会天翼云举办的《大咖面对面》栏目中,中国信通院云大所云计算部副主任苏越、天翼云智能边缘事业部副总经理鄢智勇接受科技云报到的采访,分享了各自观点。

“东数西算”开启

中国算力时代

算力作为数字经济时代新的生产力,已深度融入经济社会的方方面面,各类算力应用的新模式、新业态正加速涌现。2021年5月,“东数西算”国家战略正式启动,成为我国的“算力经济”时代开启的标志。

“东数西算”的本质是改变了数据在本地的存储、备份、加工、处理、分析等行为,这也对算力平台在连接、调度、运行等方面提出了新的挑战。

首先,需要清楚如何管理和统筹算力设施原有节点与新增节点衔接联动的关系。除了“东数西算”目前要建设的节点集群外,原来各个地方已经有大量的数据中心、超算中心和智算中心,如何统筹接入?以及新节点建设后,如何管理和统筹新旧节点之间联动关系?

其次,未来“东数西算”必然要面临很多类型的数据处理需求,以及多样化的业务需求,所以如何保证东数和西算形成有效的供需匹配成为一个重要难题。

第三,“东数西算”的算力网络统筹调度和运行机制问题。“东数西算”的传输网络首先要满足低时延、高可靠、大带宽等要求,还得面临算力跨区域、跨层级连接的挑战。

虽然我国算力规模增长飞快,但算力供给与调度的统筹能力较为薄弱。如何灵活地优化算力网络的云网边需求,最终实现全国范围内的全网实时调度,是“东数西算”进程中最为关键的问题之一。

对于如何更好构建高效的算力网络,苏越认为,既要建设全国“一盘棋”的大算力网络,还要聚集到涵盖核心技术的小算力网络。

大算力网络涉及跨城市、跨地域、跨集群的算力资源互联互通,比如全国一体化大数据中心、“东数西算”工程等,是算力网络顶层设计中的“基石”部分。

小算力网络包括算力并网、编排、注册、调度、交易等在内的全链条,其中涉及到从基础层到应用层的创新技术,比如底层的CPU、GPU、DPU技术,上层的交易、度量、计量计费等技术,都是整个算力网络传输过程中需要的核心技术。

“算”为核“网”为根

助力中国算力跑出“加速度”

“东数西算”背景下,广泛连接的算力网络将成为数字经济的新型基础设施。经过一年的快速发展,“以网强算,以算促网”的产业共识深入人心,如今提及的“算力网络”不再是狭义上的计算能力,而是集“算力、存力、运力”于一体的新型生产力。

鄢智勇认为,未来算力网络会像今天的电力网一样,用户可以随时随地访问任意的算力资源。鄢智勇形象地将算力网络与电力网络进行了对比,在电力网络中,电力调度是重要模块之一,它能够将来自火电、水电、风电、核电等不同来源、不同电压的电力,调度成为人们日常使用的通用电力。

而算力网络同样可以将边缘、超算、智算等不同算力进行统一调度,最终能够让人们自由地使用这些算力。

这对于已经在云网融合领域耕耘七年的中国电信而言,无疑是一次绝佳的机会。

从技术架构上看,“东数西算”天然是云网融合的,算力的智慧化调度在某种程度上,比算力资源的建设更加重要,而对于天翼云来说,这种能力是一种天然的基因。

在算力发展的十年中,天翼云从1.0演进到4.0,探索出一条核心技术自主创新之路。

2012年,中国电信宣布成立云计算分公司,正式进军云计算领域,成为国内首家涉足云计算服务的运营商。

2017年,中国电信首次明确“2+31+X”云网融合战略布局,天翼云成为唯一一家在全国31省实现一省一池部署的云服务商,真正将云服务变成像水电一样的基础资源。

2020年,中国电信发布“云改数转”战略,通过内蒙古、贵州两个服务全球的航母级数据中心,京津冀、长三角、粤港澳、陕川渝四个重点区域节点,31个省份均有布局的数据中心,再加上广泛分布的X个边缘节点,形成了2+4+31+X的全国算力布局 。

2021年,天翼云发布4.0分布式云,实现了一云多态、一云多芯、一张云网、一致架构、统一调度、统一运维,完成了产品与技术的双升级,算力、存储、网络均提升。

同时,天翼云在“2+4+31+X”资源布局基础上全面推进“千城万池”战略,加快算力全国部署。

在云网融合已成为数字信息基础设施核心特征的当下,天翼云打造了越来越强大的云网融合基础设施能力底座。

“息壤”加速算力筑基

释放数字生产力

当然,算力服务提供的不仅仅是单台设备的计算能力,还包括集群的整体有效协同能力。因此,网络化算力需要与之匹配的中枢调度决策系统,为新型信息基础设施对外一体化服务提供能力支撑。

凭借强大的云网能力,天翼云编织起一张数字时代的“算力网”,700多个数据中心、48.7万架互联网数据中心机架,通过将“计算+连接”的深度融合,打造出一条算力调度的“高速路网”。

按照超广覆盖、超高可靠、超低时延、超大速率、云网一体的标准要求,天翼云早在2022年5月17日就推出了自研的算力分发网络平台——“息壤”,以“随愿算网”的方式,对边缘云、中心云、第三方资源等全网算力进行统一管理和调度。

在上古神话中,息壤是可以自己生长、永不减耗的土壤。《海内经》有曰:“息壤者,言土自长息无限,故可以塞洪水也。”

天翼云将算力分发网络平台取名“息壤”,寓意无论业务对算力有多少需求,息壤都可以规划出满足需求的算力资源,并且通过智能调度,实现业务性能和成本的最优。

从定位上看,“息壤”好比是一个算力调度的枢纽,能够在全国范围内实现每分钟数万次、每天上千万次的算力统筹和调度。

鄢智勇表示,要实现算力调度首先要有算力,目前中国电信整体算力规模已达到3.8Eflops(每秒380亿亿次浮点运算)。其次,算力调度需要有高速传输网络,中国电信已经构建起连接东西部的高速光纤网络,现在还在试点400G、800G等高速传输,这些都是“东数西算”的物理基础。

据鄢智勇介绍,天翼云于去年推出“息壤”算力分发网络平台后,在2022年度央企“十大超级工程”评选中,“息壤”与“中国空间站全面建造完成”“西气东输四线工程全面开工”等重点项目并列其中,其极大降低开发运营运维成本,给用户带来更好的体验。

具体而言,“息壤”实现对全网资源的统一管理和使用,包括中心云、边缘云、第三方云、自建IDC、客户现场节点等,通过资源管理平台实现算力感知、算力注册、算力映射、算力建模等能力。

通过算力调度引擎灵活的自定义调度策略能力,满足不同业务需求,如云渲染、跨云调度、性能压测、混合云AI计算等多种应用场景,通过算力调度可视化能力,实现资源量、使用率、数据流调度过程可视化。

同时,“息壤”能够提供多样化、差异化的算力产品形态,满足从中心到边缘的多样化算力场景,产品形态包括算力调度引擎CPSE、边缘容器集群ECK、Serverless边缘容器ESK、批量计算BE、算力网络交易平台等,以及结合自研的算力调度引擎,实现对算力资源的统一管理、统一编排、智能调度和全局算力资源优化。

在国家大力推动“东数西算”的背景下,“息壤”能够把东部需要进行的机器学习、数据推理、智能计算等AI训练和大数据推理的工作放到西部,自动配置和调度相应算力;把东部对时延不敏感的、不活跃的、需存档的海量数据,放在西部存储等等。

通过“息壤”,“东数西训”“东数西备”“东数西渲”等构想正在成为现实。

对于“息壤”的实际表现,苏越表示,“息壤”经过中国信通院70多个测试项的严格评审,以满分顺利通过“面向资源的算力调度技术能力要求”评估,天翼云也成为业内首批通过该项评估的云服务商。

对于未来算力网络将是怎样的形态,苏越从行业角度希望激活泛在的所有资源,通过重塑产业发展模式,变革IT服务的交付方式方法。鄢智勇则站在用户层面,更希望使用算力就像使用电力一样方便,即插即用,要从可用、能用,走向易用、好用、实用。

结语

从“云网融合”向“算力网络”迈进,对电信运营商来说,不亚于一次新的长征。以天翼云为代表的云服务商,在关键技术、产业链完整性、能力模块、商业模式、产业生态等方面,实现整体突破和升级,为我国数字经济高质量发展提供更坚实的“算力底座”,全面激发数字中国的创新活力与增长韧性。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接