GDCC
分
布
式
云
云智相生
GDCC 2023
4月20日,2023全球分布式云大会·北京站正式召开。作为本次AIGC数智中国科技周的重要组成部分之一,大会以“云智相生”为主题,着眼于分布式云和人工智能,以分布式云促进人工智能发展,以人工智能降低分布式云上云和用云门槛,为构建数智中国夯实基础设施和技术底座。
本次大会,全球分布式云联盟携手腾讯云等海内外云计算领军企业和运营商,共同开启分布式云智能化新纪元。
腾讯云 王登宇
在上午举办的分布式领袖论坛上,腾讯云存储专家架构师 王登宇发表了题为《AIGC数据处理与存储解决方案》的精彩演讲。
AIGC触发了内容生成革命,引爆众多行业颠覆式创新,王登宇表示,AIGC的核心要素包括内容生成,内容审核,内容智理三个维度。
围绕上述三个维度,腾讯云提供了端到端解决方案,基于腾讯云高性能计算集群HCC、TACO训练加速、TCCL网络加速、GooseFS数据加速,构建AIGC大模型训练和推理应用平台。
大模型训练,依靠的是算力和海量的数据。海量数据通过COS对象存储数据湖作为统一存储,腾讯云有着丰富的经验。近年来,腾讯云服务了大量人工智能相关领域客户,特别是算力和存储需求极大的自动驾驶领域,训练数据量级可达数百PB规模,在兼顾存储成本的同时,腾讯云自研的GooseFS数据加速,为AI训练提供高性能缓存服务。
模型训练算力方面,腾讯云的高性能计算集群HCC通过自研服务器提供最新代次A800、H800实例,通过TACO训练加速套件,发挥软件、硬件结合优势,总体训练性能提升30%以上。模型训练期间,对集群网络通讯效率要求非常高,基于腾讯云自研星脉网络架构,提供最高3.2Tbps RDMA网络,结合自研拥塞控制算法及TCCL集合通信库加速分布式训练通信效率。
当前大模型主要在NLP领域取得了突破性进展,并逐步拓展到了结合图片、视频的多模态领域。腾讯云针对于不同大模型的存储需求,做了针对性的领域细分解决方案。
以NLP场景为例,ChatGPT 3.5的训练数据在45TB左右,随着更新迭代未来将达到百TB级别,针对这个量级的训练数据,可以基于GPU节点的内存,构建一个MEM-Based Global Cache,每个GPU节点只需要提供部分内存,整个GPU训练集群就可以构建一个统一命名空间,数十TB的缓存空间,训练数据集通过内存缓存后,既可大幅提升数据访问效率。
基于图片的大模型训练场景,通常训练数据在PB量级,GooseFS使用GPU节点配备的NVME SSD作为缓存介质,结合上百台规模,可以构建成PB量级的统一命名缓存空间,满足图片训练数据集的缓存需求。
而对于自动驾驶场景,训练数据量级规模更大,GooseFS可以利用独立的存储集群构建全闪缓存系统,满足自动驾驶海量数据的训练需求。
从整体方案来看,GooseFS结合COS数据湖,可以提供多层数据加速能力。最底层是COS数据湖,所有数据都持久化存储在数据湖内。通常训练过程中数据集是处于不停更新滚动状态,在缓存和数据湖之间,GooseFS提供数据自由流动的能力,缓存系统可以与数据湖做到完全打通。由于缓存空间有限,部分数据在缓存里如果一段时间没有访问,会按照淘汰机制被自动淘汰,达到缓存空间被高效利用的目的。
GooseFS 集群具备弹性伸缩能力,根据业务对性能的需求,可以实时在线扩缩容。针对于AIGC大模型训练场景,在早期做模型的预研阶段,前期算力和数据相对较少,可以构建小规模的缓存系统,当开始大规模训练任务时,通过按需的弹性伸缩能力,在业务无感的情况下扩大GooseFS集群,缓存更多的数据,以匹配训练任务。训练任务结束后,可以选择将GooseFS集群销毁,精准控制缓存数据生命周期,降低成本。
GooseFS也支持私有化部署,来构建混合云缓存方案。基于数据湖搭建混合云大模型训练平台,做到一份Dataset,多地训练。通过这个方案,在数据湖上保存一份数据,可以通过缓存的机制把数据带到任何计算相关的地点去。
下图是大模型训练集群的最佳实践,训练节点采用8卡A800,内存配置2TB,网络一个是RDMA 1.6Tbps的网络,用于模型之间通讯;另一个是VPC 100Gbps网络,与数据湖存储打通。架构上GooseFS分为三部分,一部分是左边的元数据Master节点,提供元数据服务,可以独立部署,不需要部署到GPU节点;第二部分是Worker节点,提供数据缓存服务,推荐部署到GPU节点,利用GPU节点的NVME SSD作为缓存介质;第三部分是FUSE客户端,部署到GPU节点,提供POSIX兼容语义的Mount Point。
AIGC的内容安全方面,AI 生成的内容具有高效、不确定性强的特点,如何保证生成的内容合法合规是企业可以健康、高速发展的关键。
腾讯云数据万象结合对象存储推出的内容审核服务,从内容识别、存储安全、访问安全多方面发力,打造出一套最全面的存储内容安全解决方案。
- 基于业界领先的语义模型和海量的违规词库,以毫秒级的响应快速识别出用户输入信息中包含的违规、低俗内容。
- 基于深度学习的图片、音视频检测技术,结合腾讯深耕内容领域积累的海量训练数据,可以精准高效识别出生成数据中的敏感信息。
帮助开发者们最大程度的降低因内容违规而带来的业务损失。
同时,随着AIGC大规模的应用,将会产生海量内容数据,如何高效的管理内容是一个很大挑战。腾讯云的企业网盘产品,通过结合AIGC应用,实现对用户的数据集、Fine-tuned models、生成的内容进行高效管理,并可以方便快捷的将存储内容分享给其他用户。
此外,借助于多模态检索模型对图片、文本、视频进行的特征预提取,网盘内可实现基于文本语义的快速多模态检索,大幅提升检索效率。企业网盘还可以将海量内容用以对接下游业务,如腾讯会议、企业微信,以及其它第三方应用,将网盘打造为企业办公中的数据中台。
演讲最后,王登宇总结道,围绕AIGC,腾讯云提供生成、审核、智理全生命周期的存储解决方案,提供完整的数据智能管理能力。