腾讯云COS Data Lake在AIGC和自动驾驶技术领域的最新解决方案

3月7日,焉知汽车电子与软件生态合作科技节,在上海丽昂豪生大酒店三楼拉开帷幕。腾讯云存储资深解决方案架构师王登宇作为嘉宾受邀出席峰会,在当天上午的主论坛“数智融合 智驾未来”发表主题演讲,分享并探讨了腾讯云COS Data Lake在AIGC和自动驾驶技术领域的最新进展和方案。

在当今快速发展的人工智能领域,数据作为AI模型训练的基石,其处理和存储方式对模型的性能有着决定性影响。特别是在AIGC和自动驾驶技术的研发中,对数据处理的要求更是严苛。

腾讯云针对AIGC领域提供了全生命周期的数据存储与处理解决方案,覆盖模型训练、内容审核到数据智理的全流程。这一解决方案的核心在于其能够通过一站式的存储和数据处理服务,极大地提高了模型训练效率。腾讯云的对象存储COS、GooseFS产品系列和数据万象等产品,为数据集上云、模型训练、推理应用到内容智理中的数据存储提供了强大的支持,实现了高效、低成本的数据管理方案。

在自动驾驶技术的发展中,数据的采集、存储、标注等环节对于感知训练、仿真和评测至关重要。腾讯云GooseFS产品系列,为自动驾驶模型训练提供了高性能的数据存储和加速服务。这一解决方案通过优化数据的读取和写入性能,特别是在处理PB量级的训练数据时,显著提升了训练效率。

COS Date Lake 向智能数据湖演进

腾讯云COS Data Lake结合了数据加速和AI能力,从支持传统的数据分析和ML业务,向智能数据湖演进。通过数据湖的智能数据处理和AI大模型对数据的多模态特征提取,我们可以更加有效地处理大规模的数据,提高数据分析和机器学习业务的效率。

在智能数据湖中,腾讯云利用AI技术进行数据融合和分析,提高了数据处理的效率和质量。通过AI大模型对数据的多模态特征提取,腾讯云数据湖进一步增强了大数据处理、智能检索和数据资产管理能力。这种方法可以帮助企业更好地理解和利用其数据资产,更快地发现和利用数据中的价值,并为AIGC和自动驾驶业务提供更多的高质量数据支持。

腾讯云COS Date Lake Architecture

腾讯云COS数据湖是一个高效、可扩展的数据存储和数据处理服务平台,在COS对象存储基础上,提供数据存储、数据接入、数据加速和数据智理服务。

1. 数据存储:腾讯云COS对象存储是数据湖的基础,提供海量低成本、持久化存储能力。它是一个可扩展的对象存储系统,旨在满足企业的大数据存储需求。COS对象存储提供了多种存储类型,如标准存储、低频存储、归档存储和深度归档存储,使所有用户都能使用具备高扩展性、低成本、可靠和安全的数据存储服务。

2. 数据接入:通过MSP数据迁移和全球加速网络,提供数据入湖服务。MSP数据迁移可以支持各种数据源迁移到COS对象存储。全球加速服务借助腾讯全局流量调度的负载均衡系统,智能路由解析用户请求,选择最优网络访问链路,实现请求就近接入,将用户请求就近接入腾讯云核心机房,并通过稳定可靠的内网传输加速,帮助用户在全球各地快速访问存储桶,提高数据入湖效率和用户体验。

3. 数据加速:数据加速服务是数据湖的核心,从计算端到存储端提供了丰富的数据加速产品,包括GooseFS系列产品、元数据加速和COS加速等。这些加速服务提供了丰富的访问协议,来对接各种计算平台,提升计算平台的效率。

- GooseFS-Cache:提供计算端的数据缓存加速服务,利用计算端RAM、NVME SSD资源构建全局分布式缓存,提供高可靠、高可用、弹性的数据湖加速能力。通过POSIX、HDFS等多种访问协议,加速海量数据分析、机器学习、人工智能等业务访问数据的性能,为上层计算应用提供统一的命名空间,方便用户在不同的业务之间自由流转数据。

- GooseFS-X:是一款托管的高性能分布式文件系统,具备高可用性和弹性扩展能力,为高性能计算业务提供极高性能和极低时延。通过与COS对象存储之间的数据流动能力,可以直接从COS加载数据,以便计算节点能高速访问缓存到 GooseFS-X 的数据;同时GooseFS-X将产生的计算结果数据沉降到 COS,实现持久化、低成本存储,方便用户灵活管理冷、热数据。

- GooseFS-Lite:是一款轻量级的客户端工具,提供POSIX语义访问COS对象存储的能力。通过POSIX语义将COS对象存储桶挂载到计算节点,像使用本地文件系统一样直接操作对象存储中的Objects。

4. 数据智理:数据智理是腾讯云存储提供的综合数据管理解决方案,涵盖内容审核和智能检索两大核心功能。内容审核部分利用人工智能技术对文本、图片、视频等内容进行实时审核,识别违规内容,确保平台内容的合规性和安全性。通过自动化审核和定制化策略,用户可以快速准确地识别潜在安全隐患,保障数据安全。智能检索方面,腾讯云提供了高效的数据管理和检索服务。通过建立特征库,系统实现对数据的智能化管理和检索,帮助用户更快速、准确地获取所需数据,提高工作效率。支持多种检索形态如文本、图片和视频,并提供秒级检索能力,用户可以轻松接入系统,快速获取检测结果,及时处理数据。

COS Date Lake在AIGC和自动驾驶场景解决方案

AIGC存储解决方案:

腾讯云AIGC存储解决方案旨在提供一体化的存储解决方案,以满足AIGC业务对数据处理和合规安全的需求。通过统一存储、结合GooseFS产品系列和数据万象内容审核等功能,实现了数据的高效预处理、训练效率提升和数据合规安全保障。

统一存储,降低成本,促进数据流动

在AIGC训练过程中,将所有数据统一存储在COS Data Lake中,有助于数据生命周期管理,降低存储成本,并方便数据在多个计算平台之间自由流动。这种统一存储的方式简化了数据管理流程,提高了数据的可访问性和可用性,同时降低了维护成本。

GooseFS产品系列数据加速,提升训练效率

- 数据预处理阶段:通过将数据集缓存到GooseFS-Cache中,可以加速数据预处理效率。这种缓存机制可以减少数据读取时间,提高数据处理效率,从而加速整个训练流程。

- 训练阶段:利用GooseFS-Cache缓存训练数据集到GPU集群上,可以加速训练数据集的读取。同时,将训练过程中产生的Checkpoints写入高吞吐的GooseFS-X中,可以缩短训练集群因生成Checkpoint而暂停的时间,进一步提高训练效率。

- 推理阶段:在推理过程中,GooseFS-Cache可以在多个区域缓存模型,从而大幅提升模型的加载效率。这种缓存机制可以减少模型加载时间,提高推理效率,应对推理集群规模大、分布广的情况,有效解决模型加载吞吐瓶颈的问题。

数据万象内容审核,保障AIGC生产内容的合规和安全

- 便捷的接入:数据万象提供一体化的存储内容合规安全方案,使增量数据一键开启审核成为可能,大大降低了开发成本。

- 精准的模型:数据万象针对AIGC场景审核策略进行专项调优和底层模型的定制开发,确保审核模型的精准性和有效性。这种定制化的模型开发可以更好地适应AIGC业务的特殊需求,提供更高效的内容审核服务。

- 更高的性能:根据存储数据智能地调度处理集群,近存储侧的处理能力提供更优的数据传输时延和更低的成本。

自动驾驶存储解决方案

在自动驾驶场景中,模型训练的重要性不言而喻,主要涉及三个关键环节:数据预处理、感知训练和仿真。这些环节在自动驾驶系统中扮演着至关重要的角色,影响着车辆的智能决策和行驶安全。

在数据预处理阶段,采集到的车辆路况原始数据通过COS/S3标准接口上传至COS数据湖后,需要经过一系列处理步骤,包括数据清洗、脱敏、抽帧和标注等,以生成可用于训练的数据集。在这一过程中,利用GooseFS-Cache缓存原始数据可以有效加速数据读取性能,提升数据预处理的效率。

感知训练阶段是业务的核心部分,在这个阶段,将GooseFS-Cache部署到GPU训练集群,利用GPU节点上的NVME SSD作为缓存介质构建分布式缓存系统,用来缓存训练数据集,并通过POSIX接口与训练平台对接,显著提升训练过程中的IO性能。定期生成的模型Checkpoint存储到GooseFS-X高性能并行文件系统中,GooseFS-X提供了强大的写入吞吐能力,满足上千卡GPU同时写入的需求,从而缩短模型训练暂停时间,提高训练效率。

在仿真阶段,仿真平台需要通过POSIX接口大量一次性读取仿真数据。这些仿真数据存储在COS数据湖中,GooseFS-Lite提供了轻量级的POSIX协议转换服务,以满足仿真平台通过POSIX协议从COS数据湖读取仿真数据的需求。这种架构设计使得仿真平台能够高效地访问大量数据,为自动驾驶系统的仿真测试提供了可靠的支持。

保障AIGC内容安全,定义智能存储新范式

AIGC内容审核解决方案:

腾讯云AIGC内容审核解决方案是腾讯云基于人工智能技术和大数据分析构建的一套内容审核系统,旨在帮助企业有效应对内容安全合规挑战。该解决方案涵盖了内容输入审核、内容生产审核和内容存储审核等多个环节,通过智能化的审核机制和高效的审核流程,为用户提供全面、精准的内容审核服务。

在内容输入审核方面,可以对用户上传的文本、图片、视频等内容进行实时审核,识别和过滤出涉黄、暴恐、违禁等风险内容,有效防范不良信息传播。通过自动化审核和定制化审核策略,可以快速准确地识别出潜在的安全隐患,保障平台内容的合规性。

在内容生产审核方面,可以对模型生成的内容进行智能审核,确保内容合规性。通过AIGC大模型的训练和微调,结合人工审核和自动化审核技术,可以有效识别出虚假信息、低俗内容等,提升内容生产的质量和可信度。

在内容存储审核方面,支持一键扫描审核历史数据、内网获取数据等功能,帮助用户快速发现和处理存储中的违规内容,保障数据安全和合规性。用户还可以根据不同的数据场景自定义审核策略,灵活应对各类内容审核需求,降低业务风险,提升内容安全水平。

总的来说,腾讯云AIGC内容审核解决方案通过结合人工智能技术和大数据分析,为企业提供了一套全面、高效的内容审核机制,帮助用户构建安全、可靠的内容生态环境,提升内容管理的效率和质量。

腾讯云存储智能检索解决方案:

腾讯云存储智能检索解决方案是腾讯云为满足用户对大规模数据存储和智能检索需求而推出的一项创新性解决方案。该解决方案结合了腾讯云强大的存储基础设施和人工智能技术,旨在提供高效、智能的数据管理和检索服务,帮助用户更好地利用和管理海量数据。

在方案中,建立特征库是其中的关键功能之一。通过万象图文大模型对图像、文本和视频等数据进行智能处理和特征提取,系统能够建立高效的特征库,实现对数据的智能化管理和检索。这种智能化的特征库构建使用户能够更快速、准确地检索到所需的数据,提高工作效率和数据利用率。

腾讯云存储智能检索解决方案支持多种检索形态,包括文本检索、图片检索和视频检索等,满足用户对不同类型数据的检索需求。用户可以通过万象API/SDK访问方式轻松接入系统,实现便捷的数据检索操作。

结语

腾讯云COS Data Lake通过对数据加速和AI能力的巧妙结合,提供数据存储、数据接入、数据加速和数据智理服务,构成了一个完整而强大的体系,为企业提供了高效、智能的一体化存储解决方案。这不仅助力AIGC和自动驾驶业务更好地处理和利用大规模数据,也为加速企业数字化转型提供更多可能性。