知识享不停 | 云上数据湖与内容安全知识分享

上周举行的腾讯云知识分享季第五期:存储专场直播,已圆满结束。

腾讯云存储团队两位技术大牛,围绕“数据湖”、“内容安全”、“存算分离”等热门话题展开演讲,下面让我们一起回顾下两位老师的精彩演讲内容。

一、数据湖:下一代云存储技术与最佳实践

主讲人:吴承-腾讯云资深工程师

1、大数据存储云原生趋势解析

图片

十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘HDFS压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下,业务架构逐步向存算分离转变。

但随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。

数据湖是一种存储架构,本质上讲是存储,而对象存储因其安全稳定、便捷易用、低成本等诸多优点,数据湖通常会使用对象存储作为基座。

2、腾讯云对象存储架构

图片

相比传统分布式存储系统,COS 采用超大规模分布式存储引擎:YottaStore,可轻松操控百万级超大规模存储集群。YottaStore 突破了单点 Master 的瓶颈,做到单集群可达百万节点的控制,且不需要拆分元数据。同时,元数据能存得更小,管理得更多,1Byte 元数据可以管理2GB 的物理空间。

此外,YottaStore 是原生多AZ,在资源管理、调度考虑 AZ,所有服务器共同承担吞吐,对数据一致性有天然的保障。加上分钟级 RTO,RPO 为0,可以彻底解放上层业务,数据冗余度低,存储成本大幅度减少。

为了支持以 COS 为中心的大数据存算分离架构以及云端数据湖,Apache Hadoop-3.3.0发布了 COSN 文件系统,兼容 HCFS 接口,全覆盖 HDFS 大数据计算应用。

3、对象存储在数据湖基座面临的挑战

如下图所示:

图片

4、腾讯云对象存储数据湖三级加速

(1)元数据加速:数据端

文件组织以文件树形式管理,文件拆成块管理,块又会进一步拆解存储到对象存储 COS 上,是一种扁平化结构。支持目录级别并发,分区可扩展,也可跨分区。加速读操作,尽可能内存化,从内存直接读取数据。

(2)缓存加速技术:计算端

元数据缓存到计算端,提前预热数据,从本地直接读取,减少网络带宽限制,提高访问性能。提高缓存命中率,提高资源利用率,极大降低网络带宽成本。支持云原生部署,部署方式灵活。

(3)AZ 数据加速技术:存储端

  • AZ Locality
  • 专有加速域名访问资源
  • 缓存数据强一致
  • 可以加速 Bucket,或者指定 prefix
  • 同一个 Bucket,支持多个加速器
  • 支持存量 Bucket,随时 Enable/Disable
  • 如果 miss cache,从 COS 回源

二、存储数据内容安全实践

主讲人:李沐霖-腾讯云对象存储产品经理

近年来,国家网信办严打违法违规信息成为常态,网络安全政策更是一年比一年严格,企业约谈、整顿、罚款、关停的案例已经屡见不鲜。那互联网企业要如何做好内容风控呢?

为了解决数据内容安全问题,腾讯云对象存储 COS 推出了一站式内容审核,提供了包含图片、视频、语音、文字等全品类数据的内容安全智能审核服务,帮助用户有效识别色情低俗、违法违规、恶心反感等违禁内容,协助用户建设绿色健康的平台环境。

企业仅需1人进行代码维护,1人定期审查审核结果是否有异常,即可享有高达每日10亿次的审核处理集群,且内容识别准确率高,可覆盖上百的审核场景,还能为企业节省90%的成本投入

图片

1、内容审核服务架构

图片

(1)快速接入

支持 API 调用与控制台配置,可视化页面操作,无需开发,帮助您快速接入使用。

(2)覆盖全面

支持图片、音频、语音、文本等多种媒体数据的审核,覆盖各个行业上百种违规类型,具有模型丰富的机审和专业的人工复审团队。

(3)功能丰富

支持增量、存量数据审核,可通过可视化页面或指定回调地址查看审核结果,违规数据自动冻结,审核增量内容自动触发。

(4)高效可用

依托 COS 提供毫秒级响应、每秒万级并发,支持动态扩容,灵活应对高并发场景。

2、覆盖全品类数据审核

(1)图片审核

采用前沿的图像识别算法,结合海量的违规图像数据进行训练建模,覆盖度广、识别准确率高、召回率高,并实时跟进监管要求,不停地更新审核服务的识别标准和能力。图片识别场景包括:

  • 色情:识别多种涉黄违规类型的图片,如色情漫画、涉黄图片等
  • 广告:识别多种形式的广告图片,包括网络小广告、微商商品图片、招嫖广告等
  • 违禁:识别多种违法违规内容,包括抽烟吸毒、赌博、打架斗殴等

(2)视频审核

利用视频截帧能力将视频帧进行图片审核,可自定义截帧频率,有效降低视频审核成本。审核的结果可在控制台可视化展现,还支持视频违规自动或手工冻结,拥有和图片审核一致的识别场景。

(3)音频审核

使用前沿语音识别算法构建的语音识别(ASR)引擎,能够对语音的内容进行转译处理,识别违规内容包括色情、广告、低俗、灌水等。并能结合音频特征识别技术,准确识别低俗语音(呻吟、娇喘、ASMR)等违规内容。还兼容各种地方口音的普通话,高效协助用户审核处理视频直播、语音直播或对话等场景产生的音频数据。

(4)文本审核

采用前沿的自然语言处理算法,结合海量的敏感关键词库进行建模,并配置有多种预处理和匹配识别规则,快速准确识别各种变形文本,例如拆分字、形似字、音似字、带有干扰符号的句子、有歧义的短语,可有效过滤违规数据,打造快速、高质、稳定文本审核服务。

COS 内容审核场景适用于众多行业,尤其是社交平台、在线教育、电商平台以及游戏行业,这些行业都具有数据多,增长快,数据类型广泛的特点,对数据审核的覆盖性、准确性、高效性都有极高的要求。而 COS 内容审核的多违规类型覆盖、增量数据自动触发审核、审核秒级响应、场景化定制完全可以满足所有审核场景。

为了让用户更好体验内容审核功能,COS 推出内容审核专题活动,资源包低至1元起。活动中还可以免费领取10万次内容审核资源包,有效期1个月,数量有限,送完即止。识别下方二维码,免费领取体验额度,抢先体验内容审核功能。

图片

三、技术探讨

除了上述内容,两位技术大牛还和 TechSugar 的编辑一起探讨了大数据上云,存算分离的实践应用与趋势,就“大数据上云面临的挑战”、“存算分离优势”、“应用案例分享”等方面展开讨论。

更多精彩内容,可点击下方视频观看。

视频内容

如您有疑问,请加群与我们交流。

图片