导语
随着大数据时代的到来,各大互联网公司对于数据的重视程度前所未有,各种业务对数据的依赖也越来越重。有一种观点认为大数据存在 “3V” 特性:Volume, Velocity, Variety。这三个 “V” 表明大数据的三方面特征:量大,实时和多样。这三个主要特征对数据采集系统的影响尤为突出。多种多样的数据源,海量的数据以及实时高效的采集是数据采集系统主要面对的几个问题。
我们想要在数据上创造价值,首先要解决数据获取的问题。因为在互联网发展中,企业内或不同企业之间建立了各种不同的业务系统,这些系统产生的数据也都是互不相通的,要想实现数据的互通与融合,在数据的获取与处理上就需要下很大功夫。
腾讯云 CKafka 重磅上线 DataHub
腾讯云消息队列 CKafka 已正式上线数据中心接入服务模块 DataHub。DataHub 具有强大的数据接入及分析处理的功能,可以从 App、Web、MongoDB 等数据源中进行持续不断的数据采集,存储和处理,并得到各种实时的数据处理结果,可用于日志分析、网页活动追踪、IoT 分析应用等。
现今数据处理系统大体上可分为离线处理系统和在线处理系统。CKafka 推出 DataHub 数据中心接入服务模块,负责从业务数据源获取数据,并进行一些预处理工作,分发给离线/在线处理平台,构建数据源和数据处理系统间的桥梁,将数据处理系统同业务侧的数据源解耦。
DataHub产品优势
DataHub基于CKafka的数据处理能力,具有高稳定、实时性、高扩展性、高安全性等优势。
- 高稳定
基于消息队列 CKafka 分布式的部署,稳定性有很好的保障。
- 实时性
数据采集实时高效的同时还可以进行实时处理。
- 高扩展性
支持集群水平扩容,实例无缝升配,底层系统根据业务规模自动弹性伸缩,上层业务无感知。
- 高安全性
不同租户间网络隔离,实例的网络访问在账户间天然隔离。支持管理流的 CAM 鉴权及数据流的 SASL 权限控制,严格控制访问权限。
- 上下游生态融合
支持与 EMR、COS、容器、流计算、无服务器函数、日志服务等13+云上产品打通,实现快速一键部署。
- 统一运维监控
提供腾讯云平台整套的运维服务,包括租户隔离、权限控制、消息堆积查询、消费者详情查看等多维度监控告警等运维服务。
DataHub应用价值
CKafka是一个分布式、高吞吐量、高可扩展性的消息系统,基于发布/订阅模式,通过消息解耦,使生产者和消费者异步交互,具有数据压缩、同时支持离线和实时数据处理等优点。DataHub作为CKafka的一个功能模块,可以帮助用户以CKafka为入口,通过界面化配置,即时连接到常用的数据源和接收器,打包各个场景的解决方案,实现实时数据通道、实时数据清洗和分析的功能。
在实际应用中,DataHub实时接入各种数据源产生的不同类型的数据,用户可以将多个数据源的数据投递到同一个Topic中,统一管理,经过简单的数据处理,并投递到下游的数据处理系统,形成清晰的数据流,更好地释放数据的价值。
DataHub可以同时实现大数据系统与业务系统以及大数据系统各组件之间的解耦。
实时数据通道
我们都知道不同企业之间、不同业务之间数据互不相通,互不融合的数据在数据获取、传输上会遇到很多问题,比如可用性差、传输延迟等;业务层面,也会遇到旧业务数据系统迁移到新系统、不同系统数据整合过程中数据不可用等问题,进而影响业务的后续进行。
为了能够让数据更加实时高效地融合,DataHub利用数据接入能力,使业务数据能够实时融合进大数据系统,缩短数据分析周期,对于客户来说就是实时的数据通道。那DataHub又是如何实现数据接入能力的呢?
从上图可以看出,DataHub的数据源可以分为:主动上报、服务类和日志类。
- 主动上报类:APP、WEB、IoT等;
- 服务类:MongoDB、cos、Mysql等;
- 日志类:容器、网络流日志、CVM等。
数据接入的控制台界面如图所示,展示用户建立的数据接入任务列表。
点击列表项可以查看每一条数据接入任务的详情,可以查看监控。
数据接入具体操作主要分为以下两个部分:
1、主动上报:提供SDK,使用流程为:
- 以HTTP上报为例:
任务创建成功后会生成接入点。
后续在任务详情中可以查看和复制该接入点。
2、异步拉取
服务类、日志类、接口类,提供完整的产品化配置界面,用户无需关心底层实现。
- 以MongoDB为例:
实时数据清洗和分析
DataHub接入多种不同类型的数据后,通过数据流出和数据处理,对多种数据源的数据进行实时清洗、过滤、关联与转换,形成统一的结构化数据,实现各数据源不同类型数据的融合。
DataHub又是如何进行数据清洗和分析处理的呢?
1、数据流出
利用云函数或者sink connector,分发数据到下游的各种云产品。
- 新建数据流出任务
点击提交后会在数据流出任务列表增加一条记录,可以查看任务详情和监控。
2、数据处理
DataHub提供了Kafka to Kafka的数据处理能力。
- 点击“新建任务”,出现窗口:
以上是一些简单清洗规则界面化展示,更高级的清洗规则后续会支持编写函数进行配置。解析模式支持JSON、分隔符、正则表达式,点击测试可以验证上面设置的数据处理规则。
DataHub 控制台
如下图所示,在消息队列CKafka控制台的侧边栏划分为消息队列和DataHub两个模块,查找方便,使用更方便,目前DataHub已经上线,有需要使用数据接入与数据处理分析功能需求的用户,可以用起来啦!
未来腾讯云消息队列产品的发展会在数据获取与数据处理方向做更深的探索,也会结合上下游产品,为用户提供更多符合场景的解决方案,希望DataHub未来可以发展为云上统一的数据接入服务,为各数据源数据的接入、分析与处理提供更稳定的平台。
DataHub 使用咨询
目前 DataHub 都已全面发布上线,前往腾讯云消息队列 Ckafka 控制台即可使用体验。为了更好地给您提供产品服务,您可填写以下表单,我们将在 1-3 个工作日内与您联系,沟通具体业务需求。
★
福利时间
关于DataHub您还有什么想要了解?
评论区留言并分享文章至朋友圈
我们将在精选留言中随机抽送
腾讯公仔
往期
推荐
《ZooKeeper系列文章:ZooKeeper 源码和实践揭秘(三)》
《腾讯云消息队列 TDMQ Pulsar 版商业化首发|持续提供高性能、强一致的消息服务》
《Serverless可观测性的价值》
《喜报|CKafka荣获可信云消息队列服务稳定性先进级认证》
《RoP重磅发布0.2.0版本:架构全新升级,消息准确性达100%》
《ZooKeeper系列文章:ZooKeeper 源码和实践揭秘(二)》
《深入理解Rabbit MQ与AMQP协议》
《应用多环境部署的最佳实践》
《单元化架构在金融行业的最佳实践》
《服务器又崩了?深度解析高可用架构的挑战和实践》
《Kratos技术系列|从Kratos设计看Go微服务工程实践》
扫描下方二维码关注本公众号,
了解更多微服务、消息队列的相关信息!
解锁超多鹅厂周边!
戳原文,查看更多DataHub信息!
点个在看你最好看