EMR入门学习之EMR初步介绍(一)

一、EMR简介


Elastic MapReduce(EMR)是腾讯云提供的云上 Hadoop 托管服务,提供了便捷的 Hadoop 集群部署、软件安装、配置修改、监控告警、弹性伸缩等功能,EMR部署在腾讯云平台(CVM)上,配合消息中间件、CDB等产品为企业提供了一套较为完善的大数据处理方案。如下图所示为EMR系统架构图:

二、EMR产品优势


1、灵活

与传统的本地化部署的Hadoop集群对比,EMR只需几分钟即可获得一个安全可靠的 Hadoop 集群,以运行 Hive、Spark、Presto 等主流开源大数据计算框架。

可对一个已有的弹性 MapReduce 集群进行快速的弹性伸缩,以在变动的业务部门数据分析需求与高昂 IT 硬件成本之间快速获得平衡点。

2、可靠

Master 节点容灾设计,备节点秒级拉起,保障大数据服务可用性。

完善的监控体系建设,您可以通过短信渠道秒级感知集群组件及任务的运行异常状况。

支持将 Hive 元数据存放于 TencentDB,元数据可靠性达99.9996%。

支持分析存放于 COS 的高存储耐久性的 PB 级数据。

集群默认开启回收站功能。

3、安全

可通过便捷的 VPC 网络安全隔离手段规划托管 Hadoop 集群网络策略,支持网络 ACL 和安全组,可从子网和主机维度筛选流量,全方位满足网络安全需求。

腾讯云品质的安全加固服务为 EMR 集群提供一体化的安全服务,涵盖网络防护、入侵检测、漏洞防护等。

4、易用

可以响应业务需求创建不同版本的集群分析 COS 上的同一份数据。

可以借助开箱即用的 Hue、Oozie 等社区组件随心分析位于数据节点或 COS 上的 PB 级数据,无需担心产生任何知识迁移成本。

5、节约成本

通过 EMR 服务,可以按业务曲线随心伸缩托管 Hadoop 集群,缩减高昂的硬件成本。

丰富的运维工具支持,大幅提升运维工作效率,让工程师更专注于业务本身的商业价值,摆脱重复搭建监控、安全、运维工具等基础设施。

三、功能特性


1、弹性 MapReduce 的软件完全源于开源社区中的 Hadoop 软件,您可以将现有的大数据集群无缝平滑迁移至腾讯云上。它集成了Hadoop生态圈中常用的组件,例如:

分布式存储 hdfs

计算引擎 mapreduce、tez、spark

数据仓库 hive、presto

流式处理 sparkstreaming、flink、storm

列式数据库 hbase、phoenix

等社区中常见的热门组件,包括但不限于 Hive、Hbase、Spark、Presto、Sqoop、Hue 等,可以满足您对大数据的离线处理、流式计算等全方位需求。

2、弹性 MapReduce 无缝集成了腾讯云对象存储(COS)服务,您可将原本存储于 HDFS 中的文件放置在可无限扩展、存储成本低且高可靠的 COS 中,实现计算存储分离。依托于 COS,您可以在需要的时候创建集群,并在任务完成后销毁集群。与此同时,您无需担心数据的丢失。按需创建的集群,可以大幅度降低您的大数据处理成本。

3、弹性 MapReduce 采用了5种节点类型:Master 节点、Core 节点、Task 节点、Router 节点和 Common 节点。各类型节点作用,如下图:

Master 节点为管理节点,保证集群的调度正常进行。

Core 节点为计算及存储节点,您在 HDFS 中的数据全部存储于 Core 节点中,因此为了保证数据安全,扩容Core 节点后不允许缩容。

Task 节点为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容。

Common 节点为 HA 集群 Master 节点提供数据共享同步以及高可用容错服务。

Router 节点用以分担 Master 节点的负载或者作为集群的任务提交机,可以随时扩容和缩容。

4、弹性 MapReduce 目前支持了众多资源规格,您可以采用 EMR 标准型、内存型、高 IO、计算型及大数据机型实例作为计算资源。