EMR入门学习之腾讯云对象存储COS(八)

一、COS背景

大数据存储需求

1、结构化数据、非机构化数据

2、热数据、冷数据

3、不同版本Hadoop的一致性

HDFS的不足

1、不区分冷热数据,数据三副本保存,冷数据容量压力大

2、HDFS外部数据源同步需要额外的工具

3、HDFS多用于保存文本文件、

二、COS简介

COS(Cloud Object Storage),一种海量的分布式存储服务,用户可以随时通过互联网对大量数据进行批量存储,兼具性能与共享能力,适用于大数据场景,访问接口多样化,控制台、API、SDK。

COS与HDFS的关联

提供海量存储,并与Hadoop框架对接

可以直接基于COS的HDFS进行MapReduce、Spark数据分析

COS与HDFS的区别

COS为存储对象,数据存储类型比HDFS更加丰富,适合保存多媒体文件,适合保存冷数据

COS自带同步工具,用于数据源与Hadoop框架间的数据同步

在不同版本Hadoop集群间维护一份数据,保证数据一致性

COS的五大特征

1、服务集成:其他云产品数据源

2、稳定持久:提供11个9的数据持久性

3、安全可靠:防盗链、加密传输、读写权限控制

4、成本最化:无需传统硬件采购、部署与运维

5、接入便捷:SDK、API无缝接入

COS类型

三、COS功能

对象管理

1、断点续传

当上传意外终止,用户再次上传该文件时,可从中断处继续上传,减少重复上传时间。

2、自定义对象头部

对象头部 (Header) 是服务器以 HTTP 协议传输 HTML 资料到浏览器前所送出的字串。通过修改头部,可以改变页面的响应形式,或者传达配置信息,例如修改缓存时间,不会修改文件本身。

3、静态网站

静态网站是指只包含静态内容(如 HTML)或客户端脚本的网站。对于不需要展示动态网页的用户,仅需要使用 COS 服务就能完成从存储到展示的流程。用户可在 COS 上通过为网站配置存储桶(绑定了自定义域名的存储桶)来托管静态网站。

安全保障

1、Referer 防盗链

通过设置存储桶的防盗链黑白名单,在外部请求 COS 资源时,判断 HTTP 请求头部(Header)的 Referer 字段是否在黑白名单中,从而禁止或允许外部请求。可以用来防止资源盗用及被盗用后产生的额外流量费用。

2、跨域访问

通过配置存储桶的跨域访问规则,实现了当 HTTP 请求与资源处于不同域的情况下的资源获取。

3、多地域存储

用户可以根据业务热点选择就近存储地域,减少资源获取延迟。同时,多地存储帮助客户实现异地容灾。

大数据及开放能力

1、持久化音视频处理

COS 为 UGC 类小视频、短视频等移动应用提供了音视频处理能力,通过集成 SDK 便可快速接入,之后即可在 COS 上一站式地完成视频上传、转码、存储、审核和播放等操作。数据上传处理下发一体化,完美闭环。

2、PS 级图片处理

COS 为移动开发者提供多样灵活的图片加工服务及深度定制的图片内容鉴定(如黄图审核、人脸识别)。用户可以在 COS 直接完成图片的裁剪、水印、旋转等操作,无需调用其他公共接口。

3、FTP 工具

基于 FTP 协议来管理文件的服务端工具。方便用户上传和下载存储在 COS 上的文件。

4、Hadoop 工具

通过 COS 提供的 Hadoop 工具,用户可以很方便的使用 Hadoop 大数据处理引擎,如 MapReduce、Hive、Spark、Tez 处理存储在 COS 上的数据。

5、多种数据迁移工具

支持将多种平台(如 Amazon S3、阿里云、七牛云等)上的数据迁移至 COS。

四、COS的应用场景

概述:COS主要存储的数据为非结构化数据,如音频、视频、图片、文件等。用户可通过调用API的方式,简单、快速接入,实现所有数据管理和处理的功能,同时也可通过COS的Web控制台,对存储内容进行管理。COS对象存储服务适合网站、移动应用APP以及各类企业业务场景。

1、多点上传的UGC场景

面对大量UGC内容生成的业务场景,对象存储服务COS的大容量IO吞吐能力,使得COS相比传统的模式有效的解决了多点并发上传的问题,COS自动选择就近节点上传,大幅缩短了终端上传图片和文件的排队时间,同时也提高了文件上传的成功率。

2、频繁IO网盘场景

面对上传和下载比较频繁的网盘场景,对象存储服务COS相比原有的NAS设备,有更好的扩展性,COS能够随着用户的数据量的提高而自动扩容;对于并发访问的情况,COS相对于传统的NAS设备有更充足的宽带支持避免了访问时延长或者服务不可用的情况出现。

3、海量数据归档及备份

面对冷数据存储的场景,COS为您提供了一套分级存储的方案,针对那些访问频率比较低,同时对访问速度要求不高的数据,建议将数据保存在低频存储中,如此可以在不降低数据持久性的前提下,降低存储费用的40%,为保存档案和备份资料提供了一个海量低价的空间。

4、热点资源分发下载

面对视频点播源、游戏资源等热点文件下发的场景,COS结合CDN使用,是您灵活应对大流量和高并发的业务场景。可以使用COS作为源站,将热点资源放在COS中,然后通过CDN下发给终端用户,这样一来,降低了下发的流量费用,降低了终端访问的时延,同时腾讯强大的宽带支持完全不用考虑由于流量过大而导致业务无法访问。