Hazelcast 是一个平台性的分布式内存网格计算框架引擎,可以实现基于分布式内存计算的诸多场景的应用框架 , 它作为一个开源可内嵌式内存网格计算框架,通过简单的配置, 就可以轻松的让你的应用拥有弹性可扩展的分布式内存计算能力,可以带你瞬间进入内存计算的时代。
伴随着更深入的使用你会发现他是一个创造更多想象空间的的平台框架。是一个百变框架,可以带给你无限可能, 就像航母可以扩展作战半径支持多种作战形式一样,他可以衍生变化出各种框架和解决方案。
如果你正在寻找一个迅速提升服务性能,让应用迅速具备集群和动态弹性可扩展的能力,那 Hazelcast 正是你要找的框架。
说了那么多,那到底什么是分布式内存网格计算?
首先看分布式计算的解释:
分布式计算研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终结果。
我们常常说的云计算其实是分布式计算的一种.云计算是将巨大的数据处理程序分成无数个待处理小程序, 然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户.
那什么是内存网格(IMDG)?
内存数据网格(IMDG)将基于磁盘的数据从 RDBMS、NoSQL 数据库复制到 RAM 中,在 RAM 中进行处理,一般形式为分布式数据架构, 从而不会因为持续的磁盘读写导致延迟。内存数据网格插入到应用程序和数据层之间,部署在服务器节点的集群上,共享集群的可用内存和 CPU。无论是部署在公共云还是私有云环境中、内部部署还是在混合云的环境中,都可以实现内存数据网格. 一些内存数据网格可以支持 ANSI-99 SQL 和 ACID 处理.
官方文档:https://hazelcast.com/glossary/in-memory-data-grid/
有了上述分布式计算和内存网格的解释那自然就明白了什么是分布式内存网格计算, 基于云计算可以给互联网很多想象空间和更多的可能,那基于分布式内存网格计算会带来什么?
基于内存计算的特性, 目前 Hazelcast 也是公认的提升应用程序性能的最灵活的方案. 分布式计算,服务集群, 弹性伸缩,高速分布式缓存,消息订阅,流式计算,甚至是作为下一代的微服务技术的 Service Mesh,Hazelcast 也可以让你轻松拥有.
拥有这么多功能的框架性能到底怎么样,这是架构师和开发者最关注的问题,作为 Hazelcast 基础功能的分布式缓存在性能上与 Redis 集群的性能做了一次对比,在高并发多线程的模式下,Hazelcast 性能要比 Redis 性能略高. Hazelcast 是基于 Java 构建的,而 Redis 是基于 C++构建的, 两个都是内存级缓存,Hazelcast 性能跑过 Redis 依靠的是分布式内存管理与数据分片算法方面的能力, 这也很值得做深入研究. Redis 终究也没想到在开源界也可以有跨界杀手.
Hazelcast VS Redis 的性能测结果:
原文地址:https://hazelcast.com/resources/benchmark-redis-vs-hazelcast/
而且 Hazelcast 因为其采用自制集群无中心化的特性,作为分布式缓存的解决方案没有单点故障的烦恼,集群部署简易,也没有节点数量要求, 而且灵活可弹性扩展.支持热插拔, 高效的内存分片管理能力支持,可以将当前小内存机器集群构建出大内存计算平台,规避其他缓存框架单机内存限制的问题, 省钱又省心, 大内存在人工智能,机器学习,金融,数据分析等诸多领域都有清晰的应用市场,这些都可以让 Hazelcast 作为选型目标.
在分布式缓存上有这么好的表现,但这并不是 Hazelcast 真正值得称赞的地方. 分布式缓存能力是 Hazelcast 的一个基础原子能力, 在诸多真实的项目中选择引入 Hazelcast 有各种各样的使用场景和选型需求,大概率是基于 Hazelcast 丰富的原子能力和业务场景适用性.
在大数据时代、海量数据处理、机器学习、流处理的需求与场景我们随处可见。Hazelcast Jet 是一个基于 Hazelcast 的分布式高性能流处理引擎,专为高性能低延迟的大数据集计算而设计,该引擎适合数据密集型应用程序,满足低延迟,高吞吐,批量,分布式处理需求。
Hazelcast Jet 整体架构:
从上图可以看出 Hazelcast Jet 适用于多源大数据采集存储,实时数据处理,数据清洗,ML 深度学习,预警,分析,消息订阅,等业务,这个框架非常适合我们现在所做的智慧城市(IOC)中城市体征数据底盘的需求,Hazelcast Jet 可以作为数据底层处理基座, 收集各类城市数据,包含 IOT 物联网传感器数据,然后进行清洗,分析,预警,深度学习,AI 人工智能的应用等,通常企业级的开发要达到这些能力都需要集成诸多组件,而 Hazelcast Jet 要实现这些能力对其他组件的依赖非常低,降低了多组件集成的成本与复杂度,彻底的简化了流处理的方式,让行业内的流处理业务产生了一次重大的飞跃。
这些目前 Spark,Stream,Flink 都是该领域的成熟的流处理框架,那 Hazelcast Jet 除了在功能与底座方面的优点外,那性能如何也是一个不能回避的问题。
先来看一个 Hazelcast Jet 与 Spark,Flink 的经典的 Words Count 大数据性能测试结果:
Hazelcast Jet 的处理速度比大多数的实时处理框架要好一点。在加上 Hazelcast 的分布式 IMAP ,海量数据分布式大数据处理速度要更快。
原文地址:https://hazelcast.com/resources/jet-0-4-vs-spark-flink-batch-benchmark/
Hazelcast Jet 的流处理速度之所以快是基于分布式内存计算,在加上流处理核心使用了directed acyclic graph (DAG) 有向无环图技术,可以加速分布式数据处理速度,DAG 技术也在区块链技术上有应用,不同于区块链当前的生链算法,可以加速区块链的生链处理速度,被称为第二代区块链技术,感兴趣可以研究一下。
基于上面的描述和性能测试结果,相信大家都有更深的兴趣了,那就要先了解下 Hazelcast 还提供了那些能力,Hazelcast 以分布式内存计算能力为平台, 无缝集成了很多开源框架的特性与原子能力, 这些原子能力和平台的整体性也保持的很好, 会让你有种水到渠成的感觉, 这些能力也为 Hazelcast 带来了更多的想象空间和可能性,同时原子能力的组合,可以带来很多变化, 就像拼积木一样,拥有更多的能力,更多的使用场景.
Hazelcast 在官网的介绍也凸显出 Hazelcast 的能力和使用场景的多样性.先了解下 Hazelcast 的整体架构.
可以从官方公布的体系架构中看到 Hazelcast 的整体结构和基础模块和原子能力.
综合官网的介绍 Hazelcast 的功能点和原子能力包含:
- 基于 Topic 实现的消息队列或订阅\发布模式;
- 分布式 java.util.{Queue, Set, List, Map}
- 分布式 java.util.concurrent.ExecutorService
- 分布式 java.util.concurrency.locks.Lock
- 分布式节点 listeners and events
- 分布式 Task
- 分布式 id 生成器(IdGenerator).
- 分布式事件驱动(Distributed Events).
- 分布式计算(Distributed Computing).
- 分布式查询(Distributed Query).
- 提供用于一对多关系的分布式 MultiMap。
- 通过 JCA 与 J2EE 容器集成和事务支持。
- 提供用于安全集群的 Socket 层加密。
- 支持同步和异步持久化。
- 通过 JMX 监控和管理集群。
- 支持动态 HTTP Session 集群。
- 利用备份实现动态分割。
- 动态故障恢复.
- 节点负载均衡.
- 分布式流计算
- 安全组件
- 滚动升级特性
- Map/Reduce
- 多模式组网, 节点自动发现.
- 自带集群节点管理后台.
那基于这些已经有的原子能力,可以衍生出很多场景的解决方案,大部分是官网提到的解决方案:
- 分布式缓存
- 发布订阅系统
- 分布式锁
- 任务调度
- 分布式 ID 生成
- 分布式 Task 执行服务器
- 配置中心
- 数据库集成/数据迁移 (官网的一个 Case)
- 数据抽取 ETL
- 实时流处理
- 内存数据库
- NoSQL 数据存储
- Session 会话存储
- IM 即时通信框架
- 大型游戏框架(这个在适合不过了)
- 微服务框架
- Service Mash(作为下一代微服务框架的底座)
更多的想法和解决方案可以参考 hazelcast Blog ,官方开发人员和社区开发者都会分享一些 Hazelcast 最新动态和基于 Hazelcast 最新的 Idea 和 Solution!