Flink是如何处理一个流数据计算任务的

👆点击“博文视点Broadview”,获取更多书讯

Flink是如何处理一个流数据计算任务的,整个流程如图所示,分为以下几个步骤:

(1)Flink先将用户编写的应用程序转换为逻辑图(Logical Graph),逻辑图的节点代表算子,边代表算子要计算的输入/输出数据流。

(2)Flink会对生成的逻辑图进行一些优化,比如将两个或多个连续相同的算子组合成算子链(Operator Chain),算子链内的算子可以直接传递数据,这样可以减少数据在节点之间传输产生的开销,这一步的作用类似数据库系统中优化器的作用。

(3)Flink会将逻辑图转换为真正可执行的物理图(Physical Graph),物理图的节点是任务(Task),边依然表示输入/输出的数据流。任务是指封装了一个或多个算子的并行执行的实例。

(4)Flink将具体的任务调度到集群中的执行节点上,并行执行任务。Flink支持对任务配置并行度(Parallelism),即一个任务的并行实例数。

内容摘自《深入理解分布式系统》,作者唐伟志,曾任网易游戏、腾讯基础架构工程师。

本书主要讲解分布式系统常用的基础知识、算法和案例,经笔者对文献海洋中晦涩艰深的原理和算法进行提炼,辅以图示和代码,并结合实际经验进行分析总结而成。通过阅读本书,读者可以快速、轻松地掌握分布式系统的基本原理,以及Paxos或Raft共识算法,并通过典型的案例学习如何设计大型分布式系统。

本书首先介绍什么是分布式系统、分布式系统带来的挑战,以及如何对分布式系统进行建模,这部分内容偏向概念性介绍。接着介绍了分布式数据的基础知识,包括数据分区技术、数据复制技术、CAP定理、一致性模型和隔离级别,尝试厘清一些十分容易混淆的术语,比如一致性、线性一致性、最终一致性和一致性算法等。本书还介绍了分布式系统的核心算法——Paxos和Raft算法,不仅补充了大量图示进行讲解,还从零实现了一个Paxos算法。此外,本书分析了常见的分布式事务,并讨论了分布式系统中的时间问题,整理了一些实际发生的编程陷阱。最后结合一些对工业界产生重大影响的论文或开源系统,学习前人在设计大型分布式系统时的思路、取舍和创新。

扫码了解本书详情!