且看新一代计算引擎Spark和Flink成王败寇

发布时间：2021-02-24 14:12:22 所属栏目：传媒来源：互联网

导读：前言做大数据绝对躲不过的一个热门话题就是实时流计算，而提到实时流计算，就不得不提 Spark 和 Flink。Spark 从 2014 年左右开始迅速流行，刚推出时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性能提升外，还提出了用一个统一的引擎支持批处理

前言

做大数据绝对躲不过的一个热门话题就是实时流计算，而提到实时流计算，就不得不提 Spark 和 Flink。Spark 从 2014 年左右开始迅速流行，刚推出时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性能提升外，还提出了用一个统一的引擎支持批处理、流处理、交互式查询、机器学习等常见的数据处理场景。凭借高性能和全面的场景支持，Spark 早已成为众多大数据开发者的最爱。

正在 Spark 如日中天高速发展的时候，2016 年左右 Flink 开始进入大众的视野并逐渐广为人知。由于Spark在数据流的实时处理中较弱，而Flink 凭借更优的流处理引擎，同时也支持各种处理场景，成为 Spark 的有力挑战者。

本文对 Spark 和 Flink 进

社区的贡献而发展。对 Flink 而言，其所要处理的主要场景就是流数据，批数据只是流数据的一个极限特例而已。再换句话说，Flink 会把所有任务当成流来处理，这也是其最大的特点。Flink 可以支持本地的快速迭代，以及一些环形的迭代任务。

Flink 和 Spark 对比

Spark和Flink都支持批处理和流处理，接下来让我们对这两种流行的数据处理框架在各方面进行对比。首先，这两个数据处理框架有很多相同点。

都基于内存计算;
都有统一的批处理和流处理APl，都支持类似SQL的编程接口;
都支持很多相同的转换操作，编程都是用类似于Scala Collection APl的函数式编程模式;
都有完善的错误恢复机制;
都支持Exactly once的语义一致性。

当然，它们的不同点也是相当明显，我们可以从4个不同的角度来看。

从流处理的角度来讲，Spark基于微批量处理，把流数据看成是一个个小的批处理数据块分别处理，所以延迟性只能做到秒级。而Flink基于每个事件处理，每当有新的数据输入都会立刻处理，是真正的流式计算，支持毫秒级计算。由于相同的原因，Spark只支持基于时间的窗口操作(处理时间或者事件时间)，而Flink支持的窗口操作则非常灵活，不仅支持时间窗口，还支持基于数据本身的窗口，开发者可以自由定义想要的窗口操作。
从SQL 功能的角度来讲，Spark和Flink分

（编辑：唐山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

SIAL国际食品展伴您健	Meta开源全新移动端AI
腾讯会议网络招聘好帮	企业直播正变为企业向