博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
1、Spark-Streaming的原理
阅读量:6505 次
发布时间:2019-06-24

本文共 396 字,大约阅读时间需要 1 分钟。

hot3.png

一:sparkRDD如何变成了sparkStreaming?

Spark底层是通过Driver端构建SparkRDD来处理数据的,但是SparkRDD处理完成后就退出了。那么如何才能够让集群中一直有SparkRDD在运行,处理实时发送过来的kafka数据?Spark提供了一个很简单粗暴的方式Driver端根据DAG每隔一段时间,不断地往集群中循环发送task,不断的读取kafka对应offset的数据,这样集群中就会不断的有新的SparkRDD在运行,从而形成流式

二:图解

输入图片说明

所有的Spark模块都是基于SparkRDD的

输入图片说明

他们最终都是转化为RDD生成DAG,然后通过DAGScheduler切分stage,最后调用Tasksheduler将stage作为task发送到executor执行。

输入图片说明

转载于:https://my.oschina.net/liufukin/blog/795541

你可能感兴趣的文章
根据经纬度获取时区信息
查看>>
关于 Linux
查看>>
图文解析五大外链误区
查看>>
ios开发之导航控制器的原理
查看>>
《Netkiller Blockchain 手札》Hyperledger Fabric Java SDK Demo
查看>>
Spring cloud 安全部署与性能优化
查看>>
querySelector 和 querySelectorAll区别
查看>>
Linux系统_Centos7下安装Nginx
查看>>
《PHP和MySQL Web 开发》 第12章 MySQL高级管理
查看>>
android:supportsRtl="true"
查看>>
数据库设计 Step by Step (6) —— 提取业务规则
查看>>
Maven简介
查看>>
深入理解java异常处理机制
查看>>
centos安装redis环境
查看>>
Redis客户端redisson实战
查看>>
连接到 JasperReports Server
查看>>
java处理高并发高负载类网站问题
查看>>
swift学习笔记之UILabel
查看>>
使用C#生成随机密码(纯数字或字母)和随机卡号(数字与字母组合)
查看>>
CAS服务器端集群
查看>>