自动化科技产品网站建设,盗版小说网站怎么做的,淘宝网官方网站网页版,给你一个网站怎么做的目录
0. 相关文章链接
1. 什么是RDD
2. RDD核心属性
3. 执行原理 0. 相关文章链接 Spark文章汇总
1. 什么是RDD RDD#xff08;Resilient Distributed Dataset#xff09;叫做弹性分布式数据集#xff0c;是 Spark 中最基本的数据处理模型。代码中是一个抽象类#x…目录
0. 相关文章链接
1. 什么是RDD
2. RDD核心属性
3. 执行原理 0. 相关文章链接 Spark文章汇总
1. 什么是RDD RDDResilient Distributed Dataset叫做弹性分布式数据集是 Spark 中最基本的数据处理模型。代码中是一个抽象类它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
弹性 存储的弹性内存与磁盘的自动切换 容错的弹性数据丢失可以自动恢复 计算的弹性计算出错重试机制 分片的弹性可根据需要重新分片分布式数据存储在大数据集群不同节点上 数据集RDD 封装了计算逻辑并不保存数据 数据抽象RDD 是一个抽象类需要子类具体实现 不可变RDD 封装了计算逻辑是不可以改变的想要改变只能产生新的 RDD在新的RDD 里面封装计算逻辑 可分区、并行计算
2. RDD核心属性
分区列表RDD 数据结构中存在分区列表用于执行任务时并行计算是实现分布式计算的重要属性。分区计算函数Spark 在计算时是使用分区函数对每一个分区进行计算 RDD 之间的依赖关系RDD 是计算模型的封装当需求中需要将多个计算模型进行组合时就需要将多个 RDD 建立依赖关系分区器可选当数据为 KV 类型数据时可以通过设定分区器自定义数据的分区 首选位置可选计算数据时可以根据计算节点的状态选择不同的节点位置进行计算
3. 执行原理 从计算的角度来讲数据处理过程中需要计算资源内存 CPU和计算模型逻辑。执行时需要将计算资源和计算模型进行协调和整合。 Spark 框架在执行时先申请资源然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上, 按照指定的计算模型进行数据计算。最后得到计算结果。
RDD 是 Spark 框架中用于数据处理的核心模型在 Yarn 环境中RDD的工作原理如下所示
1) 启动 Yarn 集群环境 2) Spark 通过申请资源创建调度节点和计算节点 3) Spark 框架根据需求将计算逻辑根据分区划分成不同的任务 4) 调度节点将任务根据计算节点状态发送到对应的计算节点进行计算 从以上流程可以看出 RDD 在整个流程中主要用于将逻辑进行封装并生成 Task 发送给 Executor 节点执行计算。 注其他Spark相关系列文章链接由此进 - Spark文章汇总