Apache Spark分布式计算原理

–>

Spark WordCount原理

为什么需要划分Stage

数据本地化
移动计算,而不是移动数据
保证一个Stage内不会发生数据移动
根据是否发生了数据移动判断是否划分了阶段

Spark Shuffle过程

在分区之间重新分配数据
父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中
中间结果写入磁盘
由子RDD拉取数据,而不是由父RDD推送
默认情况下,Shuffle不会改变分区数量

本文来源 互联网收集,文章内容系作者个人观点,不代表 本站 对观点赞同或支持。如需转载,请注明文章来源,如您发现有涉嫌抄袭侵权的内容,请联系本站核实处理。

© 版权声明

相关文章