Apache Spark分布式计算原理
–>
Spark WordCount原理
为什么需要划分Stage
数据本地化
移动计算,而不是移动数据
保证一个Stage内不会发生数据移动
根据是否发生了数据移动判断是否划分了阶段
Spark Shuffle过程
在分区之间重新分配数据
父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中
中间结果写入磁盘
由子RDD拉取数据,而不是由父RDD推送
默认情况下,Shuffle不会改变分区数量
本文来源 互联网收集,文章内容系作者个人观点,不代表 本站 对观点赞同或支持。如需转载,请注明文章来源,如您发现有涉嫌抄袭侵权的内容,请联系本站核实处理。
© 版权声明
文章版权归作者所有,未经允许请勿转载。