永发信息网

Spark RDD到底是个什么东西

答案:2  悬赏:0  手机版
解决时间 2021-04-12 05:12
  • 提问者网友:却不属于对方
  • 2021-04-11 13:39
Spark RDD到底是个什么东西
最佳答案
  • 五星知识达人网友:神也偏爱
  • 2021-04-11 14:15
Spark RDD的英文是Resilient Distributed Datasets,即弹性分布式数据集。通俗一点讲,Spark是做大数据处理的,RDD是其中极为重要的数据抽象,海量数据会被拆分为多个分片放在不同的集群节点上,RDD就是这些分布式数据的集合。在Spark Scala中, RDD就是一个类,每个RDD的实例表示一个具体的分布式数据集合。详见:https://vimsky.com/article/285.html#resilient-distributed-datasets-rdds
全部回答
  • 1楼网友:平生事
  • 2021-04-11 14:55
为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了RDDs的概念。当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是RDDs的提出的动机。如果能将数据保存在内存中,将会使的上面两种场景的性能提高一个数量级。为了能达到高效的容错,RDDs提供了一种受限制的共享内存的方式,这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状态。然而,我们分析表明RDDs可以表达出很多种类的计算,包括目前专门从事迭代任务的编程计算模型,比如Pregel,当然也可以表达出目前模型表达不出的计算
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯