`
功夫小当家
  • 浏览: 183947 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - RDD梳理

阅读更多

1.RDD是什么?

RDD源码中的五个特性:弹性的,分布式的,不可变的,支持并行化操作,可以分区的数据集

五个主要属性:

  • 1个rdd可以有多个partition
  • 如果对1个rdd作用于一个function,其实是对里面的每个split做function,1个split就是一个partition
  • rdd间是有一系列依赖的,例如:

  • (可选)对于(groupbykey)有一个Hashpartition对应于key-value类型的rdd,sortbykey对应一个range-partitioned
  • (可选)每个split都有一个优先推荐的locations list (注意这里是复数,why?)

 

2.RDD的创建方式:

  • 从已存在的集合创建,sc.parallize(集合对象,分区数)
  • 基于文件创建(本地,hdfs,s3上的文件),如果是本地文件,分布式环境执行的时候,要保证每个机器上都有这个文件

 3.spark读写文件api:

sc.textFile

sc.sequenceFile

sc.wholeTextFiles

sc.newAPIHadoop

sc.newAPIHadoopRDD

sc.hadoopRDD

rdd.saveAsObjectFile

 

4.RDD的基本操作

转换,action等

 

 

  • 大小: 4.8 KB
分享到:
评论

相关推荐

    spark-RDD的特性介绍及源码阅读必备基础

    spark-RDD的特性介绍及源码阅读必备基础

    spark-rdd-APi

    内容根据spark rdd.scala和ParRDDFunctions.scala源码中rdd顺序整理,包含rdd功能解释。对熟悉spark rdd很有用

    Spark-RDD.md

    Spark_RDD

    spark学习-RDD的实验

    spark学习-RDD的实验

    Spark学习--RDD编码

    RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。 Spark中的RDD是一...

    spark-kafka-rdd:使Kafka成为Spark平台数据源的scala库

    Spark-Kafka-RDD Spark-Kafka-RDD是一个scala库,让Kafka成为Spark平台的数据源。 请注意,Spark-Kafka-RDD 从 Kafka 主题和分区中获取给定的偏移范围作为单个 RDD ( KafkaRDD ) 返回给 Spark 驱动程序,而不是生成 ...

    spark-rdd-sample1

    spark-rdd-sample1

    大数据基本要素HDFS MapReduce-and-Spark-RDD

    大数据基本要素HDFS MapReduce-and-Spark-RDD

    过去三十年-RCT-DID-RDD-LE-ML-DSGE等方法的“高光时刻”路线图.docx

    过去三十年-RCT-DID-RDD-LE-ML-DSGE等方法的"高光时刻"路线图全文共6页,当前为第1页。过去三十年-RCT-DID-RDD-LE-ML-DSGE等方法的"高光时刻"路线图全文共6页,当前为第1页。过去三十年,RCT,DID,RDD,LE,ML,DSGE等...

    spark3.0入门到精通

    │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种模式演示.mp4 │ ...

    2-RDD-using-Stata.pdf

    2-RDD-using-Stata

    playing-with-spark-rdd:Apache Spark RDD示例

    玩火花rdd Apache Spark RDD示例示例,用于学习Spark RDD和DataSet API。

    实验七:Spark初级编程实践

    使用命令./bin/spark-shell启动spark 图2启动spark 2. Spark读取文件系统的数据 (1) 在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; 图3 spark统计行数 (2) 在spark-...

    Spark-2.3.1源码解读

    Spark-2.3.1源码解读。 Spark Core源码阅读 Spark Context 阅读要点 ...Dstream join 操作和 RDD join 操作的区别 PIDController源码赏析及 back pressure 实现思路 Streaming Context重点摘要 checkpoint 必知必会

    hbase-rdd, 从HBase读取并写入 RDD.zip

    hbase-rdd, 从HBase读取并写入 RDD ? 这个项目允许将 Apache Spark 连接到 HBase 。 现在可以在 Scala 2.10和版本 2.11上使用Spark和 CDH5.0. 版本,在版本/版本 0.2.2-SNAPSHOT 工作时使用Spark和版本

    spark-textFile构建RDD的分区及compute计算策略

    spark-textFile构建RDD的分区及compute计算策略

    Spark-Core学习知识笔记整理

    2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 ...

    sparkRDD函数大全

    spark rdd函数大全。spark rdd操作为core操作,虽然后续版本主要以dataset来操作,但是rdd操作也是不可忽略的一部分。

    spark-project-20190620.zip

    20190620自学spark,实现用java调用spark rdd api,主要侧重于lambda方式调用,本源码下载后直接可运行,因使用maven,只用前需先安装maven并保持网络正常。初次使用比较耗时,需要下载依赖包

    spark-2.2.2安装流程

    RDD:Spark的基本计算单元,一组RDD可形成执行的有向无环图RDD Graph。 DAG Scheduler:实现将Spark作业分解成一到多个Stage,每个Stage根据RDD的Partition个数决定Task的个数,然后生成相应的Task set放到Task...

Global site tag (gtag.js) - Google Analytics