spark - RDD梳理 - - ITeye博客

`

功夫小当家

浏览: 183947 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

一碗单炒饭：正需要，谢谢
清除eclipse中 Launch configuration的历史记录
heweina2007：非常有用。谢谢！
清除eclipse中 Launch configuration的历史记录
功夫小当家：这个也不好用了吗？之前这个办法，我这里可以解决，那你现在的办法 ...
INSTALL_FAILED_UID_CHANGED解决办法
ziyue137：设置----->安全----->未知来源，这个没有 ...
INSTALL_FAILED_UID_CHANGED解决办法
zfc645486908：您好，感谢你写这篇技术文章，对我帮助很大，刚好用到，但是我需要 ...
Android中如何把bitmap存成BMP格式的图片

spark - RDD梳理

博客分类：

spark

阅读更多

1.RDD是什么？

RDD源码中的五个特性：弹性的，分布式的，不可变的，支持并行化操作，可以分区的数据集

五个主要属性：

1个rdd可以有多个partition
如果对1个rdd作用于一个function，其实是对里面的每个split做function，1个split就是一个partition
rdd间是有一系列依赖的，例如：

（可选）对于（groupbykey）有一个Hashpartition对应于key-value类型的rdd，sortbykey对应一个range-partitioned
（可选）每个split都有一个优先推荐的locations list （注意这里是复数，why？）

2.RDD的创建方式：

从已存在的集合创建，sc.parallize(集合对象，分区数)
基于文件创建（本地，hdfs，s3上的文件），如果是本地文件，分布式环境执行的时候，要保证每个机器上都有这个文件

3.spark读写文件api：

sc.textFile

sc.sequenceFile

sc.wholeTextFiles

sc.newAPIHadoop

sc.newAPIHadoopRDD

sc.hadoopRDD

rdd.saveAsObjectFile

4.RDD的基本操作

转换，action等

查看图片附件

分享到：

spark - 部署和安装 | lzo + hive1.x测试

2018-03-19 20:24
浏览 870
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-RDD的特性介绍及源码阅读必备基础: spark-RDD的特性介绍及源码阅读必备基础

spark-rdd-APi: 内容根据spark rdd.scala和ParRDDFunctions.scala源码中rdd顺序整理，包含rdd功能解释。对熟悉spark rdd很有用

Spark-RDD.md: Spark_RDD

spark学习-RDD的实验: spark学习-RDD的实验

Spark学习--RDD编码: RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时，会自动将RDD中的数据分发到集群，并将操作并行化执行。 Spark中的RDD是一...

spark-kafka-rdd:使Kafka成为Spark平台数据源的scala库: Spark-Kafka-RDD Spark-Kafka-RDD是一个scala库，让Kafka成为Spark平台的数据源。请注意，Spark-Kafka-RDD 从 Kafka 主题和分区中获取给定的偏移范围作为单个 RDD ( KafkaRDD ) 返回给 Spark 驱动程序，而不是生成 ...

spark-rdd-sample1: spark-rdd-sample1

大数据基本要素HDFS MapReduce-and-Spark-RDD: 大数据基本要素HDFS MapReduce-and-Spark-RDD

过去三十年-RCT-DID-RDD-LE-ML-DSGE等方法的“高光时刻”路线图.docx: 过去三十年-RCT-DID-RDD-LE-ML-DSGE等方法的"高光时刻"路线图全文共6页，当前为第1页。过去三十年-RCT-DID-RDD-LE-ML-DSGE等方法的"高光时刻"路线图全文共6页，当前为第1页。过去三十年,RCT,DID,RDD,LE,ML,DSGE等...

spark3.0入门到精通: │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种模式演示.mp4 │ ...

2－RDD－using－Stata.pdf: 2－RDD－using－Stata

playing-with-spark-rdd:Apache Spark RDD示例: 玩火花rdd Apache Spark RDD示例示例，用于学习Spark RDD和DataSet API。

实验七：Spark初级编程实践: 使用命令./bin/spark-shell启动spark 图2启动spark 2. Spark读取文件系统的数据（1）在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；图3 spark统计行数（2）在spark-...

Spark-2.3.1源码解读: Spark-2.3.1源码解读。 Spark Core源码阅读 Spark Context 阅读要点 ...Dstream join 操作和 RDD join 操作的区别 PIDController源码赏析及 back pressure 实现思路 Streaming Context重点摘要 checkpoint 必知必会

hbase-rdd, 从HBase读取并写入 RDD.zip: hbase-rdd, 从HBase读取并写入 RDD ？这个项目允许将 Apache Spark 连接到 HBase 。现在可以在 Scala 2.10和版本 2.11上使用Spark和 CDH5.0. 版本，在版本/版本 0.2.2-SNAPSHOT 工作时使用Spark和版本

spark-textFile构建RDD的分区及compute计算策略: spark-textFile构建RDD的分区及compute计算策略

Spark-Core学习知识笔记整理: 2.6Hive-on-Spark配置 13 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 ...

sparkRDD函数大全: spark rdd函数大全。spark rdd操作为core操作，虽然后续版本主要以dataset来操作，但是rdd操作也是不可忽略的一部分。

spark-project-20190620.zip: 20190620自学spark，实现用java调用spark rdd api，主要侧重于lambda方式调用，本源码下载后直接可运行，因使用maven，只用前需先安装maven并保持网络正常。初次使用比较耗时，需要下载依赖包

spark-2.2.2安装流程: RDD：Spark的基本计算单元，一组RDD可形成执行的有向无环图RDD Graph。 DAG Scheduler：实现将Spark作业分解成一到多个Stage，每个Stage根据RDD的Partition个数决定Task的个数，然后生成相应的Task set放到Task...

Global site tag (gtag.js) - Google Analytics