`
功夫小当家
  • 浏览: 183945 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - RDD持久化

阅读更多

1.RDD的cache和persist

  • cache:存储级别是MEMORY_ONLY的, 是个transformation,是lazy的,只有触发了action,才会真正执行(spark sql中的cache是立刻执行的)
  • persist:可以指定存储级别
  • spark使用lru算法移除过期的cache数据,用户也可以手动取消序列化:unpersist(立即执行,不是lazy的)

2.存储级别StorageLevel

(1)存储级别有哪些?


 

(2) 如何选择存储级别

存储方式 描述 资源占用 适用场景
MEMORY_ONLY 内存,反序列化 内存占用大 内存资源充足(默认推荐)
MEMORY_ONLY_SER 内存,序列化 节省内存,单耗费cpu 内存资源不充足
磁盘 溢写到磁盘 占磁盘,速度慢 内存放不下(不推荐)

 

官网的描述:



 

 

 

  • 大小: 7.8 KB
  • 大小: 20 KB
  • 大小: 49.4 KB
分享到:
评论

相关推荐

    spark Core RDD持久化详解

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点...

    spark3.0入门到精通

    ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 ...│ 10-[掌握]-RDD的缓存-持久化.mp4 │ 15-[了解]-外部数据源-操作JDBC-读.mp4

    Spark-Core学习知识笔记整理

    2.6RDD持久化操作 21 2.7注意事项 23 2.7并行度调优 24 2.8分区方式 25 3Examle:PageRank 27 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4...

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移 下一步 Spark Streaming...

    spark官方文档中文版

    Spark 应用程序都由一个驱动程序(driver programe)构成,驱动程序在集群上运行用户...用户可以要求 Spark 将 RDD 持久化(persist)到内存中,来让它在并行计算中 高效地重用。最后,RDDs 能在节点失败中自动地恢复过来。

    Spark学习笔记—Spark计算模型

    一.弹性分布式数据集-RDD RDD是Spark核心数据结构...从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize

    Spark 编程指南简体中文版-102116341

    引入Spark初始化 Spark并行集合外部数据集RDD持久化共享变量从这里开始一个快速的例子基本概念关联初始化StreamingContext离散流输入DSt

    spark面试题整理.pdf

    Apache Spark是一个快速、通用、可扩展的大数据分析平台。以下是60个与Apache Spark相关的面试问题,从...14. Spark的持久化(Persistence)或缓存(Caching)有哪些级别? 15. 解释Spark的任务调度。 16. Spark Streaming

    Spark从入门到精通

    DataFrame与RDD的两种转换方式,Spark SQL的内置函数、开窗函数、UDF、UDAF,Spark Streaming的Kafka Direct API、updateStateByKey、transform、滑动窗口、foreachRDD性能优化、与Spark SQL整合使用、持久化、...

    大数据Spark面试题汇总

    11. Spark 为什么要持久化,一般什么场景下要进行 persist 操作? 12. 介绍一下 join 操作优化经验? 13. 描述 Yarn 执行一个任务的过程? 14. Spark on Yarn 模式有哪些优点? 15. 谈谈你对 container 的理解? 16....

    Spark分布式内存计算框架视频教程

    4.RDD 持久化 5.案例:SogouQ日志分析 6.RDD Checkpoint 7.外部数据源(HBase和MySQL) 8.广播变量和累加器 9.Spark 内核调度 10.Spark 并行度 第三章、SparkSQL 模块 1.快速入门:词频统计 2.SparkSQL 概述 3....

    Spark学习笔记三

    Spark 共享变量——累加器(accumulator)与广播变量(broadcast variable) 广播变量 累加器 RDD持久化 Spark中的checkpoint作用与用法 Spark的运行模式 任务提交 宽赖窄依赖 Spark任务调度

    百度地图毕业设计源码-Spark:调优笔记

    1、持久化RDD 2、使用fastutil类集 4、减少网络传输 1、广播变量 2、kryo序列化 3、shuffle的map端调优 5、优化等待时间 1、调节数据调度等待时间 6、减少GC 1、堆内存调优 2、堆外内存调优 3、kryo序列化 4、广播...

    flambo, 面向 Apache Spark的Clojure DSL.zip

    flambo, 面向 Apache Spark的Clojure DSL FlamboFlambo是用于 Apache Spark的Clojure DSL 。内容概述支持的Spark版本安装工具使用情况正在初始化 flambo弹性分布数据集RDD操作系统RDD持久独立应用

    价值上万的视频教程互联网程序开发+大数据+Hadoop、hive、Spark

    lg大数据高薪训练营 HBase、 Java9 、Java10 、MySQL优化 、JVM...· 持久化&检查点机制 · DAG · 算子详解 · RDD编程进阶 · 累加器&广播变量 Spark SQL · SparkSQL · DataFrame · DataSet · 自定义

    数据优化分析(png图片)

    spark性能分析 对spark的总结 分配更多资源 调节任务并行度 对公用的RDD进行持久化 广播大变量 使用Kryo序列化...

    大数据高频面试题.pdf

    5) Checkpoint和Persist可主动或被动触发 RDD可以通过Persist持久化将RDD缓存到内存或者磁盘,当再次⽤到该RDD时直接读取就⾏。也可以将RDD进⾏检查点,检查点会将数据 存储在HDFS中,该RDD的所有⽗RDD依赖都会被...

    一文理清ApacheSpark内存管理脉络

    负责创建Spark上下文,提交Spark作业(Job),并将作业转化为计算任务(Task),在各个Executor进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给Driver,同时为需要持久化的RDD提供存储...

Global site tag (gtag.js) - Google Analytics