(1)名词解释:
概念 |
解释 |
Application |
用户基于spark构建的应用程序,在集群上运行时,包含一个driver和多个executor Driver |
Driver program | 一个进程,执行Application的main方法,并创建SparkContext |
Cluster program |
1个额外的服务,用来申请集群的资源(standlone manager,Messos,yarn), 通过--master参数动态指定 |
Deploy mode |
辨别driver进程启动在哪里?
|
Worker node |
进群上任何可以运行application代码的节点
|
Executor | 在worker节点上启动的一个进程,它能够运行tasks(1个executor可运行多个task),存储数据;每个application有自己的独立的executor,不同的application之间的executor是独立的 |
Task | 作业发到executor上执行的一个工作单元 |
Job | 1个spark action就是一个spark job,1个job由多个task组成 |
Stage |
每个job被划分为多个tasks的集合,这个集合就叫stage,stage之间互相依赖(类似于MapReduce中的map 和 reduce阶段) |
(2)对应关系:
1个job = n个stages = n个tasks = 1个action
(3)总结:
- 1个application由1个driver进程+多个executor进程组成
- driver是一个进程,运行main方法,并创建SparkConext
- executor也是一个进程用来处理tasks,存储数据,每个application的有自己的executors
- task是发送到executor上的一个最小的工作单元
- 1个job对应1个action,1个job会产生多个stage,1个stage对应多个task,提交的时候是以stage为单位根据satge id从后往前进行提交,就是把stage中所有的tasks发送到executor上去执行
- 如果是standlone模式,executor运行在worker上,如果是yarn模式,executor运行在nodemanager的container上,提交时可以通过 --master 和 --deploy-mode 指定运行模式和以及使用客户端还是集群
- spark applications是一组独立的进程的集合,通过运行在driver中的sparkconext协调,跨spark应用程序之间数据数不共享的,除非使用第三方存储系统(hdfs,s3,alluxio等)
相关推荐
001 - Spark框架 - 简介.avi 002 - Spark框架 - Vs Hadoop.avi 003 - Spark框架 - 核心模块 - 介绍.avi 005 - Spark框架 - ...020 - Spark框架 - 核心概念 - Executor & Core & 并行度.avi 023 - SparkCore - 分布式
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
本项目是基于Scala的spark-study学习项目设计源码,包含27个文件,...项目旨在为学习Spark提供一个实践平台,通过Scala编程语言和Spark框架,实现数据处理、机器学习等功能,帮助开发者掌握Spark的核心概念和编程技巧。
该教程高清易读,涉猎spark原生语言scala,简练有效,便于快速入门
《Spark大数据分析核心概念技术及实践 》 Spark 大数据分析:核心慨念、技术及实践/(美)攫罕默德·古勒( Mohammed Gull er) 著;赵斌,马景,陈冠诚译 https://pan.baidu.com/s/1cdwG1HFa3uYcoJBD4UxPqg 密码请...
day01_spark核心概念.pdf
Spark大数据分析:核心概念技术及实践
资源名称:Spark大数据分析核心概念技术及实践内容简介:本书是大数据和Spark方面的一本简明易懂的手册。它将祝你学习如何用Spark来完成很多大数据分析人物。它覆盖了高效利用spark所需要的一切内容。作者首先介绍...
Spark大数据分析核心概念技术及实践OCR。 如何用spark来完成大数据分析人物。
Spark大数据分析核心概念技术及实践,深度讲解使用spark技术对大数据进行分析,并给出实践案例
通过学习Spark,我了解了其基本概念和核心组件,如RDD(弹性分布式数据集)、Spark SQL、Spark Streaming和MLlib等。我学会了使用Spark编写分布式的数据处理程序,并通过调优技巧提高了程序的性能。在实践过程中,我...
不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了开源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,...
Spark下载 Spark的Shells Spark的核心概念
了解RDD,DataFrame,转换等核心概念 设置Spark开发环境 选择适合您的应用程序的API 了解Spark的架构和Spark应用程序的执行流程 探索用于SQL,流,ML和图分析的内置模块 优化您的Spark作业以获得更好的性能 如果您...
Spark核心概念简介: Spark使用maven进行打包(减少jar包大小): Spark中的(弹性分布式数据集)简称RDD: Spark中的Transformation操作之Value数据类型的算子: Spark中的Transformation操作之Key-Value数据类型的算子: ...
Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问题的,它能最大化的解决分布式问题,简化各种算子的复杂度,并提供高性能的...
Spark的核心思想是通过一种可并行操作且有容错机制的弹性分布式数据集RDD(Resilient Distributed Dataset)以减少磁盘以及网络IO开销。RDD是一个能并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并能...
Spark简介:介绍Spark的起源、核心概念、架构以及与其他大数据处理框架(如Hadoop MapReduce)的比较。 Scala语言基础:由于Spark最初是使用Scala开发的,本书将详细介绍Scala的基础知识,包括语法、数据类型、控制...
第7章 Spark Streaming核心概念与编程 第8章 Spark Streaming进阶与案例实战 第9章 Spark Streaming整合Flume 第10章 Spark Streaming整合Kafka 第11章 Spark Streaming整合Flume&Kafka;打造通用流处理基础 第12章 ...