`
功夫小当家
  • 浏览: 183939 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - 启动参数

阅读更多

(1)spark on yarn有两种模式

  • cluster模式:spark driver运行在nodemanager的Application Master中(申请资源,分发作业,没有master节点和worker节点的概念)
  • client模式:driver运行在客户端进程里,作用是任务的分发,资源的申请是由ApplicationMaster负责(yarn负责)

(2)选用yarn的模式

  • --deploy-mode client (默认是client)
  • --deploy-mode cluster

 

(3)--jars引入依赖包

  • --jars 把依赖包加入到executor和driver的classpath中
  • spark.executor.extraClassPath (加载executor端)
  • spark.driver.extraClassPath (加载driver端)

    如果报错找不到jar包,两个参数都指定一下(executor和driver端)

 

(4)属性文件

  • --properties-file (指定自定义的属性文件)
  • --conf (也可以指定属性文件,优先级高于spark-default.conf文件里的配置) 

    使用场景:按实际的业务划分,例如(day_task.conf 是天任务的配置文件 )

    ./park-shell --properties-file day_task.conf

 

(5)spark.port.maxRetries,在默认的端口号基础上最大的尝试次数,port+max,

    例如:

        spark.port.maxRetries=3 (自定义)     spark.ui.port=4040 (默认值)

       那么可以同时启动4040, 4041, 4042, 4043四个端口

 

       整个参数可以通过 --conf spark.port.maxRetries=3在启动时候指定参数 或者在sparkdefault.conf中添加    

       spark.port.maxRetries  3  指定

 

(6)--conf 也可以指定自定义的参数(自定义参数必须以spark开头,可以从SparkSubmitArgumnts类去找)

    例如:./spark-shell --conf spark.a=b

 

 (7)查看spark-shell内容,底层就是调用spark-submit脚本

"${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"

 

    ./spark-shell  --master yarn 默认的--num-executor=2,使用spark-shell --help 查看说明(从web ui的executors     

    tab页上也可以看到)

 --num-executors NUM         Number of executors to launch (Default: 2).
                              If dynamic allocation is enabled, the initial number of
                              executors will be at least NUM.

 

 

     通过键jps -m查看(测试机只有一个节点,单机版的spark,启动后进程都在同一个机器上)

15152 SparkSubmit --master yarn --class org.apache.spark.repl.Main --name Spark shell spark-shell

16016 CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@hdp1:33787 --executor-id 1 --hostname hdp1 --cores 1 --app-id application_1521530325972_0037 --user-class-path file:/DATA/sdb/mnt/hdfs-tmp-dir/nm-local-dir/usercache/hadoop/appcache/application_1521530325972_0037/container_1521530325972_0037_01_000002/__app__.jar

16417 CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@hdp1:33787 --executor-id 2 --hostname hdp1 --cores 1 --app-id application_1521530325972_0037 --user-class-path file:/DATA/sdb/mnt/hdfs-tmp-dir/nm-local-dir/usercache/hadoop/appcache/application_1521530325972_0037/container_1521530325972_0037_01_000003/__app__.jar

 

分享到:
评论

相关推荐

    spark-scala-maven-boilerplate-project:这是一个 Scala 项目的骨架,用 maven 开始使用 Spark

    要启动 Spark 作业,请在配置了 Spark 环境的 shell 中使用以下命令: spark-submit --class com.examples.MainExample \ --master yarn-cluster \ spark-scala-maven-project-0.0.1-SNAPSHOT-jar-with-...

    spark-make:分布式 Makefile 的 Spark 实现

    spark 1.1.1:使用./get-spark.sh安装 pcserveur.ensimag.fr集中 # ./smake --compile #发射 使用smake编译运行。 bench.sh仅用于性能测试,不应用于启动应用程序。 #脚本 smake : 不带参数调用以查看用法典型...

    Scala基础(12)Spark命令参数及独立应用程序

    这个参数表示当前Spark Shell要连接到哪个master,如果是local[*],就是使用本地模式启动spark-shell,其中中括号内的型号表示需要使用几个CPU核心(core),也就是启动几个线程模拟spark集群。 –jars 这个参数用于...

    scala-spark-clustering:使用Spark框架实现聚类算法的Scala实现

    Spark聚类算法 使用 Spark 框架在 Scala 中实现和聚类算法。 算法仅处理二维( x和y )数据。 DBSCAN 程序参数: <...在集群上启动时,请参阅。 为了在本地机器上运行,请使用-Dspark.master=local VM 选项。

    java8看不到源码-docker-apache-spark:docker-apache-spark

    从站可以通过以下方式启动: docker run --rm -it -e "SPARK_ROLE=slave" birgerk/apache-spark 配置 为了让你的主人和奴隶互相交谈,你只需要设置环境变量SPARK_MASTER 。 大多数 Spark 配置参数都可以通过简单的...

    BFS-using-Spark:并行和顺序BFS的比较

    使用Spark进行广度优先搜索致谢BFS算法和数据集的顺序版本摘自所著的介绍使用Spark进行无向图处理的并行广度优先搜索算法安装要求: JDK 7 , Maven , Spark 在service.properties文件中配置服务参数。 ####使用IDE...

    hadoop2.2.0部署

    4.4 配置spark的启动参数 21 4.5 启动并验证spark是否配置 21 5 搭建zookeeper集群 23 5.1 下载解压 23 5.2 参数配置 23 5.2.1 23 5.2.2 23 5.2.3 24 5.2.4 24 5.2.5 24 5.2.6 启动验证 24 6 KAFKA安装 25 6.1 下载 ...

    Spark 3.0.0 Application 提交集群原理和源码详解

    Spark 3.0.0 Application 提交给集群的原理和源码详解,内容包括Spark Application 到底是如何提交给集群的:Application 提交参数配置详解、Application 提交给集群原理详解、Application 提交给集群源码详解;...

    大数据面试之——Spark

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 1.Spark有几种部署模式,各个模式的特点 1.本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。方便调试,本地模式分三...

    逸雨清风读秀批量下载 V2.4.5

    5、完成后选择合成PDF直接点开始转换(转换参数已经设置好 如果想按照自己意愿修改可选择参数设置)。 批量下载软件注意事项: 1、如果程序启动不成功,打开任务管理器的进程结束“逸雨清风读秀”进程后重新打开。 ...

    Big Whale任务调度系统-其他

    5、修改:$FLINK_HOME/bin/flink,参考:flink(因flink提交任务时只能读取本地jar包,故需要在执行提交命令时从hdfs上下载jar包并替换脚本中的jar包路径参数) 6、打包:mvn clean package 启动: 1、检查端口17070...

    基于SQL的

    基于SQL的ETL和EKS上的Spark 这是一个解决方案的项目-基于SQL的ETL,具有由Apache Spark支持的声明性框架。 我们通过利用开源为以用户为中心的声明性ETL解决方案,引入了质量感知设计,以提高数据处理效率。 此外,...

    03开源NewSql数据库TiDB-Deep Dive into TiDB

    TiSpark 1.0 版本组件提供了针对 TiDB 上的数据使用 Apache Spark 进行分布式计算的能力。更新包括: 1.提供了针对 TiKV 读取的 gRPC 通信框架 2.提供了对 TiKV 组件数据的和通信协议部分的编码解码 3.提供了计算...

    JProfiler11破解.rar

    使用-agentpath VM参数中的“id”或“config”选项现在会自动激活“立即启动”模式 添加了JPROFILER_AGENT_OPTIONS环境变量,以允许在无法修改“-agentpath”VM参数的情况下为代理设置调试参数 触发堆转储”操作:...

    Linkis-其他

    用户可以配置引擎的启动参数 用户可以设置变量 2. 支持标签功能 支持给EngineManager打标签 启动引擎时,支持为引擎打标签 支持通过标签访问目标引擎 3. AppGovernance应用治理实现 系统级、用户级应用全生命周期...

    voluseg:体积细胞分割的管道

    nibabel,numpy> = 1.13,pandas> = 0.2,scipy,scikit-image,scikit-learn安装使用pip进行安装: pip install git+https://github.com/mikarubi/voluseg.git用法示例下载示例数据集文件夹: 使用Spark启动IPython...

    flex fusionchart 破解

    首先环境:Myeclipse+Flex4.5+FusionCharts 至于FusionCharts的相关文件稍后我将放在附件中。 1.新建flex工程: 2.对工程进行相应配置 3.继续配置: ...8.部署项目到服务器上,然后启动服务器。

    云数据库方案设计(1).doc

    CPU变化时,主要影响数据库的并发连接数和并行参数,在金仓云数据库中,并发连 接数和并行参数可以动态调整。 内存发生变化时,数据库的共享内存,排序内存等内存分配支持动态调整,动态扩 展。 磁盘发生变化时,...

    云数据库方案设计.doc

    CPU变化时,主要影响数据库的并发连接数和并行参数,在金仓云数据库中,并发连 接数和并行参数可以动态调整。 内存发生变化时,数据库的共享内存,排序内存等内存分配支持动态调整,动态扩展 。 磁盘发生变化时,...

    云数据库方案设计.docx

    CPU变化时,主要影响数据库的并发连接数和并行参数,在金仓云数据库中,并发连接数和并行参数可以动态调整。 云数据库方案设计全文共6页,当前为第2页。内存发生变化时,数据库的共享内存,排序内存等内存分配支持...

Global site tag (gtag.js) - Google Analytics