spark - 启动参数 -

功夫小当家

浏览: 183939 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

spark - 启动参数

博客分类：

spark

spark 启动参数

（1）spark on yarn有两种模式

cluster模式：spark driver运行在nodemanager的Application Master中（申请资源，分发作业，没有master节点和worker节点的概念）
client模式：driver运行在客户端进程里，作用是任务的分发，资源的申请是由ApplicationMaster负责(yarn负责）

（2）选用yarn的模式

--deploy-mode client (默认是client)
--deploy-mode cluster

（3）--jars引入依赖包

--jars 把依赖包加入到executor和driver的classpath中
spark.executor.extraClassPath （加载executor端）
spark.driver.extraClassPath （加载driver端）

如果报错找不到jar包，两个参数都指定一下（executor和driver端）

（4）属性文件

--properties-file （指定自定义的属性文件）
--conf （也可以指定属性文件，优先级高于spark-default.conf文件里的配置）

使用场景：按实际的业务划分，例如(day_task.conf 是天任务的配置文件 )

./park-shell --properties-file day_task.conf

（5）spark.port.maxRetries，在默认的端口号基础上最大的尝试次数，port＋max，

例如：

spark.port.maxRetries＝3 （自定义） spark.ui.port=4040 (默认值)

那么可以同时启动4040， 4041， 4042， 4043四个端口

整个参数可以通过 --conf spark.port.maxRetries=3在启动时候指定参数或者在sparkdefault.conf中添加

spark.port.maxRetries 3 指定

（6）--conf 也可以指定自定义的参数（自定义参数必须以spark开头，可以从SparkSubmitArgumnts类去找）

例如：./spark-shell --conf spark.a=b

（7）查看spark-shell内容，底层就是调用spark-submit脚本

"${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"

./spark-shell --master yarn 默认的--num-executor=2,使用spark-shell --help 查看说明（从web ui的executors

tab页上也可以看到）

 --num-executors NUM         Number of executors to launch (Default: 2).
                              If dynamic allocation is enabled, the initial number of
                              executors will be at least NUM.

通过键jps -m查看(测试机只有一个节点，单机版的spark，启动后进程都在同一个机器上)

15152 SparkSubmit --master yarn --class org.apache.spark.repl.Main --name Spark shell spark-shell

16016 CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@hdp1:33787 --executor-id 1 --hostname hdp1 --cores 1 --app-id application_1521530325972_0037 --user-class-path file:/DATA/sdb/mnt/hdfs-tmp-dir/nm-local-dir/usercache/hadoop/appcache/application_1521530325972_0037/container_1521530325972_0037_01_000002/__app__.jar

16417 CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@hdp1:33787 --executor-id 2 --hostname hdp1 --cores 1 --app-id application_1521530325972_0037 --user-class-path file:/DATA/sdb/mnt/hdfs-tmp-dir/nm-local-dir/usercache/hadoop/appcache/application_1521530325972_0037/container_1521530325972_0037_01_000003/__app__.jar

分享到：

spark - History Server配置 | hadoop1.x 和 hadoop2.x的对比

2018-03-25 21:56
浏览 3074
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - 启动参数

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - 启动参数

评论

发表评论

相关推荐

spark - spark streaming

spark - 分区自动探测

spark -外部数据源

spark - DataFrame Api 练习

spark - RDD转成DataFrame

spark - Spark-sql， DataFrame，DataSet名词解释

spark - 性能优化指南(基础篇)

spark - sql开启thriftServer服务

spark kryo序列化

spark－rdd代码demo

spark - History Server配置

spark - 核心概念

spark - 宽依赖和窄依赖

spark- RDD广播变量和计数器

spark - RDD持久化

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

spark - 部署和安装

spark - RDD梳理

最近访客更多访客>>