(1)spark on yarn有两种模式
- cluster模式:spark driver运行在nodemanager的Application Master中(申请资源,分发作业,没有master节点和worker节点的概念)
- client模式:driver运行在客户端进程里,作用是任务的分发,资源的申请是由ApplicationMaster负责(yarn负责)
(2)选用yarn的模式
- --deploy-mode client (默认是client)
- --deploy-mode cluster
(3)--jars引入依赖包
- --jars 把依赖包加入到executor和driver的classpath中
- spark.executor.extraClassPath (加载executor端)
- spark.driver.extraClassPath (加载driver端)
如果报错找不到jar包,两个参数都指定一下(executor和driver端)
(4)属性文件
- --properties-file (指定自定义的属性文件)
- --conf (也可以指定属性文件,优先级高于spark-default.conf文件里的配置)
使用场景:按实际的业务划分,例如(day_task.conf 是天任务的配置文件 )
./park-shell --properties-file day_task.conf
(5)spark.port.maxRetries,在默认的端口号基础上最大的尝试次数,port+max,
例如:
spark.port.maxRetries=3 (自定义) spark.ui.port=4040 (默认值)
那么可以同时启动4040, 4041, 4042, 4043四个端口
整个参数可以通过 --conf spark.port.maxRetries=3在启动时候指定参数 或者在sparkdefault.conf中添加
spark.port.maxRetries 3 指定
(6)--conf 也可以指定自定义的参数(自定义参数必须以spark开头,可以从SparkSubmitArgumnts类去找)
例如:./spark-shell --conf spark.a=b
(7)查看spark-shell内容,底层就是调用spark-submit脚本
"${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"
./spark-shell --master yarn 默认的--num-executor=2,使用spark-shell --help 查看说明(从web ui的executors
tab页上也可以看到)
--num-executors NUM Number of executors to launch (Default: 2). If dynamic allocation is enabled, the initial number of executors will be at least NUM.
通过键jps -m查看(测试机只有一个节点,单机版的spark,启动后进程都在同一个机器上)
15152 SparkSubmit --master yarn --class org.apache.spark.repl.Main --name Spark shell spark-shell 16016 CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@hdp1:33787 --executor-id 1 --hostname hdp1 --cores 1 --app-id application_1521530325972_0037 --user-class-path file:/DATA/sdb/mnt/hdfs-tmp-dir/nm-local-dir/usercache/hadoop/appcache/application_1521530325972_0037/container_1521530325972_0037_01_000002/__app__.jar 16417 CoarseGrainedExecutorBackend --driver-url spark://CoarseGrainedScheduler@hdp1:33787 --executor-id 2 --hostname hdp1 --cores 1 --app-id application_1521530325972_0037 --user-class-path file:/DATA/sdb/mnt/hdfs-tmp-dir/nm-local-dir/usercache/hadoop/appcache/application_1521530325972_0037/container_1521530325972_0037_01_000003/__app__.jar
相关推荐
要启动 Spark 作业,请在配置了 Spark 环境的 shell 中使用以下命令: spark-submit --class com.examples.MainExample \ --master yarn-cluster \ spark-scala-maven-project-0.0.1-SNAPSHOT-jar-with-...
spark 1.1.1:使用./get-spark.sh安装 pcserveur.ensimag.fr集中 # ./smake --compile #发射 使用smake编译运行。 bench.sh仅用于性能测试,不应用于启动应用程序。 #脚本 smake : 不带参数调用以查看用法典型...
这个参数表示当前Spark Shell要连接到哪个master,如果是local[*],就是使用本地模式启动spark-shell,其中中括号内的型号表示需要使用几个CPU核心(core),也就是启动几个线程模拟spark集群。 –jars 这个参数用于...
Spark聚类算法 使用 Spark 框架在 Scala 中实现和聚类算法。 算法仅处理二维( x和y )数据。 DBSCAN 程序参数: <...在集群上启动时,请参阅。 为了在本地机器上运行,请使用-Dspark.master=local VM 选项。
从站可以通过以下方式启动: docker run --rm -it -e "SPARK_ROLE=slave" birgerk/apache-spark 配置 为了让你的主人和奴隶互相交谈,你只需要设置环境变量SPARK_MASTER 。 大多数 Spark 配置参数都可以通过简单的...
使用Spark进行广度优先搜索致谢BFS算法和数据集的顺序版本摘自所著的介绍使用Spark进行无向图处理的并行广度优先搜索算法安装要求: JDK 7 , Maven , Spark 在service.properties文件中配置服务参数。 ####使用IDE...
4.4 配置spark的启动参数 21 4.5 启动并验证spark是否配置 21 5 搭建zookeeper集群 23 5.1 下载解压 23 5.2 参数配置 23 5.2.1 23 5.2.2 23 5.2.3 24 5.2.4 24 5.2.5 24 5.2.6 启动验证 24 6 KAFKA安装 25 6.1 下载 ...
Spark 3.0.0 Application 提交给集群的原理和源码详解,内容包括Spark Application 到底是如何提交给集群的:Application 提交参数配置详解、Application 提交给集群原理详解、Application 提交给集群源码详解;...
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 1.Spark有几种部署模式,各个模式的特点 1.本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。方便调试,本地模式分三...
5、完成后选择合成PDF直接点开始转换(转换参数已经设置好 如果想按照自己意愿修改可选择参数设置)。 批量下载软件注意事项: 1、如果程序启动不成功,打开任务管理器的进程结束“逸雨清风读秀”进程后重新打开。 ...
5、修改:$FLINK_HOME/bin/flink,参考:flink(因flink提交任务时只能读取本地jar包,故需要在执行提交命令时从hdfs上下载jar包并替换脚本中的jar包路径参数) 6、打包:mvn clean package 启动: 1、检查端口17070...
基于SQL的ETL和EKS上的Spark 这是一个解决方案的项目-基于SQL的ETL,具有由Apache Spark支持的声明性框架。 我们通过利用开源为以用户为中心的声明性ETL解决方案,引入了质量感知设计,以提高数据处理效率。 此外,...
TiSpark 1.0 版本组件提供了针对 TiDB 上的数据使用 Apache Spark 进行分布式计算的能力。更新包括: 1.提供了针对 TiKV 读取的 gRPC 通信框架 2.提供了对 TiKV 组件数据的和通信协议部分的编码解码 3.提供了计算...
使用-agentpath VM参数中的“id”或“config”选项现在会自动激活“立即启动”模式 添加了JPROFILER_AGENT_OPTIONS环境变量,以允许在无法修改“-agentpath”VM参数的情况下为代理设置调试参数 触发堆转储”操作:...
用户可以配置引擎的启动参数 用户可以设置变量 2. 支持标签功能 支持给EngineManager打标签 启动引擎时,支持为引擎打标签 支持通过标签访问目标引擎 3. AppGovernance应用治理实现 系统级、用户级应用全生命周期...
nibabel,numpy> = 1.13,pandas> = 0.2,scipy,scikit-image,scikit-learn安装使用pip进行安装: pip install git+https://github.com/mikarubi/voluseg.git用法示例下载示例数据集文件夹: 使用Spark启动IPython...
首先环境:Myeclipse+Flex4.5+FusionCharts 至于FusionCharts的相关文件稍后我将放在附件中。 1.新建flex工程: 2.对工程进行相应配置 3.继续配置: ...8.部署项目到服务器上,然后启动服务器。
CPU变化时,主要影响数据库的并发连接数和并行参数,在金仓云数据库中,并发连 接数和并行参数可以动态调整。 内存发生变化时,数据库的共享内存,排序内存等内存分配支持动态调整,动态扩 展。 磁盘发生变化时,...
CPU变化时,主要影响数据库的并发连接数和并行参数,在金仓云数据库中,并发连 接数和并行参数可以动态调整。 内存发生变化时,数据库的共享内存,排序内存等内存分配支持动态调整,动态扩展 。 磁盘发生变化时,...
CPU变化时,主要影响数据库的并发连接数和并行参数,在金仓云数据库中,并发连接数和并行参数可以动态调整。 云数据库方案设计全文共6页,当前为第2页。内存发生变化时,数据库的共享内存,排序内存等内存分配支持...