`
功夫小当家
  • 浏览: 183711 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
1.spark web ui web ui(4040端口)也看的stages tab页面,展示job的运行情况,调优的时候需要跟进这个页面的去分析 但是 web ui 在job跑完或者sc.stop 之后,4040页面会关闭,无法访问 在spark的官网More ->  Moniting页面(http://spark.apache.org/docs/latest/monitoring.html)有介绍History Server可以解决上面的问题     2.History Server参数配置 (1)spark-default.conf文件配置: spark.even ...
(1)spark on yarn有两种模式 cluster模式:spark driver运行在nodemanager的Application Master中(申请资源,分发作业,没有master节点和worker节点的概念) client模式:driver运行在客户端进程里,作用是任务的分发,资源的申请是由Applicatio ...
(1)hadoop1.x  和 hadoop2.x对比 hadoop1.x: JobTracker做资源管理和任务调度,存在单点问题,如果集群扩张,TaskTracker变多,JobTracker压力就会变大(因为是1对多,只有1个JobTracker);如果JobTracher挂掉无法提交 只支持mr作业,不支持其他类型作业(spark等) 静态资源分配,资源利用率不好 hadoop2.x: 支持mr以外的其他作业 可以通过配置任务队列优先级,跑多种作业等方式提高资源利用率 1个resourmanager对应多个nodemanager,resourcemaneger支持 ...
(1)名词解释: 概念 解释 Application 用户基于spark构建的应用程序,在集群上运行时,包含一个driver和多个executor Driver  Driver program 一个进程,执行Application的main方法,并创建SparkContext Cluster program 1个额外的服务,用来申请集群的资源(standlone manager,Messos,yarn), 通过--master参数动态指定 Deploy mode 辨别driver进程启动在哪里?(1)cluster:dr ...
问题描述:数据是json格式存储的,需要创建一张hive表支持json格式   (1)低版本的hive创建json格式的表,需要add jar...,hive2.3.0版本默认支持json格式的表   (2)创建json格式的表需要建表语句加 ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'STORED AS TEXTFILE   完整sql如下: CREATE EXTERNAL TABLE `test_json`(字段 类型 ...)PARTITIONED BY ( 分区..)ROW FORMAT SERD ...
(1)血缘关系: 通过血缘关系,可以知道一个RDD是如何从父RDD计算过来的 A  =map=> B =filter=> C   (2)窄依赖:一个父RDD的partition最多被子RDD中的partition使用一次(一父对应一子),窄依赖无shuffle     (3)宽依赖: 父RDD中的一个partition会被子RDD中的partition使用多次(一父多子) 宽依赖有shuffle,一个shuffle会拆成一个stage,2个shuffle拆成3个stage     以wordcount为例(reduceBykey是宽依赖,把stage拆为2 ...
1.RDD的cache和persist cache:存储级别是MEMORY_ONLY的, 是个transformation,是lazy的,只有触发了action,才会真正执行(spark sql中的cache是立刻执行的) persist:可以指定存储级别 spark使用lru算法移除过期的cache数据,用户也可以手动取消序列化:unpersist(立即执行,不是lazy的) 2.存储级别StorageLevel (1)存储级别有哪些?  (2) 如何选择存储级别 存储方式 描述 资源占用 适用场景 MEMORY_ONLY 内存,反序列化 内存占用大 ...
测试下spark.yarn.archive 和 spark.yarn.jars  参数的作用,官网对这俩参数的描述如下:     (1)spark-defaults.conf配置下面两个参数 spark.yarn.archive    hdfs://hd1:9000/archive/spark-libs.jar spark.yarn.jars    hdfs://hd1:9000/spark_jars/*   查看web ui ...
本地环境: hadoop3.0 spark2.3 注:由于测试中,换了机器,导致下面的截图,是在两个spark版本(2.2和2.3)的机器上做的,hostname略有不同(hdp1 和 hd1) ,不影响实际结果,下面的配置依然是正确的,实际测试中以自己的hostname,spark版本为准!     1.下载,解压   2.目录结构 bin:本地脚本 sbin:服务端脚本 conf:配置文件 examples:样例代码 jars:依赖包(1.x是在lib目录,很少的几个大包, 2.x是在jars目录下,很多个小包)   1.x的lib目录  2.x的ja ...

spark - RDD梳理

1.RDD是什么? RDD源码中的五个特性:弹性的,分布式的,不可变的,支持并行化操作,可以分区的数据集 五个主要属性: 1个rdd可以有多个partition 如果对1个rdd作用于一个function,其实是对里面的每个split做function,1个split就是一个partition rdd间是有一系列依赖的,例如: (可选)对于(groupbykey)有一个Hashpartition对应于key-value类型的rdd,sortbykey对应一个range-partitioned (可选)每个split都有一个优先推荐的locations list (注意这 ...
(一)环境: hadoop 2.8.1 hive 1.2.2      core-site.xml 配置项 <property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.BZip2Codec ...

lzop 命令

lzop命令用途:操作lzo文件   创建: lzop -v 1.txt #创建test.lzo压缩文件,输出详细信息,保留test文件不变 lzop -Uv 1.txt #创建test.lzo压缩文件,输出详细信息,删除test文件 cat 1.txt | lzop > t.lzo #压缩标准输入并定向到标准输出   检测: lzop -t 1.txt.lzo #测试1.txt.lzo压缩文件的完整性 lzop --info 1.txt.lzo # 列出1.txt.lzo中各个文件的文件头 lzop -l 1.txt.lzo #列出1.txt.lzo中各个文件 ...
1.安装: (1)安装依赖: yum -y install lzo-devel zlib-devel gcc autoconf automake libtool   (2)安装maven wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.5.3/binaries/apache-maven-3.5.3-bin.tar.gz tar -xzvf apache-maven-3.5.3-bin.tar.gz       修改环境变量 vi /etc/profile, 添加下面两句(路径按自己的写) export MA ...
hadoop 压缩相关参数整理:   
知识点:隐式变量 注意点: 不声明,不能直接用 一个方法,不能同时找到多个隐式变量,否则会报错 如果显示指定了值,则隐式的值不会起到作用   测试代码:   package demo.scala object TestImplicit1 { def test(implicit name: String) = { println("name=" + name) } def main(args: Array[String]): Unit = { //1.直接调用,没走隐式参数,结果:name=abc ...
Global site tag (gtag.js) - Google Analytics