spark - History Server配置

博客分类：

spark

1.spark web ui web ui（4040端口）也看的stages tab页面，展示job的运行情况，调优的时候需要跟进这个页面的去分析但是 web ui 在job跑完或者sc.stop 之后，4040页面会关闭，无法访问在spark的官网More -> Moniting页面（http://spark.apache.org/docs/latest/monitoring.html）有介绍History Server可以解决上面的问题 2.History Server参数配置（1）spark-default.conf文件配置： spark.even ...

2018-03-27 23:47
浏览 3155
评论(0)
分类:开源软件

spark - 启动参数

博客分类：

spark

spark 启动参数

（1）spark on yarn有两种模式 cluster模式：spark driver运行在nodemanager的Application Master中（申请资源，分发作业，没有master节点和worker节点的概念） client模式：driver运行在客户端进程里，作用是任务的分发，资源的申请是由Applicatio ...

2018-03-25 21:56
浏览 3070
评论(0)
分类:开源软件

hadoop1.x 和 hadoop2.x的对比

博客分类：

hadoop

hadoop1.x 和hadoop2.x对比

（1）hadoop1.x 和 hadoop2.x对比 hadoop1.x： JobTracker做资源管理和任务调度，存在单点问题，如果集群扩张，TaskTracker变多，JobTracker压力就会变大（因为是1对多，只有1个JobTracker）；如果JobTracher挂掉无法提交只支持mr作业，不支持其他类型作业（spark等）静态资源分配，资源利用率不好 hadoop2.x：支持mr以外的其他作业可以通过配置任务队列优先级，跑多种作业等方式提高资源利用率 1个resourmanager对应多个nodemanager，resourcemaneger支持 ...

2018-03-22 18:12
浏览 670
评论(0)
分类:开源软件

spark - 核心概念

博客分类：

spark

spark 核心概念

（1）名词解释：概念解释 Application 用户基于spark构建的应用程序，在集群上运行时，包含一个driver和多个executor Driver Driver program 一个进程，执行Application的main方法，并创建SparkContext Cluster program 1个额外的服务，用来申请集群的资源（standlone manager，Messos，yarn），通过--master参数动态指定 Deploy mode 辨别driver进程启动在哪里？（1）cluster：dr ...

2018-03-22 17:54
浏览 640
评论(0)
分类:开源软件

hive 支持json格式的表

博客分类：

hive

hive json格式表

问题描述：数据是json格式存储的，需要创建一张hive表支持json格式（1）低版本的hive创建json格式的表，需要add jar...，hive2.3.0版本默认支持json格式的表（2）创建json格式的表需要建表语句加 ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'STORED AS TEXTFILE 完整sql如下： CREATE EXTERNAL TABLE `test_json`(字段类型 ...)PARTITIONED BY ( 分区..)ROW FORMAT SERD ...

2018-03-22 11:51
浏览 2113
评论(0)
分类:开源软件

spark - 宽依赖和窄依赖

博客分类：

spark

spark 宽依赖窄依赖

（1）血缘关系：通过血缘关系，可以知道一个RDD是如何从父RDD计算过来的 A =map=> B =filter=> C （2）窄依赖：一个父RDD的partition最多被子RDD中的partition使用一次（一父对应一子），窄依赖无shuffle （3）宽依赖：父RDD中的一个partition会被子RDD中的partition使用多次(一父多子) 宽依赖有shuffle，一个shuffle会拆成一个stage，2个shuffle拆成3个stage 以wordcount为例（reduceBykey是宽依赖，把stage拆为2 ...

2018-03-21 20:08
浏览 2654
评论(0)
分类:开源软件

spark - RDD持久化

博客分类：

spark

spark rdd持久化

1.RDD的cache和persist cache：存储级别是MEMORY_ONLY的，是个transformation，是lazy的，只有触发了action，才会真正执行(spark sql中的cache是立刻执行的) persist：可以指定存储级别 spark使用lru算法移除过期的cache数据，用户也可以手动取消序列化：unpersist（立即执行，不是lazy的） 2.存储级别StorageLevel （1）存储级别有哪些？（2）如何选择存储级别存储方式描述资源占用适用场景 MEMORY_ONLY 内存，反序列化内存占用大 ...

2018-03-21 13:37
浏览 597
评论(0)
分类:开源软件

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

博客分类：

spark

spark 启动优化参数spark.yarn.archive 和 spark.yarn.jars

测试下spark.yarn.archive 和 spark.yarn.jars 参数的作用，官网对这俩参数的描述如下：（1）spark-defaults.conf配置下面两个参数 spark.yarn.archive hdfs://hd1:9000/archive/spark-libs.jar spark.yarn.jars hdfs://hd1:9000/spark_jars/* 查看web ui ...

2018-03-20 11:42
浏览 5248
评论(0)
分类:开源软件

spark - 部署和安装

博客分类：

spark

spark安装部署参数优化

本地环境： hadoop3.0 spark2.3 注：由于测试中，换了机器，导致下面的截图，是在两个spark版本（2.2和2.3）的机器上做的，hostname略有不同(hdp1 和 hd1) ，不影响实际结果，下面的配置依然是正确的，实际测试中以自己的hostname，spark版本为准！ 1.下载，解压 2.目录结构 bin:本地脚本 sbin：服务端脚本 conf：配置文件 examples：样例代码 jars：依赖包（1.x是在lib目录，很少的几个大包， 2.x是在jars目录下，很多个小包） 1.x的lib目录 2.x的ja ...

2018-03-20 10:00
浏览 1459
评论(0)
分类:开源软件

spark - RDD梳理

博客分类：

spark

spark rdd

1.RDD是什么？ RDD源码中的五个特性：弹性的，分布式的，不可变的，支持并行化操作，可以分区的数据集五个主要属性： 1个rdd可以有多个partition 如果对1个rdd作用于一个function，其实是对里面的每个split做function，1个split就是一个partition rdd间是有一系列依赖的，例如：（可选）对于（groupbykey）有一个Hashpartition对应于key-value类型的rdd，sortbykey对应一个range-partitioned （可选）每个split都有一个优先推荐的locations list （注意这 ...

2018-03-19 20:24
浏览 867
评论(0)
分类:企业架构

lzo + hive1.x测试

博客分类：

hadoop

hive 1.x lzo索引

（一）环境： hadoop 2.8.1 hive 1.2.2 core-site.xml 配置项 <property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.BZip2Codec ...

2018-03-14 19:34
浏览 466
评论(0)
分类:开源软件

lzop 命令

博客分类：

hadoop

lzop命令

lzop命令用途：操作lzo文件创建： lzop -v 1.txt #创建test.lzo压缩文件，输出详细信息，保留test文件不变 lzop -Uv 1.txt #创建test.lzo压缩文件，输出详细信息，删除test文件 cat 1.txt | lzop > t.lzo #压缩标准输入并定向到标准输出检测： lzop -t 1.txt.lzo #测试1.txt.lzo压缩文件的完整性 lzop --info 1.txt.lzo # 列出1.txt.lzo中各个文件的文件头 lzop -l 1.txt.lzo #列出1.txt.lzo中各个文件 ...

2018-03-14 16:21
浏览 1833
评论(0)
分类:开源软件

hadoop lzo压缩

博客分类：

hadoop

hadoop lzo lzo index

1.安装：（1）安装依赖： yum -y install lzo-devel zlib-devel gcc autoconf automake libtool （2）安装maven wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.5.3/binaries/apache-maven-3.5.3-bin.tar.gz tar -xzvf apache-maven-3.5.3-bin.tar.gz 修改环境变量 vi /etc/profile，添加下面两句（路径按自己的写） export MA ...

2018-03-14 15:13
浏览 1069
评论(0)
分类:开源软件

hadoop 压缩相关参数整理

博客分类：

hadoop

hadoop压缩压缩参数

hadoop 压缩相关参数整理：

2018-03-14 15:06
浏览 583
评论(0)
分类:开源软件

scala笔记－隐式变量

博客分类：

scala

scala 隐式变量

知识点：隐式变量注意点：不声明，不能直接用一个方法，不能同时找到多个隐式变量，否则会报错如果显示指定了值，则隐式的值不会起到作用测试代码： package demo.scala object TestImplicit1 { def test(implicit name: String) = { println("name=" + name) } def main(args: Array[String]): Unit = { //1.直接调用，没走隐式参数,结果：name=abc ...

2018-03-11 23:50
浏览 650
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - History Server配置

spark - 启动参数

hadoop1.x 和 hadoop2.x的对比

spark - 核心概念

hive 支持json格式的表

spark - 宽依赖和窄依赖

spark - RDD持久化

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

spark - 部署和安装

spark - RDD梳理

lzo + hive1.x测试

lzop 命令

hadoop lzo压缩

hadoop 压缩相关参数整理

scala笔记－隐式变量

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>