spark - RDD转成DataFrame -

功夫小当家

浏览: 183718 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

spark - RDD转成DataFrame

博客分类：

spark

spark RDD转成DataFrame

1.RDD转成DataFrame的两种方式：

package df

import org.apache.spark.sql.{Row, SparkSession}

object RDD2DataFrame {

  case class Person(name: String, score: Int)

  def main(args: Array[String]): Unit = {
    //enableHiveSupport()开启支持hive
    val spark = SparkSession.builder().appName("DF_DEMO").master("local").getOrCreate()

    //---------------1.基于反射的方式（必须事先知道schema,通过case class定义schema，通过反射拿到case class中的字段和类型 ，spark1.6版本case class只支持22个字段，高版本不限制字段个数）---------------------
    /**
      * 1.创建case class
      * 2.创建rdd => rdd [case class] => .toDF().
      */
    //导入隐式转换，才能调用toDF()方法
    import spark.implicits._

    /**
      * 测试数据内容如下：
      * a,100
      * b,90
      * c,80
      */
    val df = spark.sparkContext.textFile("file:///F:\\test\\2.txt").map(x => x.split(",")).map(x => Person(x(0), x(1).toInt)).toDF()
    df.show()

    /**
      * 输出结果：
      * +--------+
      * |   value|
      * +--------+
      * |name : a|
      * |name : b|
      * |name : c|
      * +--------+
      */
    df.map(x => "name : " + x.getAs[String]("name")).show()

    //---------------2. 基于编程的方式指定 ---------------------
    /**
      * 1.创建schemaString =>  StructField => StructType
      * 2.创建rdd => Rdd[Row]
      * 3.spark.createDataFrame(rowRDD, StructType)
      */
    //导入隐式转换（否则StringType找不到）
    import org.apache.spark.sql.types._

    val schemaString = "name score"
    val fields = schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, nullable = true))
    val schema = StructType(fields)

    val rowRDD = spark.sparkContext.textFile("file:///F:\\test\\2.txt").map(x => x.split(",")).map(x => Row(x(0), x(1)))
    val df2 = spark.createDataFrame(rowRDD, schema)
    df2.show()
    spark.stop()
  }
}

0
顶

0
踩

分享到：

spark - DataFrame Api 练习 | spark - Spark-sql， DataFrame，DataSet ...

2018-04-07 17:37
浏览 2873
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - RDD转成DataFrame

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - RDD转成DataFrame

评论

发表评论

相关推荐

spark - spark streaming

spark - 分区自动探测

spark -外部数据源

spark - DataFrame Api 练习

spark - Spark-sql， DataFrame，DataSet名词解释

spark - 性能优化指南(基础篇)

spark - sql开启thriftServer服务

spark kryo序列化

spark－rdd代码demo

spark - History Server配置

spark - 启动参数

spark - 核心概念

spark - 宽依赖和窄依赖

spark- RDD广播变量和计数器

spark - RDD持久化

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

spark - 部署和安装

spark - RDD梳理

最近访客更多访客>>