spark -外部数据源 - - ITeye博客

`

功夫小当家

浏览: 183708 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

一碗单炒饭：正需要，谢谢
清除eclipse中 Launch configuration的历史记录
heweina2007：非常有用。谢谢！
清除eclipse中 Launch configuration的历史记录
功夫小当家：这个也不好用了吗？之前这个办法，我这里可以解决，那你现在的办法 ...
INSTALL_FAILED_UID_CHANGED解决办法
ziyue137：设置----->安全----->未知来源，这个没有 ...
INSTALL_FAILED_UID_CHANGED解决办法
zfc645486908：您好，感谢你写这篇技术文章，对我帮助很大，刚好用到，但是我需要 ...
Android中如何把bitmap存成BMP格式的图片

spark -外部数据源

博客分类：

spark

外部数据源 avro

阅读更多

1.在Spark1.2中提供了External DataSource API，开发者可以根据接口来实现自己的外部数据源，如avro, csv, json, parquet等等。

（1）spark自带的外部数据源

（2）其他开发者贡献的 https://spark-packages.org/

以avro为例，点击homepage，跳转到github网址：https://github.com/databricks/spark-avro，github页面详细介绍了用法

本地shell测试

2.spark 外部数据源 Api 练习

package df

import org.apache.spark.sql.SparkSession

object ExternalSource {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("demo").master("local").getOrCreate()

    //1.读取json
    val jsonDF = spark.read.format("json").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/employees.json")
    jsonDF.printSchema()

    //2.读取parquet
    val parquetDF = spark.read.format("parquet").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/users.parquet")
    parquetDF.printSchema()

    //3.读取scv
    val csvDF = spark.read.format("csv").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/people.csv")
    csvDF.printSchema()
  }
}

查看图片附件

分享到：

flume 源码编译和 inteallij IDEA远程调 ... | spark - DataFrame Api 练习

2018-04-07 18:47
浏览 1209
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark-SQL外部数据源.md: Spark-SQL外部数据源.md

spark3.0入门到精通: ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 ...│ 15-[了解]-外部数据源-操作JDBC-读.mp4

Spark-Streaming+HDFS实战: 数据源： - GBIF接口（https://api.gbif.org/v1/dataset）提供了生物多样性相关的数据集。 ## 3. 数据处理流程： - 使用HTTP请求从GBIF接口获取数据集。 - 使用Spark Streaming处理数据集，可以使用httpclient...

javashuffle源码-spark-data-sources:使用V2API开发Spark外部数据源: 外部数据源该项目说明了 Spark 2.3.0 中引入的新 V2 Apache Spark 外部数据源 API。它包括：一个简单的内存数据库系统 (ExampleDB)，它支持说明 API 特性所需的所有数据访问范式一系列不同复杂度的数据源，全部...

Spark 外部数据源调用代码: Spark 外部数据源调用代码，CSV文件和HIVE读取方式。

spark-training：用于Spark培训的存储库: 您随时可以在GitHub上找到最新版本https://github.com/dimajix/spark-training内容存储库包含不同类型的文档Spark / Scala的源代码适用于PySpark的Jupyter笔记本Zeppelin笔记本用于Spark / Scala Hive SQL脚本猪...

2015 Spark技术峰会-Spark SQL结构化数据分析-连城: Databrciks工程师，Spark Committer，Spark SQL主要开发者之一的连城详细解读了“Spark SQL结构化数据分析”。他介绍了Spark1.3版本中的很多新特性。...1.3版中，Spark进一步完善了外部数据源API，并可智能进行优化。

Spark 2.0.2 Spark 2.2 中文文档本资源为网页，不是PDF: 外部数据集 RDD 操作 RDD 持久化共享变量 Broadcast Variables （广播变量） Accumulators （累加器）部署应用到集群中使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移 ...

Spark技术内幕-深入解析Spark内核架构设计与实现原理(带书签目录): spark是一种快速、通用、可扩展的大数据分析引擎。Spark 核心的概念是 Resilient Distributed Dataset (RDD)：一个可并行操作的有容错机制的数据集合。...文件系统，HDFS，HBase或其他 Hadoop 数据格式的数据源。

Spark分布式内存计算框架视频教程: 7.外部数据源（HBase和MySQL） 8.广播变量和累加器 9.Spark 内核调度 10.Spark 并行度第三章、SparkSQL 模块 1.快速入门：词频统计 2.SparkSQL 概述 3.DataFrame 4.RDD与DataFrame转换 5.数据分析SQL和DSL 6.案例：...

SparkStreaming流式日志过滤与分析: 请看数据源的文件。（2）对读入都日志信息流进行指定筛选出日志级别为error或warn的，并输出到外部MySQL中。需要用到的函数（1）输入采用textFileStream()算子（2）输出采用foreachRDD()算子（3）将RDD转为...

spark_streaming_of_twitter_data：一个Spark流传输管道，用于使用Twitter API将特定标签的Twitter数据实时摄取到CSV文件中的CSV文件中，然后使用CSV文件创建Hive外部表: spark_streaming_of_twitter_data Spark流传输管道使用Twitter API将特定主题标签的Twitter数据实时导入到CSV文件的CSV文件中，然后使用CSV文件创建Hive外部表。

大数据精选入门指南，包括大数据学习路线、大数据技术栈思维导图: 前言大数据学习路线大数据技术栈思维导图大数据常用软件安装指南一、Hadoop 分散文件存储系统 —— HDFS 多元计算框架——MapReduce ...Spark SQL 外部数据源 Spark SQL常用聚合函数 Spark SQL JOIN 操作火花流：

Spark学习笔记（三）：Spark DataFrame: Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据 Spark SQL目前支持Scala、...

spark基础的学习笔记: 是基于内存的分布式计算引擎，计算速度非常快，仅仅只是涉及到数据的计算，没有涉及到数据存储。可以对接外部的数据源（比如hdfs,这个时候就需要搭建一个hadoop集群）

SparkSql和DataFrame实战.docx: 文档主要介绍了环境搭建和配置使用 1. 什么是Spark SQL Spark SQL的一个用途是...spark 通过DataFrame操作大量的数据源，包括外部文件（如 json、avro、parquet、sequencefile 等等）、Hive、关系数据库、cassandra等

大数据架构师应该做到的.pdf: ⼤数据架构师应该做到的 ---- ---- 关于软实⼒部分...⽇志清洗业务数据⼊库基础数据(mysql binlog业务库 )ETL 部分外部数据⾃定义数据接⼊⽅式⾃定义数据流程处理数据输出出⼝ NiFi Registry(NiFi版本管理⼯具) N

农业大数据技术.pptx: 数据层结构化业务数据、机器数据半结构化数据、机器数据序列化算法库机器学习 Storm内存流式计算框架 Hadoop MapReduce 计算框架 Spark 并行计算框架计算层运营分析日志分析个性化推荐供应链分析...

大数据应用测试经验总结.pdf: DWD：数据仓库明细层，存储从源数据抽去过来的明细数据； DW：数据仓库层，保存经过数据降维汇聚的计算后⽣成的汇总数据； DM：数据集市层，满⾜特定功能⽽建⽴的各种数据集市。 1. 数据处理过程说明 1. 数据采集...

Global site tag (gtag.js) - Google Analytics