`
功夫小当家
  • 浏览: 183708 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark -外部数据源

阅读更多

1.在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。

 

(1)spark自带的外部数据源

 

(2)其他开发者贡献的 https://spark-packages.org/

 

以avro为例,点击homepage,跳转到github网址:https://github.com/databricks/spark-avro,github页面详细介绍了用法


 

本地shell测试


 

 

 

2.spark 外部数据源 Api 练习

package df

import org.apache.spark.sql.SparkSession

object ExternalSource {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("demo").master("local").getOrCreate()

    //1.读取json
    val jsonDF = spark.read.format("json").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/employees.json")
    jsonDF.printSchema()

    //2.读取parquet
    val parquetDF = spark.read.format("parquet").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/users.parquet")
    parquetDF.printSchema()

    //3.读取scv
    val csvDF = spark.read.format("csv").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/people.csv")
    csvDF.printSchema()
  }
}

 

 

 

  • 大小: 17.2 KB
  • 大小: 133.1 KB
  • 大小: 123.7 KB
  • 大小: 53.8 KB
分享到:
评论

相关推荐

    Spark-SQL外部数据源.md

    Spark-SQL外部数据源.md

    spark3.0入门到精通

    ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 ...│ 15-[了解]-外部数据源-操作JDBC-读.mp4

    Spark-Streaming+HDFS实战

    数据源: - GBIF接口(https://api.gbif.org/v1/dataset)提供了生物多样性相关的数据集。 ## 3. 数据处理流程: - 使用HTTP请求从GBIF接口获取数据集。 - 使用Spark Streaming处理数据集,可以使用httpclient...

    javashuffle源码-spark-data-sources:使用V2API开发Spark外部数据源

    外部数据源 该项目说明了 Spark 2.3.0 中引入的新 V2 Apache Spark 外部数据源 API。 它包括: 一个简单的内存数据库系统 (ExampleDB),它支持说明 API 特性所需的所有数据访问范式 一系列不同复杂度的数据源,全部...

    Spark 外部数据源调用代码

    Spark 外部数据源调用代码,CSV文件 和HIVE读取方式。

    spark-training:用于Spark培训的存储库

    您随时可以在GitHub上找到最新版本https://github.com/dimajix/spark-training内容存储库包含不同类型的文档Spark / Scala的源代码适用于PySpark的Jupyter笔记本Zeppelin笔记本用于Spark / Scala Hive SQL脚本猪...

    2015 Spark技术峰会-Spark SQL结构化数据分析-连城

    Databrciks工程师,Spark Committer,Spark SQL主要开发者之一的连城详细解读了“Spark SQL结构化数据分析”。他介绍了Spark1.3版本中的很多新特性。...1.3版中,Spark进一步完善了外部数据源API,并可智能进行优化。

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    外部数据集 RDD 操作 RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移 ...

    Spark技术内幕-深入解析Spark内核架构设计与实现原理(带书签目录)

    spark是一种快速、通用、可扩展的大数据分析引擎。Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。...文件系统,HDFS,HBase或其他 Hadoop 数据格式的数据源。

    Spark分布式内存计算框架视频教程

    7.外部数据源(HBase和MySQL) 8.广播变量和累加器 9.Spark 内核调度 10.Spark 并行度 第三章、SparkSQL 模块 1.快速入门:词频统计 2.SparkSQL 概述 3.DataFrame 4.RDD与DataFrame转换 5.数据分析SQL和DSL 6.案例:...

    SparkStreaming流式日志过滤与分析

    请看数据源的文件。 (2)对读入都日志信息流进行指定筛选出日志级别为error或warn的,并输出到外部MySQL中。 需要用到的函数 (1)输入采用textFileStream()算子 (2)输出采用foreachRDD()算子 (3)将RDD转为...

    spark_streaming_of_twitter_data:一个Spark流传输管道,用于使用Twitter API将特定标签的Twitter数据实时摄取到CSV文件中的CSV文件中,然后使用CSV文件创建Hive外部表

    spark_streaming_of_twitter_data Spark流传输管道使用Twitter API将特定主题标签的Twitter数据实时导入到CSV文件的CSV文件中,然后使用CSV文件创建Hive外部表。

    大数据精选入门指南,包括大数据学习路线、大数据技术栈思维导图

    前言 大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南 一、Hadoop 分散文件存储系统 —— HDFS 多元计算框架——MapReduce ...Spark SQL 外部数据源 Spark SQL常用聚合函数 Spark SQL JOIN 操作 火花流:

    Spark学习笔记(三):Spark DataFrame

    Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式的数据 Spark SQL目前支持Scala、...

    spark基础的学习笔记

    是基于内存的分布式计算引擎,计算速度非常快,仅仅只是涉及到数据的计算,没有涉及到数据存储。可以对接外部的数据源(比如hdfs,这个时候就需要搭建一个hadoop集群)

    SparkSql和DataFrame实战.docx

    文档主要介绍了环境搭建和配置使用 1. 什么是Spark SQL Spark SQL的一个用途是...spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、Hive、关系数据库、cassandra等

    大数据架构师应该做到的.pdf

    ⼤数据架构师应该做到的 ---- ---- 关于软实⼒部分...⽇志清洗 业务数据⼊库 基础数据(mysql binlog业务库 )ETL 部分外部数据 ⾃定义数据接⼊⽅式 ⾃定义数据流程处理 数据输出出⼝ NiFi Registry(NiFi版本管理⼯具) N

    农业大数据技术.pptx

    数 据 层 结构化业务数据、机器数据 半结构化数据、机器数据 序列化 算法库 机器学习 Storm内存 流式计算框架 Hadoop MapReduce 计算框架 Spark 并行计算框架 计 算 层 运营 分析 日志 分析 个性化 推荐 供应链 分析...

    大数据应用测试经验总结.pdf

    DWD:数据仓库明细层,存储从源数据抽去过来的明细数据; DW:数据仓库层,保存经过数据降维汇聚的计算后⽣成的汇总数据; DM:数据集市层,满⾜特定功能⽽建⽴的各种数据集市。 1. 数据处理过程说明 1. 数据采集...

Global site tag (gtag.js) - Google Analytics