Spark
Apache Spark是一个开源集群运算框架
开源
高性能
易用,支持R、Scala、Jav等
通用,支持批处理、流处理、机器学习等多种场景
Spark生态

Apache Spark架构

基本概念


Spark APIS

RDD

可分区——可以实现分布式计算
上图是起4个sq同时执行4个task



RDD:Operations
RDD操作类型1:Transformations,基于已有的RDD生成新的RDD

http://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#transformations
RDD操作类型2:Actions,触发生成job开始运算



DAG还是比较重要的。
Spark SQL DataFrames




进阶
Structured Streaming(SS)

例子:
./bin/run-example org.apache.spark.examples.sql.streaming.StructuredNetworkWordCount localhost 9999

ML Pipelines

阿里云EMR介绍

Spark SQL
Spark SQL is Apache Spark's module for working with structured data.

















explain SQL语句:展示执行过程
explain extended SQL语句:更详细的信息
Spark for ETL & Data Science













Delta Lake

























Last updated
Was this helpful?