Spark
Last updated
Was this helpful?
Last updated
Was this helpful?
Apache Spark是一个开源集群运算框架
开源
高性能
易用,支持R、Scala、Jav等
通用,支持批处理、流处理、机器学习等多种场景
Spark生态
Apache Spark架构
基本概念
Spark APIS
RDD
可分区——可以实现分布式计算
上图是起4个sq同时执行4个task
RDD:Operations
RDD操作类型1:Transformations,基于已有的RDD生成新的RDD
http://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#transformations
RDD操作类型2:Actions,触发生成job开始运算
DAG还是比较重要的。
Structured Streaming(SS)
例子:
./bin/run-example org.apache.spark.examples.sql.streaming.StructuredNetworkWordCount localhost 9999
ML Pipelines
阿里云EMR介绍
Spark SQL is Apache Spark's module for working with structured data.
explain SQL语句:展示执行过程
explain extended SQL语句:更详细的信息