Spark基础学习
1.Spark概述
Spark是一种基于内存的快速,通用可扩展的大数据分析引擎。
发展历史:
Spark特点:
1)、运行速度快:与Hadoop的MR相比,Spark基于内存的运算要快100倍以上,基于硬盘的计算也快10倍以上。使用DAG(有向无环图)执行引擎以支持循环数据流与内存计算。计算结果存放于内存中,
2)、易用性好:支持使用Scala、java、Python和R语言进行编程,可以通过Spark shell进行交互式编程。
3)、通用性强:spark提供了完整而又强大的的工具,包括sql查询,流式计算,机器学习和图算法组件等等
4)、兼容性强:可运行与独立的集群环境中,可运行与Hadoop中,也可运行在Amazon EC2等云环境中。并且可以访问HDFS,Hbase,hive等多种数据源。
Spark主要的模块:
spark core:实现spark的基本功能,包含任务调度,内存管理,错误恢复,与存储系统交互等模块。同时其中还包含了对RDD(弹性分布式数据集)的API定义。
Spark SQL:是Spark用来操作结构化数据的程序包,通过使用Spark SQL,可以使用SQL或者HQL来查询数据,支持多种数据来源如:Hive表,Parque以及JSON等。
Spark Streaming:是Spark提供对实时数据进行流式计算的组件。包括用来操作数据流的API,并且与Spark core中的RDD API高度对应。
Spark MLib:提供常见的机器学习(ML)功能的程序库。包含分类,回归,聚类,协同过滤,还提供了模型评估,数据导入等功能。
集群管理器:Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算,为了实现这样的需求,同时获得最大的灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN,Apache Mesos,以及Spark自带的调度器,叫做独立调度器。