Hive学习记录

1.概述

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转化成Mapreduce任务进行,可以通过类sql的语句快速地实现MapReduce统计,不必开发专门的MapReduce应用,Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据,在hadoop之上,总归为大数据。

阅读全文

Spark基础学习

1.Spark概述

Spark是一种基于内存的快速,通用可扩展的大数据分析引擎。

阅读全文

parquest学习记录

parquest是一种列式存储,只是一种存储格式,与上层平台,语言无关,当前已经适配的组件包括:

阅读全文