parquest学习记录

parquest是一种列式存储,只是一种存储格式,与上层平台,语言无关,当前已经适配的组件包括:

  • 询引擎:Hive\Impala\Pig\Presto\Drill\Tajo\HAWQ\IBM Big SQL
  • 计算引擎:MapReduce\Spark\Cascading\Crunch\Scalding\Kite
  • 数据模型:Avro\Thrift\Protocol Buffers

数据可能是存储在hive或者是hbase上面,底层可能都是hdfs上面