HiveでCompressed Data Storage
基本的には、↓に書いてあるんですが、いくつか罠があるのでメモしときます。
http://wiki.apache.org/hadoop/Hive/CompressedStorage
このページには以下のように書いてありますが、
SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below)
正しくは、以下のようになります。
SET mapred.output.compression.type=BLOCK;
また、圧縮形式にgzipを使いたい場合は以下のように設定しますが、
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
なぜか、Clouderaのパッケージ(バージョンは0.20.1+169.56-1)でインストールするとnativeライブラリが入ってないため、エラーになります。
しょうがないので、http://archive.cloudera.com/cdh/ からソースをダウンロードしてきて、${HADOOP_HOME}/libに、落としてきたlib/nativeをコピーしたらうまくいきました。
一体なんなんだ。。
追記(2010/6/7)
nativeライブラリは、別のRPMになってました。。
hadoop-0.20-nativeをインストールするとlib/nativeが無事現れます。。