我使用LZO来压缩减少输出.我试过这个:
Hadoop-LZO project of Kevin Weil,然后用我的工作LzoCodec类:
TextOutputFormat.setOutputCompressorClass(job,LzoCodec.class);
现在压缩工作正常.
我的问题是压缩结果是一个.lzo_deflate文件,我无法解压缩.
Lzop utility似乎不支持该类型的文件.
LzopCodec应该提供一个.lzo文件,但它不起作用,但是它与LzoCodec(org.apache.hadoop.io.compress)在同一个包中可能会引用兼容性问题,因为我使用了旧的API( 0.19)使压缩工作.
这个question的答案提出了Python解决方案,但是我需要用Java.
我正在使用Hadoop 1.1.2和Java 6.
解决方法
.lzo_deflate表示没有通常的标题和尾部的LZO流.因此,您需要使用lzop期望的标头和预告片包装原始.lzo_deflate流.或者至少是标题,然后忽略丢失的预告片中的错误.你需要看一下
header and trailer documentation.
名称中的“deflate”是一个奇怪的选择,但它指的是gzip类比,其中没有gzip头和预告片的原始压缩数据格式称为deflate.