word1 word2 word3 word1 word2 word3 word1 word2 word3 word1 word2 word3
word1,word2和word3在每一行中都不同. word3指定行的类,并经常为不同的行重复(具有数千个不同的值).目标是通过行类(word3)分隔文件.即对于所有行,word1和word2应存储在名为word3的文件中.例如,对于该行:
a b c
字符串“a b”应该附加到名为c的文件中.
现在我知道如何使用while循环,逐行读取文件,并为每一行附加适当的文件:
while IFS='' read -r line || [[ -n "$line" ]]; do # Variables read -a line_array <<< ${line} word1=${line_array[0]} word2=${line_array[1]} word3=${line_array[2]} # Adding word1 and word2 to file word3 echo "${word1} ${word2}" >> ${word3} done < "inputfile"
它工作,但非常慢(即使我有一个带SSD的快速工作站).怎么能加快速度呢?我已经尝试在/ dev / shm中执行此过程,并将文件拆分为10个并且为每个文件并行运行上面的脚本.但它仍然很慢.有没有办法进一步加快速度?
解决方法
$seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file
这会在第3列中生成一个300万行文件,其中包含2,000个不同的值,类似于:
$head -n 3 file; echo "..."; tail -n 3 file 1 Col_B 1680 2 Col_B 788 3 Col_B 1566 ... 2999998 Col_B 1562 2999999 Col_B 1803 3000000 Col_B 1252
$time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file real 3m31.011s user 0m25.260s sys 3m0.994s
这样awk将在大约3分31秒内生成2,000个组文件.肯定比Bash快,但是通过第三列预分配文件并一次写入每个组文件可以更快.
您可以在管道中使用Unix排序实用程序,并将输出提供给可将已排序组分离到不同文件的脚本.将-s选项与sort一起使用,第三个字段的值将是唯一将更改行顺序的字段.
由于我们可以假设sort已根据文件的第3列将文件分区为组,因此脚本只需检测该值何时更改:
$time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }' real 0m4.727s user 0m5.495s sys 0m0.541s
由于预分配获得的效率,相同的净过程在5秒内完成.
如果您确定第3列中的“单词”仅为ascii(即,您不需要处理UTF-8),则可以将LC_ALL = C设置为additional speed:
$time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }' real 0m3.801s user 0m3.796s sys 0m0.479s
来自评论:
1)请添加一行来解释为什么我们需要fn!=($3“”)中的括号表达式:
fn!=($3“”){action}的awk结构是fn!= $3 ||的有效快捷方式fn ==“”{action}使用您认为最具可读性的那个.
2)如果文件大于可用内存,不确定这是否也有效,因此这可能是一个限制因素:
我运行了第一个和最后一个awk,包含3亿条记录和20,000个输出文件.排序的最后一个在12分钟内完成了任务.第一次花了10个小时……
可能是排序版本实际上更好地扩展,因为打开附加和关闭20,000个文件需要一段时间.组合和传输类似数据更有效.
3)我之前考虑过排序,但后来觉得它可能不是最快的,因为我们必须用这种方法读取整个文件两次:
这是纯粹随机数据的情况;如果实际数据有些有序,则需要权衡两次读取文件.随机数据越少,第一个awk就越快.但是,还需要时间来确定文件是否已排序.如果您知道文件主要是排序的,请使用第一个;如果它可能有些混乱,请使用最后一个.