linux – 为什么uniq不能处理这个大文件?庆典

前端之家收集整理的这篇文章主要介绍了linux – 为什么uniq不能处理这个大文件?庆典前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行)

我执行此命令:

  1. cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

问题是它给了我一个小小的错误:它认为我的语言不同.
例如,第一个条目是:

  1. 306 continua
  2. 278 apertura
  3. 211 eventi
  4. 189 murah
  5. 182 giochi
  6. 167 giochi

你可以看到,与giochi重复两次

文件底部它变得更糟,它看起来像这样:

  1. 1 win
  2. 1 win
  3. 1 win
  4. 1 win
  5. 1 win
  6. 1 win
  7. 1 win
  8. 1 win
  9. 1 win
  10. 1 winchester
  11. 1 wind
  12. 1 wind

对于所有的话

对于这个愚蠢的问题,我真的很抱歉,但我有点贝壳编程的菜鸟.
我究竟做错了什么?

非常感谢

解决方法

首先尝试排序:
  1. cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

猜你在找的Linux相关文章