我有非常大的基因型文件,基本上不可能在R中打开,所以我试图使用
linux命令行提取感兴趣的行和列.使用头部/尾部的行很简单,但是我很难弄清楚如何处理列.
如果我尝试提取(说)第100-105页或空格分隔列使用
cut -c100-105 myfile >outfile
如果每列中有多个字符的字符串,这显然将无法正常工作.有没有办法用适当的参数修改剪切,以便它提取列中的整个字符串,其中列被定义为空格或制表符(或任何其他字符)分隔?
解决方法
你需要-f:
cut -f100-105 myfile > outfile
如果字段分隔符与TAB不同,则需要使用-d指定它:
cut -d' ' -f100-105 myfile > outfile
检查the man page有关cut命令的更多信息.