mydomain NS ns.mynameserver.com. mydomain NS ns2.mynameserver.com. anotherdomain NS nameservers.com. notinalphadomain NS ns.example.com. notinalphadomain NS ns1.example.com. notinalphadomain NS ns2.example.com.
如您所见,每个域可以有多行(当有多个名称服务器时),并且文件不是按字母顺序排列的.
这些文件大小约为7GB.
由于7GB太大而无法将整个文件加载到内存中,显然我需要在流中读取.我目前认为最好的方法是对两个文件进行多次传递.字母表中每个字母的一次传递,加载第一次传递中以’a’开头的所有域.
一旦我从旧文件和新文件中获得了所有“a”域,我就可以在内存中进行非常简单的比较来查找更改.
问题是,即使通过char读取char,并按照我能够想到的优化,每次传递文件大约需要200-300秒,收集当前传递字母的所有域.因此,我认为在当前状态下,我正在查看大约一个小时来处理文件,甚至没有将更改存储在数据库中(这将花费更多时间).这是在双四核xeon服务器上,因此对它投入更多的马力对我来说不是一个选择.
这个时间可能不是一个交易破坏者,但我希望有人对如何加快速度提出一些明智的想法……不可否认,我还没有尝试过async IO,这是我的下一步.
提前感谢任何想法!
解决方法
cat yesterday-com-zone | tr A-Z a-z | sort > prepared-yesterday cat today-com-zone | tr A-Z a-z | sort > prepared-today
现在,你的程序做了一个非常简单的差异算法,你甚至可以使用diff:
diff prepared-today prepared-yesterday
编辑:
还有一种替代解决方案,可以消除一些额外的处理,可能会牺牲差异执行时间.这也假定使用GnuWin32 CoreUtils:
sort -f <today-com-zone >prepared-today sort -f <yesterday-com-zone >prepared-yesterday diff -i prepared-today prepared-yesterday
该输出将是添加,删除和更改的列表.每个区域不一定有1个更改记录(考虑当按顺序按字母顺序删除两个域时会发生什么).您可能需要使用diff选项来强制它不检查上下文的多行,以避免大量的误报变化.
您可能需要编写程序来获取两个已排序的输入文件,然后以锁定步骤,每个区域运行它们.在TODAY文件中找到新区域时,这是一个新区域.当在YESTERDAY文件中找到“新”区域(但今天丢失)时,这是一个删除.当在两个文件中找到“相同”区域时,则比较NS记录.这不是改变,也不是名称服务器的改变.