算法 – 如何确定两个网页是否相同?

前端之家收集整理的这篇文章主要介绍了算法 – 如何确定两个网页是否相同?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
有什么技术有助于检测网页是否与另一个网页相同?

同样,我不是指char-for-char等同的(这很简单),但是足够强大,可以忽略页面上的当前日期/时间等.

例如,去Yahoo! News文章加载页面,在另一个浏览器中10分钟后打开相同的页面. Baring重写,这些页面将有一些差异(时间戳,可能的事情,如广告,如相关的故事),但一个人可以看看这两个,并说他们是一样的.

注意我并不想修复(或依赖)URL归一化.即,找出foo.html& foo.html?bar = bang是一样的

解决方法

这听起来像是通过强大的方法来衡量两页的相似性.

鉴于页面的结构不会改变太多,我们可以减少测试页面上的文本是否大致相同的问题.当然,这个the problems alluded to by nickf关于摄影师页面方法仍然存在,但是如果你主要关心雅虎的消息或者这样的话就可以了.

要与页面进行比较,您可以使用称为“字符串内核”的机器学习方法.这是paper年初,最近一套slides的R包和video lecture.

非常粗略地说,一个字符串内核会查找有多少单词,一对单词,三个单词等两个文档有共同之处.如果A和B是两个文件,k是一个字符串内核,那么k(A,B)的值越高,两个文档就越相似.

如果您设置了一个阈值t,并且只说两个文档对于k(A,B)>相同.你应该有一个相当好的方式做你想要的.当然,您必须调整阈值以获得应用程序的最佳结果.

原文链接:/html/227883.html

猜你在找的HTML相关文章