如何在Sql Server 2008全文搜索中忽略html标记

前端之家收集整理的这篇文章主要介绍了如何在Sql Server 2008全文搜索中忽略html标记前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在使用sql Server 2008全文搜索引擎开发知识库项目.
项目包含在文章文件中,每篇文章都有多个文件.在这些文章中,整个内容都是纯 HTML.

现在,我成功地在sql Server 2008上创建了全文目录和索引,并且我的数据库与版本10兼容.

这是我的问题:

1)在这些文章搜索时,是否可以忽略html标签,更清楚地包含“< ...>”中包含的文本,因为如果我想搜索div,表等,应该没有返回结果?

2)文章将随时更新,因此在插入新记录时必须更新全文索引.在创建全文目录时是否足以仅设置“TRACK CHANGES AUTOMATIC”?

3)我们以后可能会使用FILESTREAM功能,sql Server 2008在使用全文索引的文件上有很好的表现吗?
sql Server 2008在索引方面有哪些特定的文档类型?

问候

解决方法

请检查以下内容

1)在sql Server全文中,我们可以定义干扰词/停用词.您可以编辑Noise world文件,然后必须重建目录.所以你可以把所有的html标签都作为噪音.请检查

http://msdn.microsoft.com/en-us/library/ms142551.aspx

2)通过跟踪更改,它会自动包含当前全文搜索的更改,但这些新添加文章的排名会从之前的更改中更改.因此,除非你掌握索引同步,否则它将放弃和排名.

3)据我所知,我们可以实现自定义过滤器,词干分析器和断字器,并可以插入sql Server全文搜索.默认情况下,我可能不知道完整的列表,但它有doc和pdf.

有关sql Server全文搜索2008的更多信息,请检查:

http://technet.microsoft.com/en-us/library/cc721269.aspx

原文链接:/mssql/79443.html

猜你在找的MsSQL相关文章