我正在使用sql Server 2008全文搜索引擎开发知识库项目.
项目包含在文章和文件中,每篇文章都有多个文件.在这些文章中,整个内容都是纯 HTML.
项目包含在文章和文件中,每篇文章都有多个文件.在这些文章中,整个内容都是纯 HTML.
现在,我成功地在sql Server 2008上创建了全文目录和索引,并且我的数据库与版本10兼容.
这是我的问题:
1)在这些文章中搜索时,是否可以忽略html标签,更清楚地包含“< ...>”中包含的文本,因为如果我想搜索div,表等,应该没有返回结果?
2)文章将随时更新,因此在插入新记录时必须更新全文索引.在创建全文目录时是否足以仅设置“TRACK CHANGES AUTOMATIC”?
3)我们以后可能会使用FILESTREAM功能,sql Server 2008在使用全文索引的文件上有很好的表现吗?
sql Server 2008在索引方面有哪些特定的文档类型?
问候
解决方法
请检查以下内容:
1)在sql Server全文中,我们可以定义干扰词/停用词.您可以编辑Noise world文件,然后必须重建目录.所以你可以把所有的html标签都作为噪音.请检查
http://msdn.microsoft.com/en-us/library/ms142551.aspx
2)通过跟踪更改,它会自动包含当前全文搜索的更改,但这些新添加的文章的排名会从之前的更改中更改.因此,除非你掌握索引同步,否则它将放弃和排名.
3)据我所知,我们可以实现自定义过滤器,词干分析器和断字器,并可以插入sql Server全文搜索.默认情况下,我可能不知道完整的列表,但它有doc和pdf.