本文只是一个山寨试验品,思路仅供参考.
--------------------------------------------------------------------------------
原理介绍:
索引建立 目录结构划分方案也只是很简易的实现了一下,通过unicode把任意连续的两个字符(中文或英文)分为4个字节来做四层目录,把索引的内容对应的主关键字(主要为了使用sql索引和唯一性)作为文件名,两个字符在索引内容中的位置作为文件后缀来存储.文件本身为0字节,不保存任何信息.
比如一条数据 "pk001","山寨索引"
山寨索引 四个字的unicode为[0]: 113
[1]: 92
[2]: 232
[3]: 91
[4]: 34
[5]: 125
[6]: 21
[7]: 95
那么对应的文件结构为
../113/92/232/91/pk001 .0
../232/91/34/125/pk001 .1
../34/125/21/95/pk001 .2
索引使用
比如搜索"寨索引 " 则搜索 "../232/91/34/125/" 目录下的所有文件,然后根据 pk001 .1的文件后缀名1,去看 ../34/125/21/95/pk001.2文件是否存在.依次类推,最后返回一个结果集.
--------------------------------------------------------------------------------
实用性
具体的实用性还有待验证.这只是实现了精确的like搜索,而不能做常见搜索引擎的分词效果.另外海量数据重建索引的性能也是面临很严峻的问题,比如cpu负载和磁盘io负载.关于windows一个目录下可以保持多少个文件而不会对文件搜索造成大的性能损失也有待评估,不过这个可以考虑根据主键的文件名hash来增加文件目录深度降低单一目录下的文件数量.--------------------------------------------------------------------------------
演示效果
实现了针对test标的name和caption两个字段作索引搜索.
-- 设置和获取索引文件根目录
--select dbo.xfn_SetMyIndexFileRoot('d:/MyIndex') --select dbo.xfn_GetMyIndexFileRoot()
-- 建立测试环境
go create table test( id uniqueidentifier,name nvarchar ( 100),caption nvarchar ( 100))
insert into test select top 3 newid (),' 我的索引 ',' 测试 ' from sysobjects
insert into test select top 3 newid (),' 我的测试 ',' 索引 ' from sysobjects
insert into test select top 3 newid (),' 测试索引 ',' 测试索引 ' from sysobjects
insert into test select top 3 newid (),' 索引 ' from sysobjects
create index i_testid on test( id)
-- 建立索引文件
declare @t int select @t=
dbo. xfn_SetKeyForMyIndex( id,'testIndex',name + ' ' + caption)
from test
-- 查询数据
select a. from test a,dbo. xfn_GetKeyFromMyIndex( '测试 索引 我的','testIndex' ) bwhere a. id= b. pk
/
0C4634EA-DF94-419A-A8E5-793BD5F54EED 我的索引 测试
2DD87B38-CD3F-4F14-BB4A-00678463898F 我的索引 测试
8C67A6C3-753F-474C-97BA-CE85A2455E3E 我的索引 测试
C9706BF1-FB1F-42FB-8A48-69EC37EAD3E5 我的测试 索引
8BBF25CC-9DBB-4FCB-B2EB-D318E587DD5F 我的测试 索引
8B45322D-8E46-4691-961A-CD0078F1FA0A 我的测试 索引
*/
--drop table test
--------------------------------------------------------------------------------