10.3969/j.issn.1000-3428.2014.02.013
基于计数型布隆过滤器的文本检索模型
分布式文本检索系统难以兼顾高效率的数据检索和低成本的索引维护。为此,提出一种基于计数型布隆过滤器的文本检索模型 CBFTRM。该模型将物理节点分为数据节点和索引节点,分别采用结构化 P2P 进行网络覆盖。每个数据节点负责存储文档数据并维护与之相应的倒排索引,同时通过倒排索引中的关键词集合计算出计数型布隆过滤器值,发送给相应的索引节点。每个索引节点建立一棵以部分数据节点的特征信息(包括过滤器值)为叶节点、以过滤器值运算结果为内部节点的搜索树,并在叶节点发生变化时对搜索树进行维护。仿真实验结果表明,该模型文档定位快,索引维护通信量小,而且具有较高的查准率。
计数型布隆过滤器、搜索树、结构化P2P、文本检索、倒排索引
TP311.13(计算技术、计算机技术)
山东省自然科学基金资助项目ZR2009GM021
2014-05-28(万方平台首次上网日期,不代表论文的发表时间)
共4页
58-61