10.3778/j.issn.1002-8331.2011.26.041
一种基于文档拓扑的相似性搜索算法
从海量文档中快速有效地搜索到相似文档是一个重要且耗时的问题.现有的文档相似性搜索算法是先找出候选文档集,再对候选文档进行相关性排序,找出最相关的文档.提出了一种基于文档拓扑的相似性搜索算法-Hub-N,将文档相似性搜索问题转化为图搜索问题,应用相应的剪枝技术,缩小了扫描文档的范围,提高了搜索效率.通过实验验证了算法的有效性和可行性.
文档拓扑、相似性搜索、相似度
47
TP311(计算技术、计算机技术)
国家自然科学基金the National Natural Science Foundation of China under Grant 60973081;黑龙江省教育厅科学技术研究面上项目11541263,11551352
2012-01-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
146-150