10.3969/j.issn.1673-629X.2014.04.030
中文信息检索中词典机制分词算法的研究
中文自动分词是实现搜索引擎信息检索的基础,分词词典是汉语自动分词系统的一个重要组成部分,词典的加载和查询速度直接影响到分词系统的速度。文中在研究传统词典机制的基础上,分析了基于双字哈希词典机制对词条除首次字外剩余词的不足,给出了一种改进的双字哈希的词典机制。最后,文中对改进算法从准确率、分全率和分词速度等方面进行了测试,结果表明,改进后的分词算法在不提升已有典型词典机制维护复杂度的情况下,提高了词条匹配的查询速度和效率。
信息检索、中文分词、数据结构、哈希
TP301.6(计算技术、计算机技术)
江苏省自然科学基金项目BK2009425
2014-04-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
118-121