10.3969/j.issn.1671-6833.2014.05.011
一种改进的中文分词在主题搜索中的应用
主题搜索的核心内容是以中文分词为基础的内容匹配,而中文分词的准确性以及对未登记词的识别率问题仍是目前主题搜索的瓶颈.提出了一种改进最大匹配中文分词算法IMMM,通过词库预处理、未登录词处理和歧义消除等策略,并将主题分类和分词词典的存储相结合,构造了一个主题搜索系统.实验证明,改进后的算法较传统的搜索算法在搜索准确率方面有了较大的改进,系统整体搜索效率有明显提高.
最大匹配、主题搜索、词库、中文分词
35
TP3(计算技术、计算机技术)
河北省高等学校科学技术研究青年基金项目20111122
2014-10-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
44-48