10.3969/j.issn.1673-629X.2008.03.007
基于专有名词优先的快速中文分词
中文分词是中文信息处理系统中的一个重要部分.主题信息检索系统对分词的速度和准确率有特殊的要求.文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整.实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能.
中文分词、专有名词、词典机制
18
TP391(计算技术、计算机技术)
2008-05-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
24-27