基于虚词停顿的中文分词消歧研究
提出一种基于虚词停顿的中文分词消岐的模型.首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理.整个过程分为粗分词、精分词和歧义消除三个过程.测试结果显示,该模型能有效地降低词歧义引起的错误切分率.
分词、停顿、最大匹配、N-Gram模型、数据平滑
54
G250(图书馆学、图书馆事业)
广西教育厅科研项目桂科目0991254;广西研究生教育创新计划资助项目2008105960812M18
2011-03-25(万方平台首次上网日期,不代表论文的发表时间)
121-125