基于虚词停顿的中文分词消歧研究

引用

摘要：

提出一种基于虚词停顿的中文分词消岐的模型.首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理.整个过程分为粗分词、精分词和歧义消除三个过程.测试结果显示,该模型能有效地降低词歧义引起的错误切分率.

关键词：分词、停顿、最大匹配、N-Gram模型、数据平滑

所属期刊栏目：54

分类号：G250(图书馆学、图书馆事业)

资助基金：广西教育厅科研项目桂科目0991254;广西研究生教育创新计划资助项目2008105960812M18

在线出版日期：2011-03-25（万方平台首次上网日期，不代表论文的发表时间）

页码：121-125

英文信息展示

期刊专题