面向文本知识管理的自适应中文分词算法

引用

摘要：

针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法--SACWSA.SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义.SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧.通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求.

关键词：知识管理、文本处理、统计方法、自适应算法

所属期刊栏目：33

分类号：TP182(自动化基础理论)

资助基金：重庆市自然科学基金资助项目2008BB2183;中央高校基本科研资助项目DJIR10180006;"211工程"三期建设资助项目S-10218;中国博士后科学基金资助项目20080440699;国家科技支撑计划资助项目2008BAH37B04;国家社会科学基金"十一五"规划教育学重点项目ACA07004-08

在线出版日期：2011-01-24（万方平台首次上网日期，不代表论文的发表时间）

页码：110-117

英文信息展示

期刊专题