中文分词模型的领域适应性方法

引用

摘要：

字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性.

关键词：卡方统计量、边界熵、领域适应性、自举算法、中文分词、社会计算、社交网络

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：The research is supported by the National Natural Science Foundation of ChinaGrant .60975054,61273318;the National Social Science Foundation of China Grant No.06BYY048.本课题得到国家自然科学基金60975054、61273318;国家社会科学基金06BYY048

在线出版日期：2015-04-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：272-281

英文信息展示

期刊专题