10.3969/j.issn.1000-3428.2011.23.060
基于词共现有向图的中文合成词提取算法
分词系统由于未将合成词收录进词典,因此不能识别合成词.针对该问题,提出一种基于词共现有向图的中文合成词提取算法.采用词性探测方法从文本中获取词串,由所获词串生成词共现有向图,并借鉴Bellman-Ford算法思想,从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径,该路径所对应的词串即为合成词.实验结果显示,该算法的合成词提取正确率达到91.16%.
合成词提取、词性探测、词共现有向图、自然语言处理、Bellman-Ford算法
37
TP391(计算技术、计算机技术)
广东省自然科学基金资助项目9451064101003233,S2011010003681;广东省科技计划基金资助项目2010B010600039;华南理工大学中央高校基本科研业务费基金资助项目2009ZM0125,2009ZM0 189,2009ZM0255
2012-03-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
177-180