DOI：10.3969/j.issn.1673-629X.2011.11.014

一种改进的基于后缀数组的无词典分词方法

引用

摘要：

文中改进了基于后缀数组的无词典分词算法.原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集.文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数.试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集.适用于对词条频度敏感,对计算速度要求较高的中文信息处理.

关键词：自动分词、无词典分词、后缀数组

所属期刊栏目：21

分类号：TP31(计算技术、计算机技术)

资助基金：安徽省教育厅自然科学研究资助项目KJ2009A60

在线出版日期：2012-03-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：49-52

英文信息展示

期刊专题