DOI：10.3969/j.issn.1000-7024.2012.01.076

词典与统计方法结合的中文分词模型研究及应用

引用

摘要：

为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题.

关键词：分词、mmseg算法、互信息、词典、统计

所属期刊栏目：33

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金项目71001085

在线出版日期：2012-04-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：387-391

英文信息展示

期刊专题