10.3969/j.issn.1000-7024.2012.01.076
词典与统计方法结合的中文分词模型研究及应用
为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题.
分词、mmseg算法、互信息、词典、统计
33
TP311(计算技术、计算机技术)
国家自然科学基金项目71001085
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
387-391