基于N元语言模型的文本分类方法
分类是近年来自然语言处理领域的一个研究热点.在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型.该模型不以传统的"词袋"(bag of words)方法表示文档,而将文档视为词的随机观察序列.根据该方法,设计并实现一个基于词的2元语言模型分类器.通过N元语言模型与传统分类模型(向量空间模型和Naive Bayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能.
文本分类、N元语言模型、参数平滑
25
TP391(计算技术、计算机技术)
国家高技术研究发展计划863计划2001AA114110
2005-01-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
11-13,16