10.3969/j.issn.1673-629X.2011.08.037
基于词语上下文的文本分类研究
文本自动分类系统无法直接理解其语义并进行分类,需要对文本进行预处理,提取能表达文本主题内容的关键词,将这些关键词用结构化的形式保存起来,形成文本的表示.针对文本数据中存在大量词语共现的特点,提出了一种基于上下文的文本分类方法.该方法利用词语的上下文关系定义了词语相似度和词语权值,更科学地表达了词语在该类别中的语义表示,从而更能提高文本分类的质量.实验结果表明,该方法的分类效果比传统的简单向量距离分类法有明显的改善.
词语共现、上下文、词语相似度、文本分类
21
TP391.1(计算技术、计算机技术)
江苏省淮安市科技计划项目HAG09061;淮阴工学院重点基金项目HGA0907
2011-12-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
145-148,152