基于句子的文本表示及中文文本分类研究

引用

摘要：

文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.

关键词：信息资源管理、句子包、文本表示、文本分类

所属期刊栏目：28

分类号：TP3;TP1

资助基金：国家自然科学重点基金资助项目70431001

在线出版日期：2009-12-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：839-843

英文信息展示

期刊专题