DOI：10.3969/j.issn.1000-1220.2007.07.033

一种基于语义和统计特征的中文文本特征表示方法

引用

摘要：

基于关键词集的中文文本特征表示方法难以准确表示文本语义信息,从而导致聚类质量较差.为了解决这个问题,本文将本体论和词共现模型的思想引入到中文文本的特征表示中,并在此基础上提出了一种基于语义和统计特征的中文文本特征表示方法.本方法在统计特征的基础上加入了基于知网和特征项共现的语义特征,实验结果表明该方法更加准确地表示了中文文本的语义信息,使得中文文本自动聚类的质量提高了近18%.

关键词：向量空间模型、本体论、知网、词共现

所属期刊栏目：28

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金70171052;安徽省自然科学基金2004kj011;安徽省高校青年教师科研项目2006jq1040

在线出版日期：2007-07-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：1311-1313

英文信息展示

期刊专题