10.3969/j.issn.1009-3044.2011.01.079
文本分类中词语权重计算的改进
文本的形式化表示一直是文本检索、自动Model)中的TF.IDF文本表示是该领域中得到广泛应用并且取得较好效果的一种文本表示方法.词语在文本集合中的类别分布比例量上的差异是决定词语表达文本内容的重要因素之一.但现在的TF.IDF方法无法把握这一因素,针对这一缺点,将信息增益公式引入文本集合中并提出TF.IDF.IG文本表示方法,并比较分析了其相较于传统TF.IDF公式的优点.用实验验证了其可行性和有效性.
文本表示、向量空间模型、词语权重、信息增益
7
TP391(计算技术、计算机技术)
2011-04-20(万方平台首次上网日期,不代表论文的发表时间)
共3页
204-206