10.3969/j.issn.1007-130X.2018.09.022
融合词语共现距离和类别信息的短文本特征提取方法
针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法.一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度.通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值.对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合.实验表明,该方法能够有效提高短文本特征提取的效果.
短文本、共现距离、期望交叉熵、特征提取
40
TP391.4(计算技术、计算机技术)
国家自然科学基金61762078,61363058;广西可信软件重点实验室研究课题kx201705;2016年甘肃省大学生创新创业训练计划项目201610736040,201610736041
2018-10-29(万方平台首次上网日期,不代表论文的发表时间)
共7页
1689-1695