10.16208/j.issn1000-7024.2019.04.031
基于万有引力模型的关键词自动抽取方法
为解决传统万有引力模型因词语质量、词间距离度量不足导致关键词效果较差的问题,分别从词语质量表示和距离计算两方面对传统万有引力模型进行改进.提出基于词频-文档分布熵的方法构建通用词表,过滤候选词后,综合位置、词性、词长特征改进TF-IDF方法,计算词语外部重要性;构建共现网络图,通过计算词语关联度衡量单词内部重要性,融合内部重要性和外部重要性计算词语质量并赋予图节点差异化初始权重;在语义距离的基础上引入依存句法距离,计算词间引力作为边的权重,多次迭代后排序输出TopK个关键词.实验结果表明,该方法在3GPP技术规范和公开的SemEval2010、DUC2001数据集上较传统方法取得了更好的效果,验证了方法的有效性和通用性.
万有引力模型、词频-文档分布熵、关键词抽取、词语关联度、依存句法距离
40
TP391(计算技术、计算机技术)
国家自然科学基金项目61671070;国家社会科学基金重大基金项目15ZDB017;国家语委重大课题基金项目ZDA125-26;北京成像技术高精尖创新中心基金项目BAICIT-2016003
2019-06-27(万方平台首次上网日期,不代表论文的发表时间)
共8页
1091-1098