10.3969/j.issn.1673-629X.2019.07.016
融合多因素的TFIDF关键词提取算法研究
为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的TFIDF关键词提取算法相结合,采用不同权重的方法得到最终的词语权重,按照词语权重从大到小取得前5个词作为文本的关键词.以本校图书馆提供的8045篇《红色中华》新闻为源数据,从准确度、召回率及F1值三个指标对文中算法、经典的TFIDF算法和专家标注进行对比,发现文中算法在三个指标上均优于经典的TFIDF算法,与专家标注比较接近.
TFIDF算法、词位置、词性、词语关联、词长、词跨度
29
TP301.6(计算技术、计算机技术)
国家社会科学基金项目18BTQ042;国家级大学生创新创业训练计划项目201710719024
2019-07-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
80-83