基于FastText和关键句提取的中文长文本分类

引用

摘要：

FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1％,比经典的FastText模型提高了约4％.

关键词：文本分类;FastText;TextRank;词频-逆文本频率

所属期刊栏目：30

资助基金：陕西省2020年技术创新引导专项基金2020CGXNG-012

在线出版日期：2021-08-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：213-218

英文信息展示

期刊专题