基于NLP和机器学习的短文本作者识别算法

引用

摘要：

针对当前垃圾邮件账户撰写虚假在线评论,降低评论网站可信度的问题,提出一种基于自然语言处理和机器学习的短文本作者识别算法,该算法将自然语言处理技术(Natural Language Processing,NLP)与不同的机器分类器相结合,根据多个不同的语言特征解决了简短嘈杂的评论文本的作者识别问题.实验结果表明,相对于基线模型而言,本文算法在引入NLP技术后,仅采用一元语法和一元与二元语法相结合的两个N-gram模型的分类精度均有明显提高,充分说明本文算法的有效性.

关键词：自然语言处理、机器学习、作者识别、N-gram模型

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：河南省科技攻关计划项目18210221053

在线出版日期：2021-01-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：32-37

英文信息展示

期刊专题