10.3969/j.issn.1003-0077.2023.01.017
基于名词掩盖的跨领域作者识别研究
为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现:名词具有较高的领域相关性.然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力.在由21953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标.实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性.
作者识别、跨领域、迁移学习、掩盖名词
37
TP391(计算技术、计算机技术)
国家社会科学基金;辽宁省自然科学基金;大连外国语大学研究创新团队
2023-03-30(万方平台首次上网日期,不代表论文的发表时间)
共9页
160-168