10.3969/j.issn.1003-0077.2017.06.027
基于局部密度的无监督作文跑题检测方法
针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法.首先使用LDA主题生成模型挖掘待测作文的主题词,并使用分布式表示向量寻找与题目词项语义相似的词,作为对作文题目的主题词扩展,在此基础上使用提出的切题度计算方法计算待测作文的切题度,并使用所提出的基于作文集切题度局部密度的阈值抽取方法动态选取切题阈值,进而实现一种无需训练集和主题无关的无监督作文跑题检测方法.在以英语为母语的学习者和以汉语为母语的学习者所写的8个作文集共9381篇作文上的实验结果表明,该文提出的作文跑题检测方法能有效识别跑题作文,加入拼写检查预处理后,平均 F1值为79.64%,单个作文题目下 F1值最好为96.1%.
作文跑题检测、主题词抽取、切题度、阈值选取
31
TP391(计算技术、计算机技术)
国家自然科学基金61402119;广东省普通高校科技创新项目2013KJCX0071
2018-06-01(万方平台首次上网日期,不代表论文的发表时间)
共9页
205-213