10.3778/j.issn.1002-8331.1302-0127
脏话文本语料库建设
脏话作为一种非正规的语言现象,在网络评价中已经无处不在,对网络文明造成了影响。描述了脏话文本的特点、定义及其危害,并对网络脏话文本进行了研究与分析,设计了一个机器自动判别与少量人工标注相结合的脏话语料采集方法,借助海量的真实评价文本,构造了一个较大规模的高质量的脏话语料库,初步采集了6000多句脏话语料。然后利用一元、二元和三元特征,通过SVM与最大熵分类器对脏话的自动分类进行了实验,结果表明,两种分类器的准确率和查全率都达到97%以上。
脏话文本、语料库、文本分类、自动识别
TP391(计算技术、计算机技术)
2014-06-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
126-129