基于SVM的不良文本信息识别
不良文本识别的实际应用中,大多数文本之间总有交界甚至彼此掺杂,这种非线性不可分问题给不良文本识别带来了难度。应用 SVM 通过非线性变换可以使原空间转化为某个高维空间中的线性问题,而选择合适的核函数是 SVM 的关键。由于单核无法兼顾对独立的不良词汇和词汇组合的识别,使识别准确率不高,而且也无法兼顾召回率。针对不良文本识别的特定应用,依据 Mercer 定理结合线性核与多项式核提出了一种新的组合核函数,这种组合核函数能兼顾线性核与多项式核的优势,能够实现对独立的不良词汇以及词汇组合进行识别。在仿真实验中评估了线性核、齐次多项式核以及组合核函数,实验结果表明组合核函数的识别准确率与召回率都比较理想。
SVM、组合核函数、不良文本、信息识别、召回率
2015-06-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
183-187