10.3969/j.issn.1007-130X.2011.01.028
社区问答服务中的问题分类任务研究
类似"百度知道"这类社区问答服务系统的主要任务之一是对问题进行分类,以便于对用户的提问进行组织.社区问答服务的实际应用需求对问题分类算法提出了高准确性、小计算量、对噪音数据敏感度低等要求.基于Kullback-Leibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本文在该分类算法的基础上,结合语言模型的思想,提出一种改进的分类算法:n-gram KLD.通过在一个大尺度的问答对数据集合上进行的一系列实验,表明n-gram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好地满足了问题分类任务的要求.
短文本分类、Kullback-Leibler Distance、语言模型
33
TP18(自动化基础理论)
国家科技重大专项基金资助项目2009ZX03004-004-04
2011-04-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
143-149