10.3969/j.issn.1001-4616.2014.04.026
无关语获取与语料聚类方法研究
剔除无关语及语料聚类对提高自然语言理解的质量具有重要意义,也是自然语言理解的预处理关键技术。鉴于无关语在语料中存在明显的特性,本文通过种子无关语推导出强无关语,并依据强无关语识别并导出新的无关语;然后,基于2-gram构建句子之间的相似性,利用层次法对语料进行聚类对QA语料进行问题相似的聚类。最后,通过识别的新无关语实验及语料聚类实验,验证本文提出方法的有效性。
无关语、获取、识别、算法
TP391(计算技术、计算机技术)
国家自然科学基金61170201、61472344;江苏省高校自然科学基金14KJB520041
2015-01-28(万方平台首次上网日期,不代表论文的发表时间)
共8页
150-157