10.3772/j.issn.1000-0135.2010.01.001
基于集成学习的自动标引方法研究
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.
自动标引、提取、集成学习
29
中国博士后科学基金资助项目20080430463;教育部人文社会科学研究一般项目08JC870007;南京理工大学科研启动基金项目AB41123
2010-03-02(万方平台首次上网日期,不代表论文的发表时间)
共6页
3-8