10.16208/j.issn1000-7024.2015.02.041
结合半监督与主动学习的复杂名词短语识别
为克服传统的全监督机器学习模型的训练依赖于大量的标注样本的弱点,给出一种半监督学习和主动学习相结合的算法。根据主动学习选择策略选择最有价值的句子来标注,结合半监督来充分利用未标注的句子。结合汉语语料的特点,改进主动学习选择策略。实验结果表明,与采用随机选择标注样本相比,在使用相同数目的训练样本的情况下,该算法可以使学习器的F-score调高10.2%,在分类器到达相同性能的情况下,人工标注量可以减少32%,学习器对标注样本的需求得到了有效降低。
复杂名词短语、主动学习、半监督学习、条件随机域、选择策略
TP391(计算技术、计算机技术)
国家自然科学基金项目61133012、61173095
2015-03-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
498-501,506