10.3969/j.issn.1000-0135.2006.06.011
基于标引经验和机器学习相结合的多层自动分类
由于<中国图书馆分类法>类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心.基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题.本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果.本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析.
中国图书馆分类法、分类矩阵、自动分类、自动标引、语料库
25
G35(情报学、情报工作)
国家社会科学基金02BTQ012;南京农业大学校科研和教改项目Y200204
2007-01-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
725-729