10.3321/j.issn:1000-565X.2004.z1.011
面向化学领域网络资源的文本自动分类算法
为了提高化学主题搜索引擎的查询效果,采用距离加权k-近邻分类算法来进行自动分类.为了测试该算法对化学领域网络资源进行分类的效果,文中使用化学化工资源导航系统ChIN人工积累的资源和描述信息作为数据集,并采用基于化学领域的多层次分类体系进行分类.经测试,系统微平均值Fmicro最高可达到71%.文中还就文档的关键词和数据集的熵对分类性能的影响进行了讨论.结果表明,该算法能较好地应用于化学领域网络资源的自动分类.
机器学习、化学主题搜索引擎、文本自动分类、k-近邻方法、隐含语义检索
32
TP393(计算技术、计算机技术)
国家自然科学基金20273076
2004-12-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
52-57