10.16652/j.issn.1004-373x.2016.01.029
基于半监督学习的Web页面内容分类技术研究
针对如何使用标记和未标记数据进行Web分类这一关键性问题,探索一种生成模型和判别模型相互结合的分类器,在无标记训练集中采用最大似然估计,构造一种具有良好分类性能的半监督分类器.利用狄利克雷-多项式混合分布对文本进行建模,提出了适用于半监督学习的混合模型.针对半监督学习的EM算法收敛速度过快,容易陷入局部最优的难题,引入两种智能优化的方法——模拟退火算法和遗传算法进行分析和处理,结合这两种算法形成一种新型智能的半监督分类算法,并且验证了该算法的可行性.
Web页面内容分类、半监督学习、半监督分类、智能优化、Dirichlet分布
39
TN919-34;TP391
咸阳师范学院专项科研计划项目:基于人工智能的三维油藏数据处理研究07XSYK224;陕西省教育厅专项科研计划项目:信息化环境下关中方言的保护与传承12JK0212
2016-01-26(万方平台首次上网日期,不代表论文的发表时间)
共6页
108-112,117