10.3969/j.issn.2095-6835.2010.09.006
基于机器学习的HTML标题抽取
标题是描述一个HTML文档主题的重要信息,但常常不能被准确指明.本文通过对过去标题抽取方法优缺点的总结和进一步分析,提出了通过机器学习策略进行标题抽取的方法.我们将HTML格式及DOM树结构等信息引入了机器学习标题抽取过程中,并通过实验验证了我们提出方法的可行性.
机器学习、标题、信息抽取
26
TP311(计算技术、计算机技术)
2014-07-08(万方平台首次上网日期,不代表论文的发表时间)
共3页
15-16,11