10.3969/j.issn.1672-9722.2009.11.006
一种基于文本样式的Web主题信息提取方法研究
考虑Web页面表现形式对主题相关度的影响,提出了一个基于文本样式的Web主题提取算法.该算法解析Web页面中的文本样式,根据不同的文本样式来计算文本的重要度,选取重要度较高的文本作为该页面的主题.算法无须对页面进行复杂的结构分析,也避免了模板需要人工手动配置或训练的繁琐问题,具有较强的通用性.通过对十大类网站的一百个网页的测试,结果表明该算法具有较高的准确度.
文本样式、主题提取、算法
37
TP393(计算技术、计算机技术)
2010-01-18(万方平台首次上网日期,不代表论文的发表时间)
共5页
17-20,176