一个RSS级别的网页主题内容抽取方法与系统
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSS feed中的少量entry信息训练得到主题内容模板,通过模板可以对RSS feed下的所有网页进行主题内容抽取.该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化.从实验结果来看,该方法和系统有很高的召回率和准确率.
网页主题内容抽取、RSS、模板、自适应机制
54
TP393;G250.7(计算技术、计算机技术)
南京信息工程大学科研基金资助项目SK 20080153
2011-03-25(万方平台首次上网日期,不代表论文的发表时间)
107-110,130