10.3969/j.issn.1000-3428.2012.08.085
基于DOM树的视频元数据抽取系统
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块.为此,设计一种基于DOM树的视频元数据抽取系统.通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据.实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统.
网络爬虫、信息采集、URL调度、增量更新、DOM树
38
TP311(计算技术、计算机技术)
国家科技重大专项基金资助项目2011ZX002-4,2011ZX03002-005-02;重庆大学研究生教育改革基金资助项目2010JGXM015
2012-06-26(万方平台首次上网日期,不代表论文的发表时间)
共3页
268-270