10.3772/j.issn.1000-0135.2011.10.003
舆情搜索引擎中网页信息的采集与抽取研究
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法.在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量.
网络舆、情抽取规则、新闻网页、信息抽取
10
TP3;O65
国家社科基金军事学项目研究成果之一
2011-12-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
1022-1027