10.3969/j.issn.1000-3428.2016.11.009
一种基于本体语义的灾害主题爬虫策略
为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过 HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计 URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。
主题爬虫、本体、语义相似度、向量空间模型、相关度计算、锚文本
42
P208(一般性问题)
国家自然科学基金;国家自然科学基金;国家自然科学基金;四川省应急测绘与防灾减灾工程技术研究中心开放基金
2016-12-02(万方平台首次上网日期,不代表论文的发表时间)
共7页
50-56