基于语义相关度主题爬虫的语料采集方法

引用

摘要：

针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87％,在门户网站上的平均准确率达到64.20％.

关键词：生语料采集、语义相关度主题爬虫、页面信息相关度、URL结构信息

所属期刊栏目：28

在线出版日期：2019-06-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：190-195

英文信息展示

期刊专题