DOI：10.11925/infotech.2096-3467.2018.0655

基于改进的隐马尔科夫模型的网页新闻关键信息抽取

引用

摘要：

[目的]通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果.[方法]将网页文档转为D0M树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进.[结果]使用隐马尔科夫模型的改进算法,在已构建抽取模型的网站中,平均准确率可达97％.[局限]抽取模型在分类能力上稍有不足,无法对细微差别信息进行准确抽取.[结论]该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点.

关键词：信息抽取、隐马尔科夫模型、机器学习、DOM树

所属期刊栏目：3

分类号：TP393(计算技术、计算机技术)

资助基金：教育部社会科学重大攻关项目基金项目“大数据驱动的城市公共安全风险研究”项目16JZD023的研究成果之一

在线出版日期：2019-05-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：120-128

英文信息展示

期刊专题