10.3969/j.issn.1006-9348.2010.05.032
隐马尔可夫模型解决信息抽取问题的仿真研究
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的.为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maximm Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取.仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高.
隐马尔可夫模型、信息抽取、极大似然、机器学习
27
TP391(计算技术、计算机技术)
陕西省自然科学基金资助项目2007F25;西安财经学院科研基金资助项目07XCK04;陕西省教育厅专项科研计划项目09JK440
2010-07-28(万方平台首次上网日期,不代表论文的发表时间)
共4页
132-135