基于混合条件模型的Web信息抽取
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
Web信息抽取、最大熵马尔可夫模型、条件模型、最大熵、隐马尔可夫模型
40
TP391(计算技术、计算机技术)
湖南省自然科学基金资助项目,编号04JJ40051;湖南省教育厅科研项目,编号06c724
2008-11-06(万方平台首次上网日期,不代表论文的发表时间)
共4页
52-55