10.3969/j.issn.1002-137X.2012.03.044
基于遗传算法和隐马尔可夫模型的Web信息抽取的改进
为了进一步提高Web信息抽取的准确性和效率,针对Web信息抽取的遗传算法和一阶隐马尔可夫模型混合方法在初值选取和参数寻优上的不足,提出了一种遗传算法和二阶隐马尔可夫模型内嵌结合的改进方法.在分层预处理阶段,利用格式信息和文本特征将文本切分成文本行、块或单个的词等恰当的层次;然后采用内嵌的遗传算法和二阶隐马尔可夫混合模型训练参数,保留最优和次优染色体,修正Baum-Welch算法的初始参数,多次使用遗传算法微调二阶隐马尔可夫模型;最后用改进的Viterbi算法实现Web信息抽取.实验结果表明,改进方法在精确度、召回率指标和时间性能上均比遗传算法和一阶隐马尔可夫模型的混合方法具有更好的性能.
Web信息抽取、遗传算法、二阶隐马尔可夫模型、分层
39
TP391(计算技术、计算机技术)
国家自然科学基金60775041;山西省高校科技开发项目20101120
2012-05-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
196-199,215