10.3969/j.issn.1000-3428.2010.12.029
基于标签路径聚类的文本信息抽取算法
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法.对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站的实验结果表明,该算法运行速度快、准确度高.
标签路径、网页分割、信息抽取、聚类、阈值
36
TP391(计算技术、计算机技术)
2010-08-27(万方平台首次上网日期,不代表论文的发表时间)
共3页
83-84,87