10.3969/j.issn.1007-757X.2010.12.002
一种基于聚类的全自动网页数据记录抽取方法
当前的网页数据记录抽取方法,存在着需要大量人工标注或者通用性不足的缺陷.为了解决这些问题,利用网页数据记录的结构性特征和视觉特征,提出了一种基于聚类的全自动网页记录抽取方法.该方法可以将输入的数据记录页面以结构化的文本记录输出.实验结果表明该方法具有良好的通用性和较高的精确性.
网页数据记录、结构特征、视觉特征、聚类、网页记录抽取
26
TP311(计算技术、计算机技术)
2011-03-31(万方平台首次上网日期,不代表论文的发表时间)
共4页
5-7,12