10.19678/j.issn.1000-3428.0050677
基于SVM与DOM重心半径模型的Web正文提取
为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法.通过SVM对网页DOM节点集进行提取,得出文本块节点.根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程.实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好.
支持向量机、特征向量、重心半径、网页、正文提取
45
TP18(自动化基础理论)
国家自然科学基金青年项目“基于能力集成动态规划的自适应软件需求的群体决策问题研究”61502355
2019-07-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
206-210