一种Web主题文本通用提取方法

引用

摘要：

为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法.该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来.由于本方法不涉及具体的HTML标记分析,其通用性较强.实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求.

关键词：Web文本、文本提取、文本语料库

所属期刊栏目：27

分类号：TP311.52(计算技术、计算机技术)

资助基金：国家自然科学基金60471055;国家高技术研究发展计划863计划2005AA114030

在线出版日期：2007-07-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：1394-1396

英文信息展示

期刊专题