一种Web主题文本通用提取方法
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法.该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来.由于本方法不涉及具体的HTML标记分析,其通用性较强.实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求.
Web文本、文本提取、文本语料库
27
TP311.52(计算技术、计算机技术)
国家自然科学基金60471055;国家高技术研究发展计划863计划2005AA114030
2007-07-02(万方平台首次上网日期,不代表论文的发表时间)
共3页
1394-1396