DOI：10.3969/j.issn.1673-629X.2008.10.011

网页信息抽取及其自动文本分类的实现

引用

摘要：

Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息.文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题.为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法.该方法可以提高网页正文提取及其自动文本分类的效率.实验证明,该方法是可行的.

关键词：标记、文本分类、信息抽取

所属期刊栏目：18

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金60573064

在线出版日期：2008-11-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：37-39

英文信息展示

期刊专题