10.3969/j.issn.1673-629X.2008.10.011
网页信息抽取及其自动文本分类的实现
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息.文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题.为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法.该方法可以提高网页正文提取及其自动文本分类的效率.实验证明,该方法是可行的.
标记、文本分类、信息抽取
18
TP393(计算技术、计算机技术)
国家自然科学基金60573064
2008-11-27(万方平台首次上网日期,不代表论文的发表时间)
共3页
37-39