10.3969/j.issn.1003-4271.2014.01.28
基于网页特征的特征词提取技术
特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大.
特征词提取、网页、元数据、加权函数
40
TP391.1(计算技术、计算机技术)
山西省自然科学基金2012011011-4
2014-03-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
137-141