10.3969/j.issn.1673-4785.201305044
基于遗传算法优化综合启发式的中文网页特征提取
特征提取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。针对传统的特征提取方法不能全面有效地考查待选特征词的缺点,提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法。该方法通过词频、关联度、词性以及位置等多种启发式来综合考查待选特征,并利用遗传算法来优化各启发式的权重参数。通过在不同测试集上进行对比,实验结果表明,与传统方法相比,该方法能够有效避免传统特征提取方法产生的偏差,获得具有代表性的特征集,从而使得该方法具有一定的实用价值。
特征提取、遗传算法、文本分类、文本聚类、词频、关联度
TP391.1(计算技术、计算机技术)
河南省基础与前沿技术研究计划项目102300410266;郑州轻工业学院博士科研基金资助项目.
2014-09-17(万方平台首次上网日期,不代表论文的发表时间)
共6页
474-479