段落及类别分布的特征选择方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1000-1220.2018.01.005

段落及类别分布的特征选择方法

引用
特征选择是文本分类过程中解决数据高维问题的重要步骤.现有特征选择方法主要是基于特征词的词频或文档频率.虽然这些信息在一定程度上度量了特征词的重要程度,但它们不能刻画特征词在文档中的分布情况.针对这一问题,将文档的自然段落作为统计单元,提出了特征词的段落频率,该度量标准能够描述特征词在文档中的均匀分布程度.然后,将特征词的段落频率与特征词在类内和类间的分布信息相结合提出一种新的特征选择方法FSPC.为了验证方法的有效性,采用支持向量机和朴素贝叶斯作为分类器,在复旦语料库和搜狐新闻语料库上将FSPC与CHI Square,DF,IG和CMFS四种特征选择方法进行对比实验.实验结果表明,就评价指标F1值而言,FSPC方法的性能优于所对比的方法.

文本分类、特征选择、段落分布、类别分布

39

TP391(计算技术、计算机技术)

吉林省科技发展计划项目20170204002GX;长春市科技计划项目2014214;吉林省发改委引导项目2015Y056, [2013]779;国家自然科学基金项目11501095

2018-01-18(万方平台首次上网日期,不代表论文的发表时间)

共6页

17-22

相关文献
评论
暂无封面信息
查看本期封面目录

小型微型计算机系统

1000-1220

21-1106/TP

39

2018,39(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn