10.3778/j.issn.1673-9418.2107033
重采样和集成学习相结合的文本多标签分类
医患纠纷类裁判文书的多标签分类是对其进行高效检索和管理的基础,然而,医患纠纷数据集的类别不平衡和标签共生现象直接影响到文书的多标签分类效果.为此,提出了一种重采样和集成学习相结合的文本多标签分类方案.该方案首先提出一种基于标签集合平均稀疏度的样本重采样算法,用于降低标签共生对重采样的影响,从而改善数据集的类别不平衡性;然后,提出一种基于集成学习的多标签分类算法,其基于重采样后的数据集分别训练出多个基分类器,并对各基分类器以一票否决的投票策略进行组合,从而进一步提升分类器的多标签分类效果.实验结果表明,提出的多标签分类方案不仅适用于医患纠纷类裁判文书,而且适用于其他存在类别不平衡和标签共生问题的文本数据集.
类别不平衡、多标签分类、集成学习、重采样算法、标签共生
17
TP18(自动化基础理论)
国家重点实验室基金;国家重点研发计划;中央高校基本科研业务费专项;中央高校基本科研业务费专项
2023-04-10(万方平台首次上网日期,不代表论文的发表时间)
共10页
892-901