自适应的集成定序算法

引用

摘要：

定序变量常常用来表达人们对事物的态度和偏好,例如在推荐系统中,消费者对商品的打分评价是定序变量,在自然语言处理中,情感分析的情感也是定序变量.目前学术界采用定序Logit模型来处理定序变量,但是定序Logit回归模型要求定序变量大体服从均匀分布,当自变量没能很好符合均匀分布时,定序Logit回归模型预测定序变量的结果并不理想.基于此,文中提出一种自适应的集成定序算法.首先,借助Boosting思想提出了类Boosting算法,根据定序Logit回归模型的思想构造了定序多层感知机模型和定序随机森林模型,这两个模型同Softmax多分类模型和定序Logit模型构成类Boosting算法.在处理数据中,当4个模型产生的预测值不完全相同时,该样本进入类Boosting模型继续进行训练,直到训练轮数超过某个阈值时,停止训练.然后,利用随机森林模型构建训练集的全部预测值到真实值的映射函数.所提算法在定序变量是任意分布时,仍然有较高的预测精度,极大地提升了定序Logit回归模型的适用范围.将所提算法用于白酒质量数据集、红酒质量数据集上对酒的质量进行预测时,其准确率优于定序Logit模型、多分类算法Softmax、多层感知机和KNN.

关键词：定序Logit回归模型、定序变量、集成算法、随机森林算法、多层感知机算法

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;中央高校基本科研业务费;甘肃省自然科学基金;广西可信软件重点实验室研究课题

在线出版日期：2022-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：242-246,266

英文信息展示

期刊专题