10.3969/j.issn.1000-2375.2021.06.015
基于数据挖掘的上市公司高送转预测研究
选择逻辑回归(logistic regression)模型、支持向量机(support vector machine)模型以及XGBoost(extreme gradient boosting)三种模型,通过各公司前七年的数据对下一年是否会发生高送转进行预测.首先,求出日数据中每年的最后一个月即12月的日平均值,并将日数据、年数据和基础数据合并为总数据.通过观察法删除其中的无用特征,随后删除缺失比例达到0.7以上的数据行和特征,并使用平均值填充剩余特征的方法填充缺失值.对来自'基础数据'的'所属行业'特征进行独热编码.随后使用Lasso回归处理共线性,并使用PCA(principal components analysis)对数据进行降维处理;使用标准差标准化的方法对数据进行标准化处理.数据清洗和预处理完成之后,使用逻辑回归、支持向量机、XGBoost三种模型,对股票下一年是否发生高送转进行预测,使用交叉验证指标分别对三种模型的预测结果进行评估.最后得出结论:对于大型投资商而言,使用XGBoost算法为股票投资进行决策支持是综合更优的选择;而对于中小型投资者来说,使用逻辑回归模型的预测结果是一种更保险的方式.
高送转;独热编码;Lasso回归;PCA;逻辑回归;支持向量机;XGBoost算法
43
TP393.1(计算技术、计算机技术)
国家自然科学基金61977021
2021-11-08(万方平台首次上网日期,不代表论文的发表时间)
共8页
698-705