10.3964/j.issn.1000-0593(2019)03-0948-05
利用带无标签数据的双支持向量机对恒星光谱分类
恒星光谱分类是天文技术与方法领域一直关注的热点问题之一.随着观测设备持续运行和不断改进, 人类获得的光谱数量与日俱增.这些海量光谱为人工处理带来了极大挑战.鉴于此, 研究人员开始关注数据挖掘算法, 并尝试对这些光谱进行数据挖掘.近年来, 神经网络、自组织映射、关联规则等数据挖掘方法广泛应用于恒星光谱分类.在这些方法中, 支持向量机 (SVM) 以其强大的学习能力和高效的分类性能而备受推崇.SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开.SVM在求解时, 通过将其最优化问题转化为具有 (QP) 形式的凸问题, 进而得到全局最优解.尽管该方法在实际应用中表现优良, 但为了进一步提高其分类能力, 有的学者提出双支持向量机 (TSVM).该方法通过构造两个非平行的分类面将两类分开, 每一类靠近某个分类面, 而远离另一个分类面.TSVM的计算效率较之传统SVM提高近4倍, 因此, 自TSVM提出后便受到研究人员的持续关注, 并出现若干改进算法.在恒星光谱分类中, 一般分类算法都是根据历史观测光谱来建立分类模型, 其中最关键的是对光谱进行人工标注, 这项工作极为繁琐, 且容易犯错.如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要.因此, 提出带无标签数据的双支持向量机 (TSVMUD) 用以实现对恒星光谱智能分类的目的.该方法首先将光谱分为训练数据集和测试数据集两部分;然后, 在训练集上进行学习, 得到分类依据;最后利用分类依据对测试集上的光谱进行验证.继承了双支持向量机的优势, 更重要的是, 在训练集上学习分类模型过程中, 不仅考虑有标记的训练样本, 也考虑部分未标记的样本.一方面提高了学习效率, 另一方面得到更优的分类模型.在SDSS DR8恒星光谱数据集上的比较实验表明, 与支持向量机SVM、双支持向量机TSVM以及K近邻 (KNN) 等传统分类方法相比, 带无标签数据的双支持向量机TSVMUD具有更优的分类能力.然而, 该方法亦存在一定的局限性, 其中一大难题是其无法处理海量光谱数据.该工作将借鉴海量数据随机采样思想, 利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究.
恒星光谱、智能分类、双支持向量机、无标签数据
39
TP391(计算技术、计算机技术)
国家自然科学基金项目U1731128,11803080;山西省自然科学基金项目201601D011042;山西省高等学校创新人才支持计划项目2016;中北大学杰出青年基金支持计划项目2017
2019-06-06(万方平台首次上网日期,不代表论文的发表时间)
共5页
948-952