10.3964/j.issn.1000-0593(2022)09-2694-08
基于UMAP辅助的模糊C聚类方法进行太赫兹光谱识别
太赫兹(THz)具有低能性、瞬态性、波谱分析能力强的优点,在物质鉴别方面具有广阔的应用前景.现有的基于T Hz的物质鉴别方法,虽然取得了一定的效果,但是存在容易陷入局部最优的问题,从而导致识别精度不高.均匀流形逼近与投影(UMAP)作为一种非线性降维方法,其假设数据均匀分布在黎曼流形上,可以对具有模糊拓扑结构的流形进行建模.UMAP降维的过程是通过最小化两个拓扑表示之间的交叉熵,从而实现低维空间中数据表示的布局优化.传统的模糊C聚类方法(FCM)在聚类时,初始聚类中心往往随机给定,当初始聚类中心选择不恰当时,容易导致错误的聚类.为此,提出一种基于UMAP辅助的模糊C聚类算法,首先运用UMAP对输入的THz样本矩阵进行降维;再根据类与类之间距离最大化的原则,选择合适的初始聚类中心;最后利用模糊C均值聚类的方法进行聚类.所提出的方法不仅能够解决聚类过程中类与类之间过度拥挤的现象,而且能够反映出类别间的距离信息以便于给样本选择合适的初始聚类中心.为了验证提出的聚类方法的可靠性,运用太赫兹时域光谱技术对鲁棉研28、鲁棉研29、鲁棉研36、中棉28四种不同类型的转基因棉花种子进行了探测,利用基于UMAP辅助的模糊C聚类算法对转基因棉花种子的吸光度光谱数据进行聚类分析,成功地将四种不同类型的转基因棉花种子区分开,得到了总正确率为0.9833的聚类效果,说明提出的基于UMAP辅助的模糊C聚类算法在物质太赫兹光谱识别方面具有良好的应用前景.
太赫兹时域光谱、物质鉴别、转基因棉花种子、UMAP、降维、模糊C聚类
42
O433(光学)
国家自然科学基金;广西重点研发计划项目;广西光电信息处理重点实验室主任基金项目;国家科技重大专项
2022-09-15(万方平台首次上网日期,不代表论文的发表时间)
共8页
2694-2701