10.16652/j.issn.1004-373x.2023.01.007
基于SARSA学习的跳频系统智能抗干扰决策算法
为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法.试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界的动作选择策略和优先遍历思想应用于SARSA学习,以平衡智能体对状态-动作空间的探索和利用.另外,针对多种干扰并存的电磁环境以及跳频通信系统的跳速、信道划分间隔和跳频序列等可调节参数,设计了相应的系统模型、决策目标、状态-动作空间和奖赏函数.在不同干扰环境下所提算法都优于三种对比算法,表明基于置信度上界的动作选择策略和优先遍历思想的加入较好地协调了探索与利用的矛盾,提升了收敛速度和稳态性能,加强了SARSA学习对干扰环境的适应性.
复杂电磁环境、跳频系统、抗干扰、SARSA学习、置信度上界、优先遍历、状态动作空间、探索与利用
46
TN914.41-34;TP18
国家自然科学基金U19B2016
2023-01-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
31-35