10.20009/j.cnki.21-1106/TP.2022-0135
大规模MIMO系统中功率分配的深度强化学习方法
对于最大化下行链路总和频谱效率优化问题,目前仍然缺乏针对多小区多用户大规模MIMO系统的研究,且通常未考虑上行信道状态信息的不完美.鉴于此,研究了上行信道状态信息不完美条件下的多小区多用户大规模MIMO系统下行链路总和频谱效率优化问题,以最大化下行链路总和频谱效率为目标,提出了深度Q网络和深度确定性策略梯度的两种功率分配方法.深度Q网络可解决通信系统中维度爆炸和缺乏泛化的问题,但Q-Learning算法仅适用于离散空间,必须量化传输功率.而深度确定性策略梯度是适用连续动作空间的算法,可解决由于量化功率带来的性能下降问题.仿真结果表明,与其他传统功率分配方法相比,所提方法可获得更优的总和频谱效率性能,而且时间复杂度要低得多.此外,深度确定性策略梯度方法在总和频谱效率性能和时间复杂度方面都优于深度Q网络.
大规模MIMO、功率分配、深度强化学习、总和频谱效率、不完美信道状态信息、导频污染
44
TP18(自动化基础理论)
华为技术有限公司合作项目YBN2019115054
2023-10-30(万方平台首次上网日期,不代表论文的发表时间)
共7页
2221-2227