10.3969/j.issn.1672-9722.2022.11.002
基于强化学习TD3算法的投资组合管理
针对投资组合管理问题,设计一种基于深度强化学习TD3(Twin Delayed Deep Deterministic policy gradient algo-rithm)双延迟确定性策略梯度算法的投资组合框架,投资者通过观察股票的因子信息做出决策以达到终期收益最大.因子选择上采用LGBM方法选取有效因子,模型训练过程通过数据增强的方法加强对环境的探索能力.选取两组股票做为风险资产,TD3策略在测试时期的年化收益均超过60%,夏普比率均超过2,综合来看TD3策略收益、风险控制、稳定性方面都要显著优于其他对照组(等权重、沪深300指数和DDPG策略),表明该策略在风险与收益的综合指标下有效.
深度强化学习、投资组合、量化投资
50
TP18(自动化基础理论)
国家自然科学基金61773152
2023-02-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
2354-2359,2398