问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

HRT:一种高效的双层强化学习模型优化股票交易决策

创作时间:
作者:
@小白创作中心

HRT:一种高效的双层强化学习模型优化股票交易决策

引用
CSDN
1.
https://blog.csdn.net/AI16947/article/details/144845559

深度强化学习(DRL)在自动化股票交易领域显示出了巨大的潜力,但同时也遇到了诸如维度灾难、交易行为的惯性以及投资组合缺乏多样性等难题。本文介绍了一种创新策略:分层强化交易系统(HRT),它运用了两层的分层强化学习结构。

深度强化学习(DRL)面临的挑战

  • 维度诅咒:随着投资组合中股票数量的增加,计算复杂性和所需的样本量大幅上升,导致训练过程变得不稳定。因此,当前大多数研究仅限于处理少量资产。
  • 惯性效应:DRL代理可能会表现出倾向于重复执行之前的操作,而不是根据最新的市场状况选择最优行动,这可能导致交易活动过于集中,缺乏灵活性。
  • 多样化不足:DRL代理往往偏好集中在少数几只股票上进行交易,增加了对特定行业的依赖风险,从而削弱了通过分散投资来缓解风险的效果。

层次强化交易者(HRT)的引入

为了解决上述挑战,本文提出了层次强化交易者(HRT),它基于层次强化学习(HRL)框架,旨在改进股票交易策略。HRT由两个核心组件构成:

  • 高级控制器(HLC):专注于股票的选择决策,包括买、卖或持有等操作,以优化投资组合的构成。
  • 低级控制器(LLC):在HLC选定的股票基础上,进一步优化具体的交易量,确保交易执行的效率和精准度。

HRT在S&P 500上测试,显示出比单独的DDPG和PPO方法更高的夏普比率。本研究首次阐明HRL框架与DRL代理结合的有效性。

HRT系统架构

高级控制器用于股票选择

高层控制器(HLC)负责股票选择,通过分析预测的前向收益和情绪分数来决定买卖或持有的股票。其工作机制包括:

  • 状态空间:由基于历史价格和交易量预测的未来收益,以及从新闻或社交媒体提取的情绪评分组成。
  • 动作空间:对于每只股票,HLC可以执行三种操作:买入(标记为1)、卖出(标记为-1)或持有(标记为0)。
  • 奖励机制:使用sgn函数评估HLC所选动作与实际收益之间的对齐程度,最终的奖励值是动作对齐奖励和来自低层控制器(LLC)反馈的奖励的线性组合。

低级控制器用于执行交易

低层控制器(LLC)负责优化交易数量,其状态空间包括股票价格、持股、现金余额及HLC的决策。采用DDPG框架运行,每个时间步执行一个动作a,并根据交易结果获得奖励r。

实验评估

实验在S&P 500数据集上进行,训练数据覆盖2015年1月1日至2019年12月31日,验证期设定在2020年。2021年和2022年分别作为牛市和熊市的测试场景。

结果显示,HRT在2021年的夏普比率为2.7440,在2022年上半年的夏普比率仍保持在0.4132,显示出较低的回撤率和良好的风险管理能力。与传统的DDPG和PPO模型相比,HRT在多股票交易中表现出更频繁和多样化的交易趋势,行业分布也更接近S&P 500的平均行业权重。

总结

本文提出了一种层次强化交易者(HRT)策略,通过分层控制器结构来提升交易表现。其中,高层控制器(HLC)采用近端策略优化(PPO)算法来选择交易方向,而低层控制器(LLC)则使用深度确定性策略梯度(DDPG)算法来决定具体的交易股数。为了实现两者的协同训练,我们引入了分阶段交替训练算法,确保HLC和LLC能够同步优化。

在实际的S&P 500数据测试中,HRT代理在各种市场条件下均实现了正累计收益,并表现出强劲的夏普比率,尤其是在熊市环境中表现出色。HRT通过减少动作和状态空间的维度,有效缓解了传统模型中的惯性和动量效应,增强了交易算法的盈利性和稳健性,特别适用于多股票交易场景。

未来的研究可以考虑将交易过程建模为部分可观测马尔可夫决策过程(POMDP),以应对市场信息的不完全性。此外,还可以探索自适应学习率调整机制以及最新的深度强化学习模型,以进一步提升HRT的性能和适应性。这种改进有望使交易策略更加灵活和高效,更好地适应复杂多变的市场环境。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号