使用深度强化学习进行投资组合分配的动态优化
使用深度强化学习进行投资组合分配的动态优化
随着人工智能技术的发展,深度强化学习(DRL)在金融投资领域展现出巨大潜力。本文介绍了一种基于DRL的新型动态优化模型,通过设计专门的奖励函数和神经网络架构,实现了投资组合的智能化管理。研究结果表明,该模型在风险控制和收益优化方面均优于传统方法,为金融投资领域提供了新的解决方案。
摘要
随着人工智能技术的发展,它正在重塑金融投资决策流程,而深度强化学习(DRL)尤其在机器人顾问服务领域展示了其应用价值。传统的投资组合优化方法在应对动态调整资产权重的需求时存在局限性。
本文介绍了一种基于深度强化学习的新型动态优化模型,旨在改进资产配置效率。该模型的亮点在于为Actor-Critic算法量身定制了夏普比率作为奖励函数,并通过随机采样结合强化学习来提升投资组合的表现。同时,设计了一个专门针对资产优化目标的深度神经网络架构。
为了验证模型的有效性,我们选取了CSI300指数中的成分股进行了实证分析,并与传统的均值-方差优化和风险平价策略进行了对比。回测结果表明,这一动态优化模型在资产配置方面表现出色,不仅增强了风险控制能力,还改善了风险调整后的回报率以及整体的投资表现。
简介
人工智能(AI)在自然语言处理方面已经取得了显著的进步,其中ChatGPT通过采用“人类反馈强化学习”(RLHF)大大增强了其语言理解和生成的能力。这种技术融合了深度学习与强化学习的优势,使得AI系统不仅性能得到提升,而且更能够与人类的意图对齐。尽管深度强化学习(DRL)已经在自然语言处理、游戏AI和机器人控制等多个领域展现出了卓越的表现,但其在金融领域的应用仍处于初步探索阶段,特别是在投资组合优化方面。
投资组合优化是金融市场中的一个关键挑战,它涉及到如何动态地将资金分配到不同的资产中。传统的方法往往受限于某些假设,并且在适应不断变化的市场环境方面存在不足。本研究着眼于利用深度强化学习来改善投资组合优化问题,通过设计新的奖励机制和深度神经网络结构,目标是创建一个智能化的动态资产配置模型。这有望促进金融领域中AI技术的应用和发展,为投资者提供更为灵活和高效的资产管理解决方案。
相关工作
马科维茨的现代投资组合理论奠定了定量分析在投资组合优化中的基础。然而,塞缪尔森指出该模型主要适用于单期投资场景,并对多期资产配置的有效性提出了质疑,因此引入了财富规划的效用函数概念。后续研究者如凯利和默顿等人进一步扩展了效用函数的应用,尽管存在选择函数主观性和普适性验证不足的问题。黑利特曼模型加入了市场隐含均衡收益的假设,但对投资者主观预期的置信度没有统一衡量标准。查恩斯等人的数据包络分析(DEA)为资产配置提供了非参数分析方法,而柯克帕特里克则应用模拟退火算法来优化投资组合,阿尔诺等人通过遗传算法减少投资风险。这些传统模型通常将投资组合权重调整视为静态过程,忽略了时间维度以及资产配置随市场活动的变化。
经典的投资组合模型,例如马科维茨框架,通过预期收益与资产权重相乘来计算投资组合的回报。但在动态交易环境中,实际收益比预期收益更为重要,因为投资组合的最终回报取决于前期权重与当前期的实际收益。许多金融优化模型,如条件风险价值模型和风险平价模型,往往忽视了资产权重的时间演变,这影响了它们在实际交易中的表现。传统的金融计量方法及复杂算法,包括DEA、模拟退火和遗传算法,未能充分捕捉到投资组合权重的动态变化,难以实现最优的资产配置策略。
深度强化学习(DRL)借助深度神经网络改进了传统强化学习的目标函数近似能力,早期的强化学习使用策略梯度(PG)和Q学习算法。Moody等人首次将PG应用于单个资产的管理,而后续的研究大多集中在单一风险资产上,如Dempster的外汇交易模型。Neuneier和Gao等人也探讨了Q学习在资产管理中的应用,但仍然局限于单个资产。一些学者在利用DRL进行资产配置优化时,未充分考虑深度神经网络的设计细节和资产权重约束(∑wij,t=1)。Jiang等人提出的加密货币市场的DRL优化模型虽然创新,但在交易成本推导方面存在数学上的不一致,需要进一步检验其在其他市场的适用性。
目前,基于DRL的投资组合优化模型多以投资组合回报作为奖励函数,但在特定市场(如中国股市)中效果不佳,导致研究者不得不采用固定权重进行回测,违背了DRL模型的核心理念。为了提高DRL的资产优化性能,研究者们尝试了不同的奖励函数设计,例如Wu等人提出的夏普比率奖励函数,Almahdi等人结合Calmar比率与递归强化学习(RRL)来优化美国和新兴市场的资产配置。本研究开发了一种专为Actor-Critic算法设计的夏普比率奖励函数,旨在提升模型稳定性并改善动态投资组合的过程。同时,我们设计了一种新型的深度神经网络架构,借鉴VGG网络的原则,优化处理三维时间序列数据,以增强模型泛化能力和降低过拟合的风险。本研究在长仓限制下,应用DRL模型优化CSI300成分股的投资组合,并与多种传统的计量经济学优化模型进行了对比测试,以证明DRL模型在资产配置优化中的优势。这项研究不仅为学术界带来了新的投资组合优化方法,也为实际的投资组合管理提供了有效的解决方案,展示了动态调整资产权重在真实交易环境中的潜力。
DRL模型配置
深度强化学习(DRL)可以应用于交易,其中交易过程被建模为遵循马尔可夫决策过程(MDP)框架的轨迹τ。从账户启动直至结束的过程被视为一个episode。在本研究中,我们将投资组合交易者视为代理,并定义了其状态、动作和奖励机制。通过实施DRL算法并结合深度神经网络,我们致力于实现投资组合的优化。
状态空间
在深度强化学习(DRL)中,状态空间是代理与环境交互的基础。根据有效市场假说,本研究中的状态空间仅依赖于每日的资产价格数据构建。我们采用了Jiang等人建议的三维状态空间结构,这种配置不仅适合深度神经网络处理,而且受到视频游戏应用对DRL发展的启发。传统金融计量模型通常使用主成分分析(PCA)等方法进行降维,但这种方法可能会造成信息损失。相比之下,深度神经网络能够有效地捕捉和分析复杂特征之间的关系。在这里,我们将状态定义为 (S_t = X_t),其中价格张量 (X_t) 包含了四个关键的数据特征:开盘价、最低价、最高价以及收盘价。
行动空间
该模型仅考虑买入(多头)头寸,不包括卖空操作。投资组合的权重作为模型的动作向量,表示风险资产和现金资产的比例。在任意时间点t,这些权重需满足约束条件,并且所有的权重值必须是非负的。在投资组合初始化时,所有资产的权重加总等于1。
其他元素的推导和奖励功能的设置
资产组合在时间t的收盘价格用向量 表示,相对价格向量 定义为当前价格与前期价格的比值。组合价格 在时间t的表达式为:
日常对数收益率 定义为:
平均年化夏普比率作为奖励函数,目标是最大化该函数。
交易成本率 由公式确定,设定为0.00025。
′ 表示在t-1期后和t期前的自主价格变动所导致的权重值。公式中使用Hadamard积和内积计算权重更新。
DRL算法的选择和网络结构
Actor-Critic体系结构中平均夏普比奖励函数的设计
在选择深度强化学习(DRL)算法时,考虑到离线算法通常需要较多的计算资源且收敛速度较慢,我们选用了在线算法——近端策略优化(PPO)。PPO融合了若干先进的优化技术,例如广义优势估计(GAE)和价值函数剪辑,并继承了信任区域策略优化(TRPO)的优点。它采用Actor-Critic架构,结合了回合更新与连续更新的特点,通过一种嵌套循环的方法来实现。
为了适应投资组合优化的需求,我们为Actor-Critic框架设计了一个基于平均夏普比率的奖励机制,并用PPO进行了应用。在每一个交易决策点,Actor网络输出投资组合的权重配置,随后计算资产价格变动、相应的交易成本以及对数收益率,这些数据被用来更新收益记录并计算夏普比率。通过对年化夏普比率进行归一化处理,我们确保了不同长度的投资周期和交易序列之间奖励的一致性,这有助于提高模型训练过程中的稳定性和可靠性。实验结果显示,这种基于平均夏普比率的奖励设计显著增强了PPO模型在样本外测试中的表现。
神经网络设计
早期的人工神经网络在构建数据驱动的理论模型时,遭遇了函数逼近精度和梯度稳定性之间的权衡难题,这一问题制约了网络深度的增长。随着深度神经网络技术的进步,强化学习(RL)算法得到了极大的推动,从而催生了深度强化学习(DRL)。在DRL中,深度神经网络的设计对于提升性能起着关键作用,一个精心设计的网络架构可以大幅提高DRL的效果。
本研究中,我们采用了VGG架构来处理三维状态空间中的价格张量 (X_t),该架构由5个卷积层和相应的最大池化层组成,用于特征提取和降维。随后,通过Flatten操作将多维特征映射为一维向量,再经过两个各含128个神经元的全连接层进行进一步处理。Actor网络采用softmax激活函数产生表示资产权重的动作向量,而Critic网络则直接输出价值函数,不使用任何激活函数。Actor网络的输出结构通过softmax函数支持对11种资产(包括10种风险资产和1种无风险资产)的投资决策。
实证测试
数据选择,预处理和假设
本研究建立了一个由1个无风险资产和10个风险资产组成的投资组合,数据取自Wind数据库,使用随机选择的方法来挑选股票,以评估深度强化学习(DRL)模型的适应性和决策效率。在资产选取上,我们设定了一个时间条件:所有资产必须在2012年12月31日之前上市,以便积累足够的历史数据用于训练模型。我们假设这些风险资产都具备良好的流动性,可以迅速完成交易,并且我们的交易活动不会对市场造成显著影响。
性能指标,回测期和比较优化模型
评估模型性能的指标涵盖了年化平均回报、年化波动率、夏普比率、索提诺比率以及最大回撤等。我们使用六个月的回测期来检验和优化模型的表现。回测所用的数据集是完全独立的,确保了模型在训练过程中没有接触到未来的市场价格信息。为了比较不同模型的优化效果,我们建立了一个分析框架,纳入了多种优化模型,例如传统的均值-方差模型和条件风险价值模型等。本研究特别关注于如何最小化风险并最大化夏普比率。
历史数据窗口的选择是根据EVaR(期望不足风险)和HRP(层次风险平等)模型的框架来确定的,其中EVaR模型使用4年的数据,而HRP模型则采用1年的数据。4年期的数据涵盖了1,008个交易日,按照每年252个交易日的日历来计算。资产权重的调整被视作一个静态过程,并通过滚动窗口的方法来进行预测。例如,在9月1日进行的权重预测将基于截至8月31日为止的前4年或1年的历史数据。此外,交易成本是依据DRL(深度强化学习)模型中定义的参数来计算的。
训练结果和奖励收敛
深度强化学习(DRL)融合了神经网络和强化学习的框架,利用在线统计推断来优化决策策略,其目标是最大化预期的累积奖励。在训练期间,代理获得的奖励随着9百万步的推进而增加,体现了持续的性能提升。奖励值逐渐趋于稳定,年化夏普比率保持在一个从-0.3到0.8的范围内,且大部分时间奖励值为正,这表明代理在熟悉的环境中能够产生一致的回报,证明了模型的稳健性和可靠性。
回测结果
- 投资组合价值、资产配置和交易成本
图6的上半部分展示了资产的相对价格,这是通过标准化处理后的资产价格;而下半部分则描绘了资产权重的变化以及交易成本。在回测期间,DRL投资组合的价值从1.0稳步增长至1.1256,实现了12.56%的总回报率。尽管在9月份经历了一次小幅度的回调,但随后迅速恢复并继续上升。
该投资组合由现金和10只股票组成,初始时各资产的权重接近平均分配,权重的标准差保持在一个稳定的范围内,介于0.031到0.033之间,现金的比例维持在大约11%到12%。在这些股票中,CN002027.SZ和CN002371.SZ的权重调整较为频繁,而CN600029.SH和CN600183.SH的权重则相对较低。此外,交易成本得到了有效的控制,初始配置资本时的交易成本约为0.22%,之后的交易成本稳定在0.002%到0.01%之间。
使用PPO算法构建的投资组合表现出了优秀的风险调整后收益特性,这证明了深度强化学习技术在投资组合管理领域的应用潜力。 - 股票优化模型的性能比较
表2展示了不同股票优化模型的对比,这些模型按照“模型类型-优化目标-数据窗口”的格式命名。在投资组合优化方面,深度强化学习(DRL)模型表现尤为突出,实现了19.56%的年化平均回报率和1.5550的夏普比率,体现了其出色的风险调整后收益。此外,DRL模型还展现了2.9567的Sortino比率,最大回撤控制在5.85%,以及3.3395的Calmar比率,进一步证明了它在风险控制上的优越性。传统模型中,CVaR-MinRisk-4yr模型的表现相对较好,达到了15.08%的年化回报率,最大回撤为5.38%,夏普比率为1.2290。然而,风险平价(RP)和层次化均等风险贡献(HERC)模型未能取得理想成绩,RP模型出现了负回报,而HERC模型的最大回撤高达11.86%。DRL模型的投资胜率为47.28%,平均盈亏比达到1.4204,这表明它在识别市场机会和限制损失方面具有较强的能力。
DRL模型在CSI300成分股投资组合优化中的成功,主要归因于两个因素: - 回测期间CSI300成分股整体呈现上升趋势,有利于长期策略的效果评估;
- 该指数的投资者结构较为稳定,以机构投资者为主,使得投资行为更加系统化。
相较于中小盘股票,CSI300成分股提供了更为可靠的价格和交易数据,能够更准确地体现市场基本面和投资者情绪,为DRL模型的学习过程创造了更好的条件。这些特性增强了DRL模型的学习效率和市场适应能力,使其在CSI300成分股投资组合优化中表现出色。
05总结
传统金融优化模型在资产配置决策中依赖静态框架,难以捕捉资产权重的动态变化,并且对市场波动的适应能力有限。相比之下,深度强化学习(DRL)提供了一种数据驱动的动态优化方法,能够减少人为偏见,更加贴合实际交易中的资产配置需求。
本研究引入了一种专为Actor-Critic DRL算法设计的平均夏普比率奖励函数,开发了处理三维金融时间序列数据的深度神经网络结构,并通过随机采样的方式来训练模型。该奖励函数在长期投资策略的优化上展现了显著的效果,在训练过程中,奖励值大多位于正值区间,显示出良好的收敛特性。此外,它在样本外回测中实现了更高的夏普比率,证明了其优越性。
相较于传统的金融优化模型,DRL框架在资产配置和风险管理方面表现出明显的优势。未来的研究方向应包括深入探讨金融数据中的噪声特征、改进DRL环境建模技术以及提取关键交易信号的方法。同时,还需要建立更为严谨的DRL模型验证框架,确保模型在不同市场条件下的表现一致性。