机器学习助力基金选择:如何筛选具有正超额收益的基金
机器学习助力基金选择:如何筛选具有正超额收益的基金
机器学习在金融领域的应用日益广泛,尤其是在基金投资领域。一篇发表在《金融经济学杂志》上的最新研究显示,通过机器学习方法分析基金特性,可以成功筛选出具有显著超额收益的可交易长期基金组合,年化超额收益率达到2.4%,且扣除所有成本后仍有盈利。这一发现为投资者提供了新的参考依据。
研究背景与目的
在金融领域,尤其是基金投资领域,如何准确预测和选择表现优异的基金一直是投资者和研究者关注的焦点。传统的基金选择方法,如基于历史业绩的排名、星级评定等,虽然简单易行,但在预测未来业绩时往往效果不佳。这主要是因为基金业绩受到多种复杂因素的影响,包括市场环境、投资策略、管理团队能力等。因此,该论文旨在探索一种更为有效的方法来预测和选择具有正超额收益(alpha)的基金,即利用机器学习方法分析基金特性。
特征与方法
特征选择与提取
作者提取了17个与基金业绩相关的特征。这些特征旨在全面反映基金的投资风格和潜在能力,为后续的机器学习模型提供丰富的输入信息。作者提出了资金流的概念:
机器学习模型构建与训练
在提取到相关特征后,作者采用了多种机器学习方法来构建预测模型,包括弹性网络、随机森林和梯度提升。弹性网络是一种线性方法,与OLS类似,但使用正则化来缓解过度拟合。为了捕捉非线性和交互作用,作者考虑了两种类型的决策树集合(随机森林和梯度提升)在模型构建过程中,作者还使用了交叉验证等技术来评估模型的性能和稳定性,并根据评估结果对模型进行了优化和调整。
投资组合构建与评价
作者用17个基金特征的滞后值作为预测指标,然后,用预测净alpha前十分位的基金构成多头等权组合,并计算该组合在接下来12个月内的净收益。对于剩余的每一年,将训练样本向前扩展一年,构建一个新的前十分位组合,并跟踪其未来12个月的净收益。
作者比较了三种机器学习方法(梯度提升、随机森林和弹性网络)、普通最小二乘法 (OLS) 和两种朴素策略(所有可用基金的等权重和资产加权投资组合)获得的前十分位数基金投资组合的所有成本后的月度样本外净 alpha。净alpha的计算方法是将样本外超额月度投资组合回报扣除所有成本,分别用四个模型调整风险:Fama和French(1993)的三因素模型(FF3+MOM)、Fama和French(2015)的五因素模型(FF5)以及FF5模型(FF5+MOM)以及Pástor和Stambaugh(2003)的流动性风险因素进行比较(FF5+MOM+LIQ)。样本外的期限为1991年1月至2020 年 12 月。
研究结果与发现
机器学习方法能捕捉到净alpha基金
通过对比实验和回测实验,作者发现机器学习方法在分析基金特性方面具有显著优势。作者发现,利用非线性和交互作用(梯度提升和随机森林)的两种机器学习方法选择了仅做多头的基金投资组合,相对于FF5+MOM模型,这些基金的净alpha分别为每年2.36%和2.69%。相比之下,基于线性方法(弹性网络和OLS)的投资组合分别为每年1.09%和1.21%的净alpha,且在统计学上不显著。同等权重和资产加权投资组合的净alpha分别为-0.22%和-0.44%,即扣除成本后,主动型基金的平均表现低于被动式基准。
基金特征与业绩的非线性关系
为了研究特征的重要性,作者估计了SHAP值(Lundberg和Lee,2017)。SHAP是一种基于合作博弈论的方法,用于估计每个特征对每个单独预测的贡献。
在特征重要性分析中,作者发现基金的过去业绩指标(alpha intercept t-stat and value added)和基金活跃度指标(market beta t-stat and R2)对未来业绩的解释能力较强,但解释能力并非都是线性的。alpha intercept t-stat是近乎线性的关系,然而基金活跃度与未来表现之间的关系是高度非线性的,这种关系对最活跃的基金来说是强烈的正向关系,而对其他基金来说则持平。这意味着持有过去业绩好的基金平均虽能获净alpha,但若持有更主动的基金,过去业绩对未来业绩的预测力更强。
时间演化对机器学习具有特征重要性
为了研究某些特征的预测能力是否随时间而变化,作者分别描述了每个预测变量在样本外期每年对梯度提升和随机森林的重要性。下图表明,诸如alpha intercept t-stat、value added、和R2随时间变化很大。
总体而言,作者的研究结果表明,过去业绩表现和基金活跃度的各种衡量标准及其相互作用对于非线性机器学习投资组合实现显著的正净alpha的能力非常重要。尽管通过根据过去的业绩表现和基金的活跃度对共同基金进行双重排序可以实现正净alpha,但这种双重排序投资组合的表现在不同的特征中是异质的。此外,过往业绩表现和基金活跃度的衡量指标的相对预测能力随时间变化很大,因此,为了获得卓越的样本外表现,投资者应动态使用机器学习来识别每个时间点重要的特征和相互作用。
这为投资者提供了有价值的参考信息,有助于他们在基金市场中做出更明智的决策。展望未来,随着大数据和人工智能技术的不断发展,机器学习方法在基金选择领域的应用将越来越广泛。未来研究可以进一步探索如何结合更多的数据源和更先进的算法来提高预测精度和稳定性;同时也可以考虑将该方法应用于其他金融领域如股票选择、风险管理等。
本文原文来自雪球App,作者:资产配置作手