问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习预测中国股票收益:基于108个特征的实证研究

创作时间:
作者:
@小白创作中心

机器学习预测中国股票收益:基于108个特征的实证研究

引用
1
来源
1.
https://quantbuffet.com/en/2024/09/09/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AD%96%E7%95%A5-%E4%B8%AD%E5%9B%BD%E8%82%A1%E7%A5%A8%E6%94%B6%E7%9B%8A%E9%A2%84%E6%B5%8B/

本文采用机器学习方法对中国A股市场(1997年1月至2019年12月)的股票收益进行预测。研究使用了108种异常现象作为特征,包括波动性、流动性、动量、财务和价值等类别,并运用多种机器学习算法进行模型构建。结果显示,机器学习算法在样本外预测中明显优于传统计量经济模型,特别是在流动性特征的预测方面表现出色。

数据与方法

研究数据来源于Wind金融数据库,涵盖了上海和深圳证券交易所的A股市场。时间范围从1997年1月到2019年12月。研究采用了月度再平衡周期,同时考虑了现金股息的投资。

作为机器学习方法的输入,研究使用了Hou等人(2019年)和Qiao(2019年)的研究中发现的美国股票市场中的108种异常现象。这些异常可以分为五类:

  • 波动性(风险):例如贝塔、波动率、特异波动率等(37种)
  • 流动性:例如规模、换手率、Amihu等(23种)
  • 动量:例如11个月的动量、6个月的动量、动量变化、动量残差等(9种)
  • 财务:例如净资产收益率、毛利率、资产增长率等(31种)
  • 价值:例如市净率、股息与股价比率等(8种)

研究采用了多种机器学习算法:

  • 普通最小二乘模型(OLS)
  • 带有惩罚项的线性模型
  • 主成分分析回归(PCA)
  • 偏最小二乘回归
  • 回归树模型
  • 随机森林
  • 梯度提升回归树(GBDT)
  • 神经网络模型

超参数调整通过将数据分为训练集(1997-2003年)、验证集(2004-2009年)和测试集(2010-2019年)来进行。

策略表现

策略在每个月的最后一个交易日预测下个月股票收益,并根据预测结果构建不同资产组合。研究将数据分为十分位数,结果显示:

  • 长短资产组合策略的平均月回报率为1.99%,月平均标准差为6.13%,年化夏普比率为1.13%
  • 纯做空资产组合策略的平均月回报率为1.11%,月标准差为9.00%,年化夏普比率为0.43%

研究结论

研究发现,机器学习算法在样本外预测中明显优于传统计量经济模型。特别是在流动性特征的预测方面表现出色,而动量特征在样本外预测中较弱。两层神经网络的等权(市值加权)长短头寸策略表现最佳,平均月回报为3.03%(2.94%),月波动率为4.65%(6.88%),年化夏普比率为2.26(1.48)。


回测表现

  • 年化收益率:26.68%
  • 波动率:23.88%
  • Beta:N/A
  • 夏普比率:1.13
  • 索提诺比率:N/A
  • 最大回撤:N/A
  • 胜率:N/A

参考文献

Are Stock Returns Predictable in China? A Machine Learning Approach

  • Huihang Wu, xingkong wei, Xiaoyan Zhang, Tsinghua University – PBC School of Finance, China Securities Co., Ltd., Tsinghua University – PBC School of Finance
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号