问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

因子分域在量化选股中的应用:从概念到实证

创作时间:
作者:
@小白创作中心

因子分域在量化选股中的应用:从概念到实证

引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-10-08/doc-incrvssv0744661.shtml

因子分域是量化投资中一个重要的建模方法,通过将股票按照特定特征划分成不同域,可以更准确地计算和合成因子,从而提升选股模型的预测能力。本文将详细介绍因子分域的研究框架、应用场景以及具体方法,并通过多个实证案例展示其效果。

因子分域建模的重要性

传统多因子模型通常将所有股票同等看待,但在实际中,不同股票在基本面、量价等属性上存在较大差异。例如,低估值、规模较大的蓝筹股与高估值、规模较小的成长股之间可比性较差。因此,对股票进行分域建模显得尤为重要。

因子分域研究主要应用于两个阶段:因子计算和因子合成。在因子计算阶段,可以通过行业、风格等特征对股票进行分域,差异化计算因子;在因子合成阶段,可以使用分域法对多个因子进行整合,以捕捉不同维度的Alpha信息。

因子分域建模的应用场景

1. 因子计算

因子计算阶段的分域主要分为截面分域和时间序列分域。

  • 截面分域:又分为离散型分域和连续型分域。以估值因子为例,如果按照市值将股票划分为大市值和小市值两个域,可以发现估值因子在小市值域内存在稳健的收益,而在大市值域内的表现与全市场的表现较为一致。通过市值加权的方式进行连续型分域,可以进一步提升估值因子的表现。


  • 时间序列分域:指在时序上对因子进行分域。以早盘收益因子为例,通过观察回测结果发现,原始的早盘收益因子没有如期呈现出稳定的动量效果。因此,可以对早盘收益因子进行改进,改进方式如下:

以反转因子为例,传统的1月反转因子(下文简称为“反转因子”)为当前股价除以过去20个交易日股价均值再减1。回测结果显示反转因子按因子值划分的10个组合并未呈现单调特征。我们尝试使用成交量和成交笔数,对反转因子进行分域,得到改进反转因子。具体分域方式为:对每只股票,在过去20个交易日中,首先计算“成交量/成交笔数”,得到平均每笔成交量;然后,计算平均每笔成交量最大的10个交易日的收益率之和,减去平均每笔成交量最小的10个交易日的收益率之和,得到改进反转因子。

从回测结果来看,改进后的反转因子在10分组下,表现出了稳定的单调特征。



2. 因子合成

因子合成阶段的分域主要通过多模型拟合和分域合成两种方式实现。

  • 多模型拟合:在多因子模型中,因子合成是其中一个重要的步骤。常见的多因子模型采用直接等权合成的方式对因子池进行组合,但是不同类型的因子具备不同的表达,如果将不同类型因子直接等权合成,势必会丢失部分信息。

当因子数量过多时,难免会存在非线性因子,这时候就无法使用单个基本面因子进行加权,而需要建立模型,捕捉因子的非线性信息,将其转换为线性关系,进而进行加权。所以我们认为,应该对量价因子和基本面因子分开建模,再进行汇总。即先得到每一个子模型,再汇总得到总的信息。

  • 分域合成:当存在多个选股因子和分域因子时,因子该如何整合呢?本节,我们将选股因子和分域因子拓展到多维,进行分域合成。当只有一个分域因子时,一个简单的做法是使用分域因子分别对选股因子进行离散型分域,或者使用连续型分域对选股因子进行加权,最后整合得到综合选股因子。当分域因子不只一个时,学术界提出了动态情景Alpha模型(Dynamic Contextual Alpha)来解决存在多个分域因子的情形。

本节,我们使用的Alpha因子取自同花顺量化因子库。该因子库具有多种优势:

  • 类型多样:包含了多频段量价数据,如日线、分钟级、Tick快照、逐笔成交、逐笔委托数据。此外,因子库中还包含了基本面数据以及另类数据,如新闻舆情、个股热度数据等;
  • 数据处理优势:尖端硬件设施以快速处理大规模细颗粒度数据;
  • 人工智能:结合多种算法,如神经网络LSTM模型、注意力机制Transformer模型等,以帮助寻找有预测收益能力的特征;
  • 可解释性:入库因子经过人工审核,符合经济学逻辑。

我们测算了库中11个大类、约600个因子,根据因子IC信息,从中挑选了5个因子用于分域合成的测算。我们挑选的因子信息如下:


我们以风格因子(市值、价值、成长、盈利、流动性)对挑选的同花顺量化因子进行分域测算,下图展示了分大小域下,各因子的周频Rank IC。从分域结果来看,我们发现,成长、盈利和流动性因子对各选股因子均具有较为明显的分域效果。

我们以流动性因子为例,测算同花顺量化因子在低流动性域下,相较于原始因子,是否有提升?比较基准为各因子等权,回测结果如下。从回测结果不难看出,分域后,因子提升非常明显,收益率从670.37%提升至954.99%,年化收益率从27.44%提升至32.29%,周频Rank IC从12.05%提升至13.25%。

总结

因子分域是量化投资中一个重要的建模方法,通过将股票按照特定特征划分成不同域,可以更准确地计算和合成因子,从而提升选股模型的预测能力。因子分域研究主要分为两部分:因子计算和因子合成。因子计算分为截面分域和时间序列分域,截面分域又细分为离散型分域和连续型分域。在因子合成阶段,不同因子具备不同的表达,因子可分为线性和非线性因子,可使用不同学习模型去拟合不同类型的因子,再进行合成,我们称之为多模型拟合。此外,当因子计算阶段的单个因子拓展到多个因子时,也需要合成。我们以同花顺量化因子为例,回测结果表明分域后因子表现显著提升。

本文原文来自新浪财经

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号