机器学习预测股票收益:基于新闻文章的实证研究
机器学习预测股票收益:基于新闻文章的实证研究
机器学习在金融领域的应用越来越广泛,其中使用新闻文章预测股票收益是一个重要的研究方向。本文介绍了一种新的文本挖掘方法,通过机器学习模型从新闻文章中提取信息以预测资产收益。
研究方法
投资范围通过筛选数据集构建,使每个证券与相应的新闻文章匹配。样本时间从1989年到2020年4月。对数据集应用筛选条件(如包含多个标记股票的新闻),并最终得到6.3百万篇文章用于训练。文本数据通过标准化过程进行清理,包括小写化、词干提取和词形还原。然后创建一个词袋模型,将词频编码为向量。对情绪词汇的筛选使用监督学习过程,首先构建一个频率度量,该度量观察词汇与正收益同时出现的频率。然后将这些频率与可从数据中学习的超参数进行比较。此边际筛选提高了后续主题建模阶段的估计效率。在这一组相关词汇基础上,拟合双主题模型,学习词汇来自正面或负面主题的概率,并估计正面和负面情绪得分的向量。更多详细信息见第9页。第三阶段使用估计的词汇表和主题空间进行样本外的情绪估计。使用MLE估计,带有Beta先验的惩罚回归被用来学习情绪得分并将其缩减为中性情绪。模型通过滚动窗口的15年训练,前10年作为训练集,后5年作为验证集,同时调整超参数。最后使用一年的窗口进行测试和投资组合构建。每日开盘时,基于情绪构建一个零净投资组合,做多情绪最积极的50个词,做空情绪最消极的50个词,并有30分钟的延迟。
研究合理性
论文中的风险归因分析表明,该模型对标准的Fama-French因子相对稳健,长仓组合的R平方最高为38%,而多空组合的R平方仅为10%。情绪的一个有趣特点是对小股票具有更好的预测能力,这可以从等权重和市值加权投资组合的风险调整收益率差异中看出。一个可能的解释是,相对于大公司,小公司需要更长时间将情绪信息融入价格。然而,论文表明情绪确实具有预测能力,并且能够产生大量阿尔法。本文构建情绪的方式相当新颖,作者首次在文献中使用新闻数据集。其他供应商如Ravenpack也使用此数据集构建其情绪指标,并且成为本研究中的基准。
研究来源
Predicting Returns with Text Data
- Zheng Tracy Ke、Bryan Kelly、Dacheng Xiu,哈佛大学统计学系,耶鲁大学,AQR资本管理公司,NBER,芝加哥大学布斯商学院
研究结论
我们介绍了一种新的文本挖掘方法,从新闻文章中提取信息以预测资产收益。与更常见的用于股票收益预测的情绪评分(例如由商业供应商出售或基于字典构建的方法)不同,我们的监督学习框架构建了一个专门用于收益预测的问题的评分。我们的方法分三个步骤进行:1)通过预测筛选隔离出一个术语列表,2)通过主题建模为这些词分配预测权重,3)通过惩罚似然将术语汇总为文章级别的预测评分。我们在模型的估计准确性上提供了理论保证,且假设最少。在我们的实证分析中,我们研究了金融系统中最活跃的新闻流之一——道琼斯新闻电讯,并显示我们的监督文本模型在此背景下擅长提取与收益预测相关的信号。新闻电讯中的信息以一种低效的延迟方式融入价格,这与套利限制基本一致(即对小型且波动性更大的公司更为严重),但在一个实时交易策略中可以在合理的换手率和扣除交易成本后加以利用。
回测表现
- 年化收益率:9%
- 波动率:7.26%
- Beta:N/A
- 夏普比率:1.24
- 索提诺比率:N/A
- 最大回撤:22.07%
- 胜率:71%