选股确率高达60%?大模型与财务报表的双向奔赴
创作时间:
作者:
@小白创作中心
选股确率高达60%?大模型与财务报表的双向奔赴
引用
腾讯
1.
https://new.qq.com/rain/a/20240527A06OBI00
最近,一篇关于大语言模型(LLM)在财务报表分析和收益预测方面的研究论文引发广泛关注。研究发现,即使在没有叙述上下文或特定行业信息的情况下,LLM在预测收益变化方面的表现超过了人类分析师,并且与训练有素的机器学习模型相当。本文将详细介绍这项研究的方法论、关键发现及其实际应用价值。
研究方法论
- 数据收集:研究者从Compustat数据库收集了1968年至2021年的年度财务数据。
- 数据标准化:为了确保模型能够一致地处理数据,研究者将收集到的财务数据标准化。这包括使用Compustat的平衡公式来构建标准化的资产负债表和损益表。
- 数据匿名化:为了防止模型通过识别特定公司或年份来产生预测偏差,研究者从财务报表中去除了所有可能识别公司身份的信息,包括公司名称和具体的年份。取而代之的是,他们使用了相对年份标签,例如t、t-1和t-2。
- 构建财务报表:研究者根据标准化和匿名化的规则重建了每个公司年份的资产负债表和损益表。
- 设计Prompts:为了指导LLM进行财务分析,研究者设计了两种类型的提示。第一种是“简单提示”,它仅指示模型分析财务报表并预测未来收益的方向。第二种是“链条思考(Chain-of-Thought, CoT)提示”,它更为复杂,要求模型模拟人类分析师的分析过程,包括识别财务报表项目中的显著变化、计算关键财务比率、提供比率的经济解释,并最终预测下一时期的收益是增加还是减少。
- 模型训练与预测:作者使用上述标准化和匿名化的财务报表以及设计好的提示来训练LLM,并要求模型进行预测。
基于以上的研究步骤,能够确保LLM在没有预先知道公司身份或特定年份信息的情况下,基于财务数据本身进行分析和预测。这种方法论框架允许我们系统地评估LLM在财务报表分析方面的能力和潜力。
与金融分析师的比较
结果显示,在使用CoT提示时,GPT的预测准确率显著高于分析师的预测。
与专业机器学习模型的比较
这里包括逐步逻辑回归和人工神经网络(ANN)。结果显示,GPT的预测性能与这些专业模型相当,甚至在某些情况下更优。
LLM的预测能力来源
作者想论证,LLM的预测能力是否来自其记忆(例如,通过识别公司基于数据)或其生成有关公司财务状况和未来表现的叙述洞察的能力。通过一系列测试,作者排除了LLM使用其记忆进行预测的可能性,而是来自其分析数字数据并生成有用叙述洞察的能力。原因就是来自于基于CoT推理生成的叙述。
资产定价测试
作者还研究了基于LLM财务报表分析的交易策略的实际价值。作者发现,基于GPT预测的投资策略在资产定价方面表现良好,产生了高夏普比率和显著的Alpha。
热门推荐
指数基金,投资界的圣杯?深入解析其魅力与投资策略
《黑神话:悟空》:又是这只跨界的猴子,诠释了传承与创新的关系|文化观察
霞浦摄影旅游全攻略:捕捉光影的绝美瞬间
《凡人修仙传》动漫:国风修仙盛宴,视觉与情感的双重享受
眼下面细纹用什么能消除
健康 | 食材常见,做法简单!这7款食疗方能缓解习惯性便秘,赶紧试试~
探索《崩坏:星穹铁道》成功之道:融入国风元素的科幻创世纪
从"嫦娥奔月"到"嫦娥"揽月:中国探月工程的辉煌历程
《高等数学课件之不定积分解析》
美缝剂到底应该怎么选?很多业内人士都选错,看完保证不踩坑
【德国美食】精选5个德国必吃料理
职场中的情绪劳动:如何有效管理与应对
改善就医感受一年 | 6方面20条举措,从患者出发 以病人为中心
多久后艾滋病检测能确保准确?揭秘时间窗口与检测科学
从小强式主角到“龙傲天”泛滥,从日本文化角度看动漫设定的变革
工业软件国产化面临哪些应用难题?
从多维度分析足坛历史最佳球员的几个争议
如何选择显示器色域?适合你的主流标准解析
盘点龙虎山历代天师——千年道统的风云传承
面向可再生能源的储能技术综述
维生素B12:体内能量的火花,支持神经系统与红血球健康的关键元素!
74天HIV试纸检测阴性:安心背后的科学解析与重要提示
深蹲最容易出现的4种错误,记得避雷!
“干饭”与“干饭人”:一个网络流行语的前世今生
大数据技术发展趋势如何影响企业战略?
Nature子刊:这种来自咖啡和人体的天然物质可提高NAD+水平,改善衰老
固态硬盘格式化完整指南:确保数据安全的关键步骤
东德和西德, 如何从对抗走向统一!
甘肃农业职业技术学院怎么样?好不好?多个“省第一”当然好!
股票的四条线的作用是什么?如何根据这四条线制定投资策略?