问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

量化投资中的博弈困境:从囚徒困境到重复博弈理论

创作时间:
作者:
@小白创作中心

量化投资中的博弈困境:从囚徒困境到重复博弈理论

引用
1
来源
1.
https://xueqiu.com/1347292196/324673115

量化投资的超额收益回撤的根本原因是市场的周期性,直接原因则是整个市场的博弈困境。本文通过囚徒困境的经典案例,深入分析了量化投资中个体理性与集体非理性之间的矛盾,并探讨了如何通过重复博弈理论来解决这一问题。

博弈论讲的是人们如何进行决策、如何利用决策达到均衡问题。参与人(Player)、策略(Strategy)和收益(Payoff)是完整的博弈的三要素。博弈论解决了这样一个问题:

简单说,一定规则下,多方参与者较量,各参与人在考虑对方的策略技术上,想方设法让自己赢。

囚徒困境是经典博弈理论之一。

在这一场景中,假设两个嫌疑人被分开羁押,检察官确定有违法行为,却缺乏相关证据。为尽快审判二人,检察官告诉他们每人都有两选择:认罪或拒绝认罪。

· 如果两人均拒绝认罪,那检察官将会以较轻的指控立案,这样两人都将面临较轻处罚(各坐牢1年);

· 如果两人均认罪,则面临双双被起诉,但检察官会建议法庭从轻处罚(各自坐牢5年);

· 如果一人认罪一人拒绝认罪,那么认罪的人将作为污点证人受到宽大处理(坐牢0年,认罪释放),另一人则会受严厉处罚(坐牢10年)。

两人的纳什均衡(参与人的最优选择)是拒绝认罪,处罚最轻。

事实上,从A的视角看,他决策前需要思考B的决策,如果B认罪,那么A只能认罪(认罪坐牢5年,拒不认罪则坐牢10年);如果B不认罪,对A最优的选择依然是认罪(可以无罪释放)。

对A最优的策略,永远是认罪;从B的视角看,最优策略也是认罪。所以最终两人都会选择认罪。结果就是,当事人都选择了个体最优,最终结果对两人都不利。

这就是囚徒困境:个体最优的理性选择,导致了集体的非理性结果。

囚徒困境中,个体根据自己掌握的片面信息,做出看似理性的选择,最终导致了集体的非理性结果。这与现代经济学“理性经济人”和“看不见的手”相悖。

囚徒困境的应用场景非常多,影响到方方面面,投资领域更是如此。

传统投资中,囚徒困境常表现为“追涨杀跌”的羊群效应;算法主导的量化世界,困境被嵌入在更隐秘的数学模型。

《量化投资的“不可能三角”》一文中,我们提到过规模、收益、波动的“不可能三角”。一般来说,规模越大的机构,资管经验相对成熟,在投资策略、人才储备、技术积累方面更多,在获取超额收益方面更有优势。但是不同的资产规模,管理难度不同,超额的获取难度更不同。因此,收益和规模存在一定的相关性。投资者在选择机构时,也会考虑这个问题。为此,机构在拓展规模时,吸引客户最直接的办法就是降低费率。

个体理性:每家机构都想扩大资产管理规模,获取更高的管理费。

集体非理性:如果每家都积极扩展规模,为了吸引增量资金,各家开始用降低管理费的方式,希望吸引客户。

· 如果其他家降低管理费,自己提前降费可以规避风险

· 如果其他家不降低管理费,自己提前降费可以获得一定的竞争优势

这种情况下,对个体来说,短期内降费是一种看似不错的策略。

现实远比“囚徒困境”的博弈复杂得多,最重要的一点区别是,实际情况是“重复博弈”而不是“单次博弈”,我们看重的永远不只是眼前一次博弈的结果。

并且,交易通常是零和博弈、甚至是负和博弈,只有让交易变成正和博弈,才能避免囚徒困境的发生。为此,阿克塞尔罗德的重复博弈理论或许可以解决这个问题。

该理论通过同样结构的博弈重复许多次,将长期互动和未来收益折现,改变单次博弈的奖励结构。

重复博弈理论可以促进策略间的合作均衡(如惩罚背叛行为,奖励合作行为),抑制零和博弈陷阱(各参与者需要考虑策略的可持续性),构建声誉机制(以声誉作为隐性抵押品,降低信息不对称,吸引合作者)。

最常见的做法有两种:

1)坚持长期主义的价值导向,不断迭代策略,提升投研能力,以优秀的业绩表现突围

2)做好投资者教育,让投资者识别短期利益和长期价值,重视超额收益的可持续性

个体理性:每家机构都想优先发现有效因子,挖掘超额收益。如小市值、动量因子等。

集体非理性:当市场80%的量化基金采用基于动量因子的趋势追踪策略时,一次普通的回调可能被算法识别为趋势反转信号。

如同囚徒A和囚徒B被隔离审讯,每个程序都在独立计算局部最优解:

· 如果其他策略选择持有,自己提前平仓可规避风险

· 如果其他策略选择平仓,自己滞后操作将承受更大损失

这种“背叛优先”的逻辑,导致所有程序同步抛售,形成自我强化的死亡螺旋。2024年初的微盘股崩盘正是这种情况——全市场量化产品的平均回撤达23%,远超同期指数跌幅。

同样,运用重复博弈理论,在日常投研工作中,宽客需要建立市场敏锐度,了解到市场是动态变化的,模型、因子和参数都是需要随着市场的变化而去动态调整。

· 动态阈值调整:根据市场拥挤度自动修正交易信号阈值(如当同类策略持仓占比超过30%时,将信号触发阈值从0.5%上调至0.8%)

· 反脆弱性注入:在风险模型中增加“困境预警因子”,当市场出现同步性抛售信号时自动降低仓位

量化投资领域还存在很多微观博弈。

经济学领域有个概念叫逆向选择,指在交易中,由于信息不对称,买方无法精准评估交易的真实价值,低估了优质品价格,久而久之,导致劣币驱逐良币,交易最终停止。

量化投资领域也存在这一现象。

某类量化策略中,有做市商(即使用双边交易的方法同时进行买和卖两方的操作,赚取一对买和卖之间的微小价差收益)这个角色。目前,做市商通过Limit Order(即限价单,按照“价格优先,时间优先”的规则交易)。

比如某类商品价格实际价格为100,做市商想要赚钱,至少需要买一卖一:

通过一买一卖,做市商获得了1的收益。

在真实的市场中,很可能出现买家都不愿意101买入,而是99买入的情况,这样的话,按照正常的100买入的做市商,非但没有赚到钱,反而亏本了。

这种情况下,做市商为了保证不遭受更大损失,通常会采取两种办法:

1)市场行情快速调整报价,在行情出现较大波动时取消限价单,迅速买单离场

2)做市商也可以通过制定策略自救,以挽回损失

假设交易所订单簿有这样的单子:

Trader 1是做市商,Trader 2是其他交易者。当有新的交易者出现,买了从Trader 1下单100后,做市商再以足够快的速度将100买到的标的以100的价格卖给Trader 2。这样,做市商完成两笔交易后,没有赔钱。

实现这种自救,需要三大前提:

1) 在接收行情和交易中,一直要排队排前面,每次行情变化都要比别的交易者更快发出订单

2) 在策略判断时,需要在最短时间内完成决策、行动,保证自己能成功避开风险

3) 尽可能对后续行情的Fair Price(合理价)有一个准确的预估

这种逆向选择的博弈,对量化领域影响深远。自从电子交易上线后,不论海外还是国内的量化机构,都先后加入了关于技术迭代的军备竞赛。

量化投资面临的各种博弈困境,本质是现有技术的局限性与金融市场的复杂性之间的永恒张力。

想要破局,不仅需要更聪明的算法,更需要重新理解市场本质——金融市场的终极价值不只是预测精确,更在于对人性弱点的超越。

只有当宽客学会在数据与直觉、个体与群体、短期与长期之间找到平衡点时,才有可能走出博弈的黑暗森林。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号