贝叶斯定理:拥抱不确定性的思维哲学
贝叶斯定理:拥抱不确定性的思维哲学
在当今信息爆炸的时代,不确定性已成为我们生活和工作中不可避免的挑战。贝叶斯定理作为一种处理不确定性的计算和思维工具,不仅在统计学和数据分析领域发挥着重要作用,更渗透到我们日常决策的方方面面。本文将带你深入了解贝叶斯定理的原理、应用及其蕴含的哲学智慧。
我们正处在一个信息过载的社会—— 信息量爆炸性增长,科技的迭代不断重塑我们的生活方式和信仰观念。我们面对的是复杂的、动态变化的系统,传统的线性思维模式和决策框架变得不再适用。
在这种时代背景下,贝叶斯方法成为一种重要的计算和思维工具,提供了一种量化不确定性,做出概率推断的方法。它不寻求绝对的确定性,而是承认不确定性的存在,并以此为基础构建知识和决策。
对企业而言,不确定性也是数据驱动面临的核心挑战。无论是用户的行为、产品的偏好、还是系统的自动驾驶决策,都存在着难以预测的因素:来自于数据的不完整性、变化的用户偏好、海量的参数等等的不确定性。贝叶斯方法让公司能够把先验知识(比如专家经验或历史数据)和新收集的数据相结合,通过计算后验概率来不断更新对某个问题的理解和预测:
比如电商利用贝叶斯方法来更新对用户偏好的理解,将用户的历史行为和实时反馈结合起来,动态调整推荐算法;Netflix对于新用户或新上线的电影,由于缺乏足够的数据,使用贝叶斯方法来整合先验信息(如电影类型、导演、演员等)和用户反馈,不断调整推荐引擎;又比如,在谷歌的自动驾驶汽车项目中,复杂的道路条件和司机的不可预测行为带来了巨大不确定性。于是谷歌通过贝叶斯方法来整合来自传感器的信息,即时评估不同行动方案的后验概率,做出最可靠的驾驶决策。
贝叶斯统计不仅是一种计算方法,更是一种思维方式。它教我们如何在已有的知识基础上,不断利用新的证据更新我们的认识。帮助我们量化不确定性,提供了一种让我们在不确定性中寻找最佳路径的方法论。
18
生活中处处存在的贝叶斯思维
假设你正在计划着去哪家餐厅吃饭:基于以往的经验(比如哪家上菜快,哪家肉质新鲜等)已经有了初步决策。然而你在手机上做攻略时又看到了一些负面用户体验反馈,改变了想法,更新了目的地决策;当你前往决策的餐厅用餐后,又会某种程度上基于新的经验更新原有的决策策略。
这个日常中最平常的思维过程本质上正是贝叶斯更新的一个实例:你将过去的知识(对餐厅的先验印象)和新的证据(最近的评论和评分)相结合,形成了一个更新的信念,作出适应当前情况的决策。简单来讲就是:老认知 +新证据= 新认知。
就像哲学家约翰·杜威(John Dewey)说的:“如果我们做出的决策没有通过行动的结果来检验,那么这些决策就不过是一种赌博。” 杜威正是在强调行动和结果之间反馈环路的重要性,也就是通过观察实际结果来验证和调整行动的思维框架。
这种纠错机制,其底层正是一种贝叶斯哲学:**形成初步判断(先验概率)> 观察新信息 > 更新信念(后验概率) > 做出决策 > **观察结果并反馈,然后在周而复始的循环中修正认知。
2
揭开贝叶斯的面纱
首先,我们讲讲贝叶斯到底是什么:
贝叶斯统计是概率论的一个分支,提供了一种在不确定性中做决策的框架,告诉我们如何根据新的证据来更新对某个假设的信念。
贝叶斯定理可以这样表达:后验概率(一个事件在给定证据后发生的概率)等于该事件的先验概率(在考虑证据前该事件发生的概率)乘以该证据出现的可能性,除以证据本身出现的概率:
我们可以把贝叶斯公式理解为这是一种基于现有的可靠证据(比如一些观察、数据、信息),对所持信念(比如一些假设、主张或观点)进行更新迭代的方法。这能让我们更好地理解和量化不确定性,根据新的信息和数据不断学习和适应这个充满不确定性的世界。
3
贝叶斯方法的起源
可以说,贝叶斯定理的真正潜力是在近半个世纪里(贝叶斯去世两个多世纪之后)才被充分挖掘和实现的。
(Thomas Bayes, c.1702-1761)
当年,托马斯·贝叶斯其实是在解决一个「逆概率」问题时发明了贝叶斯定理:即如何在给定新数据后更新对事件概率的估计。
我们知道,传统的概率问题通常是已知原始条件去计算结果发生的概率。
而这个「逆概率」问题尝试解决的是:在已知某些结果时,怎样去推断原始的概率条件。这是一个反转传统概率问题的思考方式,贝叶斯在这个问题上的思考产生了现在被称为贝叶斯定理的数学公式。可惜的是,贝叶斯定理其实是在他去世后才由他的朋友理查德·普莱斯(Richard Price)整理并提交给皇家学会的。这个原理在提交给皇家学会时被称为「关于偶然事物的问题的解」,在1763年发表在《哲学事务录》上。
20世纪70年代和80年代,随着马尔可夫蒙特卡洛的引入和普及(Markov Chain Monte Carlo),贝叶斯网络、贝叶斯优化和概率编程等技术开始广泛应用于医学、生物学、工程、经济学和社会科学等。如今,贝叶斯方法不仅是统计学和数据分析的重要工具,也是机器学习和人工智能领域的基础。
4
贝叶斯的关键工具:马尔可夫链蒙特卡罗
(Markov Chain Monte Carlo,MCMC)
然而,在应用贝叶斯方法时(尤其是在面对复杂模型或大量数据时)计算后验分布会因为涉及到的复杂多维积分求解而消耗巨大的计算资源。对此,马尔可夫链蒙特卡罗(MCMC)刚好提供了高效的解决方案。也就是说,贝叶斯方法是在理论上定义如何利用数据来更新对不确定参数的认知,而MCMC提供了一种在实践中实现贝叶斯推断的计算工具。随着计算机性能的提高,数据的收集及处理技术已经远远超过人脑,在处理大量复杂模型和应对数据稀疏情况下,MCMC的优势开始显现。
理解MCMC过程
MCMC是一种基于随机抽样的计算算法,可以用来近似复杂的后验分布,能够在实际应用中处理复杂的贝叶斯模型,进行概率推断和决策。
简单来说, MCMC就是让我们通过构建一个随机过程(马尔可夫链),在参数空间中进行随机抽样,生成样本集合,这些样本集合可以用来估计后验分布的特性(如均值、方差、置信区间等)。核心思想就是通过随机抽样评估样本的“好坏”(概率密度),以及根据当前样本来指导未来的抽样(马尔可夫链),让我们可以逐步探索和理解一个复杂的概率分布。即使刚开始我们对这个分布一无所知,但通过这种方法,我们能够逐步逼近并揭露分布的本质特征。
MCMC就像是通过随机游走来寻找宝藏的过程。
想象你有一张公园的地图,上面标记着可能藏有宝藏的地点。但宝藏的具体位置是未知的。地图上有些区域宝藏可能性大,有些区域可能性小,整个地图就代表着所有可能藏宝地点的概率分布:
Step1: 起点(初始化)
你随机选择一个地点开始寻找,这就像在MCMC中随机初始化一个起始点。
Step2: 探索步骤(构建马尔可夫链)
你根据手中的地图和直觉,从当前位置移动到附近的某个地方寻找宝藏。每次移动都是基于你当前的位置和对地图的理解,这类似于MCMC中从当前样本生成下一个样本的过程。
Step3: 决定是否移动(Metropolis-Hastings准则)
如果你发现一个新地点比现在的更有可能藏有宝藏,你就会转移到那个地点。如果新地点看起来不那么有希望,你也可能以一定的较低的概率转移过去,这样做是为了防止自己只在一个区域徘徊,而忽略了其他可能的区域。在MCMC中,这个决策过程通过接受率来实现,也就是Metropolis-Hastings准则。
Step4: 重复探索(迭代)
你会不断地重复这个探索过程,每次都根据当前位置和地图来决定下一步怎么走。在MCMC中,这个过程就是不断地生成信息样本。
Step5: 找到宝藏(收敛)
经过足够多次的探索后,你会发现自己越来越频繁地回到某些特定的地点,这些地点很可能就是宝藏的位置。在MCMC中,这就表示样本开始在概率分布的高概率区域聚集,算法开始收敛。
Step6:确定宝藏位置(结果分析)
最终,通过分析你访问各个地点的频率,你可以确定宝藏最可能的位置(访问最频繁的区域),以及宝藏可能的分布范围(经常访问的区域)。在MCMC中,我们通过分析样本来估计概率分布的特性,如期望值和方差。
所以总结下来,MCMC就是让我们在探索过程中逐渐了解了环境(概率分布),不断根据新信息迭代认知和决策概率,最终找到宝藏最可能的位置。
8
** 万物皆可“贝叶斯”:**
** 贝叶斯蕴含的5个顶级思维模型**
贝叶斯方法与MCMC不仅在统计学和计算领域中应用广泛,也吸引了许多哲学家和物理学家的兴趣,研究它是如何跨越数学的边界,渗透到我们思维的深处,概括了我们探索世界、积累知识的思维模式,帮助我们在不确定性中做出更好的决策。
亚裔法国数学家黄黎原在《贝叶斯的博弈:数学、思维与人工智能》书中就把贝叶斯公式称为“智慧方程”,评价贝叶斯公式为一个充满生命力的思维工具。
用贝叶斯的眼光看世界,你会发现万物皆可“贝叶斯”。
关于知识-信念-决策的认知哲学
在哲学领域,特别是在科学哲学中,MCMC常被用来探讨知识的获取、不确定性的处理以及模型与现实之间的关系。
- 探索与利用的平衡
探索与利用(Exploration vs. Exploitation)的平衡是一个经典的决策问题。比如谷歌、脸书等科技公司其广告系统和内容推荐算法中使用此策略来平衡新内容的探索和现有内容的利用:在强化学习和多臂老虎机(multi-armed bandit)问题中,贝叶斯方法可以用来平衡探索(尝试不确定的选项以获得更多信息)和利用(选择当前最佳的选项以最大化即时收益)。通过更新信念的概率模型,决策者可以在探索未知和利用已知之间做出更合理的决策。
2. 追求长期效益而非短期收益
贝叶斯决策理论通常考虑的是长期效益。在更新信念时,它不仅仅考虑当前的观测数据,而是将其与先前的知识(先验概率)结合起来。这种方法强调了信息的积累和长期知识的构建,而非只依赖一次观测结果做出决策。桥水基金的创始人Dalio在他的著作《原则》中提到:“接受不确定性,并利用一系列的原则和系统来做决策”的理念就是受贝叶斯启发。
- 从局部到全局的视角
贝叶斯方法通过考虑先验知识和新的观测数据来更新信念。这种方法从具体的单次观测(局部)出发,通过不断更新信念,逐步构建对整体情况的理解(全局)。
接受不确定性,用概率支持决策:贝叶斯统计本质上是概率性的,它不寻求确定性的结论,而是提供一个概率框架来表达不确定性。在贝叶斯框架中,知识和不确定性通过概率分布进行表达,决策是基于这些概率分布,充分考虑了不确定性。
- 持续迭代与自我修正
贝叶斯推断是一个迭代过程。每接收到新的数据,就会更新信念(后验概率)。这个过程可以不断重复,使得信念随着数据的积累而逐渐精确。这也是敏捷开发方法论的核心思想之一,强调通过小步快跑,持续迭代来改进产品。
5
最后,
生活就是由一系列不确定事件构成的。
罗素说过这样一句话:“知识的增长应该是一个不断调整我们的世界观以适应我们已经证实的事实的过程。”罗素的这句话与贝叶斯更新信念的概念不谋而合,强调了在面对新证据时调整和更新信念的重要性。
我们人类对确定性的渴望是刻在基因里的,但这个世界没有泾渭分明,一劳永逸的答案。贝叶斯主义也许正是最适宜这个不确定性时代的知识哲学,至少能让我们在这流动性过程里,变得更加从容平和。
就像黄黎原在书里提到的:“根据贝叶斯定理,任何理论都不完美。取而代之的是一项未尽的工作,它永远处于推敲与测试之中。”
end
Reference
[1] Markov Chain Monte Carlo (MCMC): Data Science Concepts - YouTube Ilya Katsov, A guide to dynamic pricing algorithms (2019), Web
[2]https://research./research-area/experimentation-and-causal-inference
[3] DANIEL LÜTTGA, UFood for Regression: Using Sales Data to Identify Price Elasticity (2018), Web
[4] Dave Giles, MCMC for Econometrics Students — Part IV (2014), Web
[5] Will Koehrsen, Estimating Probabilities with Bayesian Inference (2018), Web GitHub
[6] Will Koehrsen, Bayesian Linear Regression in Python: Using Machine Learning to Predict Student Grades Part 2 (2018), Web Medium
[7] Ero Carrera, Probabilistic-Programming-and-Bayesian-Methods-for-Hackers (2018), Web GitHub