问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习算法的另一个分支-贝叶斯算法原理（贝叶斯要解决什么问题）

创作时间:

作者:

@小白创作中心

机器学习算法的另一个分支-贝叶斯算法原理（贝叶斯要解决什么问题）

引用

CSDN

1.

https://blog.csdn.net/JamesSwifte/article/details/137111857

贝叶斯算法是机器学习领域的一个重要分支，它基于贝叶斯定理，通过计算条件概率来解决各种实际问题。本文将从贝叶斯算法的基本概念出发，通过具体实例，深入浅出地介绍贝叶斯算法的原理及其在拼写纠正和垃圾邮件过滤等场景中的应用。

一、贝叶斯简介

贝叶斯：英国数学家。1702年出生于伦敦，做过神甫。贝叶斯在数学方面主要研究概率论。对于统计决策函数、统计推断、统计的估算等做出了贡献。

贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章
生不逢时，死后他的作品才被世人认可。

二、贝叶斯要解决的问题

正向概率：假设袋子里有N个白球，M个黑球，伸手去摸一个出来黑球的概率是多大？白球？
学过统计学的都知道(正向概率)：

逆向概率：如果我们事先并不知道袋子里的黑白球比例，而是闭着眼睛摸出一个或好几个球，观察这些取出来的球的颜色之后，我们可以就此对袋子里的黑白球的比例做出什么样的推测。

三、例子（公式推导）

一个学校男生有60%，女生有40%，男生总是穿长裤，女生则一半穿长裤，一半穿长裙。

正向概率：随机挑选一个学生，他（她）穿长裤的概率和穿长裙的概率是多大？

逆向概率：迎面走来一条长裤，看不到其他地方，无法确定性别，那么推断出他（她）的概率是多大呢？？

解：假设学校里有U个学生

穿长裤的（男生）：
其中：
是男生的概率=60%，
是条件概率=100%，所有男生穿长裤。

穿长裤的女生：

求解：穿长裤的人里面有多少男（女）生？

穿长裤的总数：

穿长裤的总数
化简：把U约掉，分母其实就是P(Pants),分子其实就是P(Pants,Girl)

用统计学的话说：令随机选择一个女生的事件为A，概率为p(A)
令随机选择一个穿长裤的人为事件B，概率为p(B)
则：

这就是贝叶斯公式。

四、实例

1. 拼写纠正实例

我们看到用户输入一个不在词典的单词，那么输入法根据用户习惯还是会给出正确的几个单词，输入法这里做了一个事情：“猜测这个家伙到底真正想要输入的单词是什么呢？”

解：P(我们猜测他想输入的单词|他实际输入的单词)

比如输入了一个 tha 正确的可能是the,than等等
P1(the|tha) P2(than|tha) ......对此排序，显示。

用户实际输入的单词记为：D（D即为观测数据）
猜测1：p(h1|D)，猜测2：p(h2|D),猜测3：p(h3|D).....
统一为：p(h|D)

对于不同的具体猜测h1,h2,h3...p(D)都是一样的，所以在比较p(h1|D),p(h2|D)....我们可以把这个常数忽略掉。

即：

对于给定的观测数据，一个猜测是好是坏，取决于“这个猜测本身独立的可能性大小（先验概率，Prior）”和“这个猜测生成我们观测的数据的可能性大小”

结论：传统的机器学习的思想：极大似然函数，参数由数据决定

机器学习的另一个分支：贝叶斯公式，关注的先验条件（知识），关注数据对结果的影响。

对于这个案例来说：p(h)先验概率：the,than就是在用户语料库中，进行词频统计，例如用户采用1000个词，the的概率1%，than的概率：0.1%。

而p(tha|the)怎么算？这个可以由自己定制规则，the->tha做一次增删改查，than->tha做一次曾删改查，所以概率相同。

得出p(the|tha)>p(tha|than)

2. 垃圾邮件过滤实例

问题：给定一封邮件，判定它是否属于垃圾邮件（类似于手机垃圾短信，系统自动识别放在垃圾短信中）

D来表示这封邮件，注意D是由N个单词组成。我们用 h+ 来表示垃圾邮件， h- 表示正常邮件。

先验概率：p(h+),p(h-)这两个先验概率都是很好得出来的，只需要计算一个邮件库的垃圾邮件和正常邮件的概率即可。

D里面含有N个单词d1,d2,d3....,p(D|h+)=p(d1,d2,...,dn|h+),就是说在垃圾邮件中出现根我们目前这封邮件一模一样的概率是多大？？？

p(d1,d2,...,dn|h+)扩展为：p(d1|h+)p(d2|d1,h+)...*p(dn|d1,d2,...,dn-1,h+)

就是说这封邮件和垃圾邮件中的第一单词一样，这封邮件在和垃圾邮件中的第一单词一样的情况下，第二个单词一样的概率....我们发现这样算下去，太麻烦。

提出朴素贝叶斯的概念：即每个特征之间是相互独立的，互不影响，这是一个强假设。用来化简的，我们想一想，真实的语言文本之间互不影响吗？？？当然不是，所以这样做并不能提升准确率。

化简为：p(d1|h+)p(d2|h+)...*p(dn|h+)

对于p(d1|h+)p(d2|h+)...*p(dn|h+)还采用在垃圾邮件中的词频统计方法即可。

热门推荐

买黄瓜时，到底买“带花”还是“不带花”好？区别很大，建议弄懂再买

买黄瓜时，到底买“带花”还是“不带花”好？区别很大，建议弄懂再买

梦见飞翔：心理学上的含义和解释

梦见飞翔：心理学上的含义和解释

在上班和上进之间，这届年轻人选择了“上墙”？！

在上班和上进之间，这届年轻人选择了“上墙”？！

实现车企销售目标的关键：项目管理和团队协作

实现车企销售目标的关键：项目管理和团队协作

机器学习的“老前辈”：那些经典算法你了解吗？

机器学习的“老前辈”：那些经典算法你了解吗？

哪些投资风险小？6个低风险的项目推荐

哪些投资风险小？6个低风险的项目推荐

和田玉保养方法大揭秘：多久会变润？如何保持更佳状态？

和田玉保养方法大揭秘：多久会变润？如何保持更佳状态？

脚汗多怎么治疗最有效

脚汗多怎么治疗最有效

广东省五大特色产业全景分析：规模增长、政策支持与投资机遇

广东省五大特色产业全景分析：规模增长、政策支持与投资机遇

全面解析股票投资的关键策略与心理管理

全面解析股票投资的关键策略与心理管理

不同宠物训练的正确方法训练宠物要注意什么

不同宠物训练的正确方法训练宠物要注意什么

老年宠物健康护理指南：细致关爱与周到陪伴的重要性

老年宠物健康护理指南：细致关爱与周到陪伴的重要性

企业管理岗与专技岗：职责与技能的差异

企业管理岗与专技岗：职责与技能的差异

笔迹形成时间能否鉴定

笔迹形成时间能否鉴定

提升客户体验，打造形象满意的品牌策略

提升客户体验，打造形象满意的品牌策略

武器耐久度系统设计初探——真实与体验的平衡之道

武器耐久度系统设计初探——真实与体验的平衡之道

历史上真实的芈月：智慧与手腕并存的传奇女性

历史上真实的芈月：智慧与手腕并存的传奇女性

频繁吠叫因焦虑、好奇或不适，轻抚头部、给予玩具安抚。

频繁吠叫因焦虑、好奇或不适，轻抚头部、给予玩具安抚。

绘画初学者入门学习的八个方法

绘画初学者入门学习的八个方法

什么是量子

什么是量子

五祖在清代及民初洪门历史中的角色与意义

五祖在清代及民初洪门历史中的角色与意义

买房开发商跑了咋办？公寓住宅有何区别？

买房开发商跑了咋办？公寓住宅有何区别？

支原体肺炎复发怎么办

支原体肺炎复发怎么办

《沙丘》太软，《三体》才硬核？中国科幻没底气嘲讽“太空歌剧”

《沙丘》太软，《三体》才硬核？中国科幻没底气嘲讽“太空歌剧”

椰子水的功效与作用有哪些？天然解渴神器还能补充电解质

椰子水的功效与作用有哪些？天然解渴神器还能补充电解质

喝椰子水有什么健康益处？解锁椰子水的营养秘密

喝椰子水有什么健康益处？解锁椰子水的营养秘密

惠州地铁梦再近一步，14号线延伸有望？

惠州地铁梦再近一步，14号线延伸有望？

哪种豆类蛋白质最高，植物蛋白有何益处？

哪种豆类蛋白质最高，植物蛋白有何益处？

都市情感剧创作新变

都市情感剧创作新变

因特拉肯3日游：少女峰、雪朗峰与湖光山色

因特拉肯3日游：少女峰、雪朗峰与湖光山色

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号