问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习算法 - 一文搞懂SL（监督学习）

创作时间:

作者:

@小白创作中心

机器学习算法 - 一文搞懂SL（监督学习）

引用

1

来源

1.

https://developer.volcengine.com/articles/7382261240627724339

本文将从监督学习的本质、监督学习的原理、监督学习的案例三个方面，带您一文搞懂监督学习（Supervised Learning）。

一、监督学习的本质

基本思路：利用已知输入和输出数据（即带有标签的数据）进行训练，使模型能够对新数据做出预测。在这个过程中，“监督”的含义是指我们为模型提供了每个输入对应的正确输出，以此来“教导”模型如何进行学习。

提供标签数据：在监督学习中，训练数据集由输入数据和相应的输出标签组成。这些标签是已知的，并且在训练过程中被用作指导信号。例如，在图像分类任务中，输入数据可能是图像的像素值，而输出标签则是图像所属的类别（如猫、狗等）。
学习过程监督：监督学习的核心在于利用这些带有标签的数据来训练模型。模型通过调整其内部参数，以最小化预测输出与实际标签之间的差异。这个差异通常通过损失函数来衡量，如均方误差（MSE）用于回归问题，交叉熵损失用于分类问题。

监督学习 VS 无监督学习

监督学习依赖于带有标签的数据进行训练以做出预测，而无监督学习则从无标签数据中挖掘内在结构和模式。
监督学习：依赖于带有标签的数据进行训练。这些标签为模型提供了明确的指导，告诉它对于给定的输入应该产生什么样的输出。标签通常是人工提供的，增加了数据准备的成本和时间。
无监督学习：不需要标签数据。它通过分析输入数据之间的相似性、差异或模式来工作。由于没有明确的指导，无监督学习算法必须自我发现数据中的结构。
监督学习：主要目标是预测。模型被训练来最小化预测错误，通常通过比较模型的输出和真实标签之间的差异来衡量。常见的监督学习任务包括分类（预测类别标签）和回归（预测连续值）。
无监督学习：目标是探索和理解数据的内在结构。由于没有标签，算法侧重于发现数据中的模式、组群或异常值。常见的无监督学习任务包括聚类（将相似的数据点分组）和降维（简化数据的表示）。
监督学习：由于其预测能力，广泛应用于需要明确输出的情况。例如，图像识别、语音识别、自然语言处理（如情感分析）、推荐系统、金融市场预测等。
无监督学习：适用于数据探索、预处理或当标签成本过高时。例如，在社交媒体分析中识别用户群体、网络流量异常检测、基因序列分析中的模式发现等。

二、监督学习的原理

四个流程：

利用带有标签的数据集训练模型，通过调整模型参数最小化预测误差，使其能够对未知数据做出准确预测，并通过评估来检验模型的性能。

数据集：在监督学习中，我们使用一个包含多个数据样本的数据集进行训练，每个数据样本都包含输入特征和对应的标签（即期望的输出）。
模型训练：模型通过学习输入特征和标签之间的关系来建立预测模型。这个过程通常涉及到参数优化，即通过调整模型内部的参数，使得模型在训练集上的预测误差最小化。
预测：一旦模型训练完成，它就可以用来对新的、未见过的数据进行预测。模型会分析新数据的输入特征，并基于在训练阶段学到的关系来生成预测结果。
评估：为了评估模型的性能，我们通常会将一部分数据保留作为测试集，不参与训练过程。模型在测试集上的表现可以帮助我们了解其泛化能力，即模型对未见数据的预测能力。

两个任务：回归、分类

一、回归（Regression）
任务：预测连续数值输出。
目标：根据输入特征估计一个连续值。
数据特点：处理的是连续型数据，这类数据可以在某个范围内取任意实数值，如温度、身高、体重、价格等。
应用例子：
房价预测：基于房屋面积、位置等特征预测房价。
股票价格预测：基于历史数据和市场趋势预测未来股价。
芝麻信用分数：基于用户的多种行为数据预测信用分数。
模型行为：学习输入与输出之间的连续关系，并为新数据预测输出值。
二、分类（Classification）
任务：预测离散的类别标签。
目标：将实例分配到两个或多个离散类别中。
数据特点：处理的是离散型数据，即不连续的数据，如性别、天气状况等。
应用例子：
图像识别：将图像分类为不同的对象类别，如猫、狗等。
邮件分类：将电子邮件分类为垃圾邮件或非垃圾邮件。
客户信用评级：基于客户的信用历史将其分类为不同的信用等级。
模型行为：学习如何区分不同类别，并为新数据分配类别标签。

三、监督学习的案例

回归案例：芝麻信用分是怎么来的？

一、构建问题与选择模型
确定目标：评估个人信用状况。
选择影响因素：经过逻辑判断，选择付款记录、账户总金额、信用记录跨度、新账户和信用类别作为影响信用的主要因素。
构建模型：建立一个模型f，这个模型将上述5个因素与个人信用分数关联起来。目标是找出模型f的具体形式。
二、收集已知数据
数据收集：收集大量包含上述5种因素和个人信用状态的数据。
数据划分：将收集到的数据分为训练集、验证集和测试集。
三、训练出理想模型
模型训练：使用训练集数据，通过机器学习算法“猜测”出5种因素与信用分数之间的关系，即模型f。
模型验证：使用验证集数据验证模型f的准确度。将验证集数据输入模型，计算出信用分，并与实际信用分进行比较，评估模型的性能。
模型优化：根据验证结果对模型进行调整和优化，以提高其准确度。
四、对新用户进行预测
数据收集：对于新用户，收集其上述5种因素的数据。
信用预测：将新用户的数据输入训练好的模型f中，计算出该用户的信用分数。

分类案例：如何预测离婚？

一、构建问题与选择模型
确定目标：预测夫妻是否会离婚。
特征选择：选择对话中的情绪关联作为预测离婚的主要特征。这些情绪关联可能包括争吵、欢笑、调侃和情感表露等。
选择模型：可以选择一种分类算法，如决策树、逻辑回归或支持向量机等。
二、收集已知数据
数据收集：邀请700对夫妻参与实验，记录他们的对话，并根据对话中的情绪关联给他们打分。
数据预处理：将收集到的对话数据转化为可以用于机器学习模型训练的格式。这可能包括文本处理、特征提取和标签编码等步骤。
三、训练出理想模型
模型训练：使用已知数据训练分类模型。在这个过程中，模型会学习如何根据对话中的情绪关联来预测夫妻是否会离婚。
模型评估：通过交叉验证等方法评估模型的性能，确保模型能够准确地预测离婚概率。
模型优化：根据评估结果对模型进行调整和优化，以提高其预测准确率。
四、对新用户进行预测
数据收集：对于新的夫妻，收集他们的对话数据，并提取相应的情绪关联特征。
离婚预测：将新夫妻的数据输入训练好的分类模型中，模型会输出这对夫妻的离婚概率。根据这个概率，我们可以判断这对夫妻是否会离婚。

热门推荐

绿龙晶：从特点到功效的全面解析

绿龙晶：从特点到功效的全面解析

波多黎各多次要求成为“美国第51州”，美国内部产生分歧，为何无法定调？

波多黎各多次要求成为“美国第51州”，美国内部产生分歧，为何无法定调？

右手定则的四种图解(安培定则怎么看向里向外)

右手定则的四种图解(安培定则怎么看向里向外)

家装颜色如何搭配比较好？室内家装颜色搭配全攻略

家装颜色如何搭配比较好？室内家装颜色搭配全攻略

聚力工程 | 蛇年到，新学期如何「灵巧蜕壳」？—— 开学心理调适指南来啦！

聚力工程 | 蛇年到，新学期如何「灵巧蜕壳」？—— 开学心理调适指南来啦！

国内首个脑胶质瘤前沿创新治疗联合门诊开诊

国内首个脑胶质瘤前沿创新治疗联合门诊开诊

麦麸：被低估的肠道清道夫，减肥控糖的秘密武器！

麦麸：被低估的肠道清道夫，减肥控糖的秘密武器！

紫微斗数基本结构及其四种类型解析深入了解紫微斗数的魅力与奥秘

紫微斗数基本结构及其四种类型解析深入了解紫微斗数的魅力与奥秘

直播源码质量如何设置好

直播源码质量如何设置好

干货┃电力施工作业140种安全距离（值得收藏）

干货┃电力施工作业140种安全距离（值得收藏）

2024研招调剂有技巧，5个方向调剂成功率高

2024研招调剂有技巧，5个方向调剂成功率高

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

填缝胶选购与使用全攻略：从类型选择到施工技巧

填缝胶选购与使用全攻略：从类型选择到施工技巧

和占星相关的塔罗牌

和占星相关的塔罗牌

文化和商业共舞　从故宫文创看中国传统文化的商业化之路

文化和商业共舞　从故宫文创看中国传统文化的商业化之路

如何选择板块股票并制定合理的投资计划？这些板块股票有哪些特点？

如何选择板块股票并制定合理的投资计划？这些板块股票有哪些特点？

油豆腐这个做法火了，饭店卖68元，成本不到10元，入味解馋

油豆腐这个做法火了，饭店卖68元，成本不到10元，入味解馋

科学探索：磷脂酰丝氨酸在神经系统中的作用

科学探索：磷脂酰丝氨酸在神经系统中的作用

增设新能源充电桩为居民绿色出行“续航”

增设新能源充电桩为居民绿色出行“续航”

行测备考技巧干货：数资备考干货之两句口诀轻松比较增长量

行测备考技巧干货：数资备考干货之两句口诀轻松比较增长量

绿豆芽和黄豆芽区别在哪里？哪个跟适合炒着吃？

绿豆芽和黄豆芽区别在哪里？哪个跟适合炒着吃？

下周资本市场大事提醒：财报季来袭，4693亿解禁潮将至

下周资本市场大事提醒：财报季来袭，4693亿解禁潮将至

为什么公鸡每天早上要打鸣？难道它会看时间吗？事实真相并非如此

为什么公鸡每天早上要打鸣？难道它会看时间吗？事实真相并非如此

雷迪克解析湖人新战术体系：他真的能破解洛杉矶最大难题？

雷迪克解析湖人新战术体系：他真的能破解洛杉矶最大难题？

4本逆袭爽文小说推荐：武魂废物也能成绝代神主

4本逆袭爽文小说推荐：武魂废物也能成绝代神主

粮食上市公司：探索可持续发展的道路

粮食上市公司：探索可持续发展的道路

《明日方舟终末地》核心机制介绍

《明日方舟终末地》核心机制介绍

五日均线怎么看，K线三条红蓝黄线代表什么

五日均线怎么看，K线三条红蓝黄线代表什么

强直性脊柱炎疼痛管理指南：原因解析与科学应对方案

强直性脊柱炎疼痛管理指南：原因解析与科学应对方案

十二星座的压力密码：专属你的减压指南

十二星座的压力密码：专属你的减压指南

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号