机器学习算法 - 一文搞懂SL(监督学习)
创作时间:
作者:
@小白创作中心
机器学习算法 - 一文搞懂SL(监督学习)
引用
1
来源
1.
https://developer.volcengine.com/articles/7382261240627724339
本文将从监督学习的本质、监督学习的原理、监督学习的案例三个方面,带您一文搞懂监督学习(Supervised Learning)。
一、监督学习的本质
基本思路:利用已知输入和输出数据(即带有标签的数据)进行训练,使模型能够对新数据做出预测。在这个过程中,“监督”的含义是指我们为模型提供了每个输入对应的正确输出,以此来“教导”模型如何进行学习。
- 提供标签数据:在监督学习中,训练数据集由输入数据和相应的输出标签组成。这些标签是已知的,并且在训练过程中被用作指导信号。例如,在图像分类任务中,输入数据可能是图像的像素值,而输出标签则是图像所属的类别(如猫、狗等)。
- 学习过程监督:监督学习的核心在于利用这些带有标签的数据来训练模型。模型通过调整其内部参数,以最小化预测输出与实际标签之间的差异。这个差异通常通过损失函数来衡量,如均方误差(MSE)用于回归问题,交叉熵损失用于分类问题。
监督学习 VS 无监督学习
- 监督学习依赖于带有标签的数据进行训练以做出预测,而无监督学习则从无标签数据中挖掘内在结构和模式。
- 监督学习:依赖于带有标签的数据进行训练。这些标签为模型提供了明确的指导,告诉它对于给定的输入应该产生什么样的输出。标签通常是人工提供的,增加了数据准备的成本和时间。
- 无监督学习:不需要标签数据。它通过分析输入数据之间的相似性、差异或模式来工作。由于没有明确的指导,无监督学习算法必须自我发现数据中的结构。
- 监督学习:主要目标是预测。模型被训练来最小化预测错误,通常通过比较模型的输出和真实标签之间的差异来衡量。常见的监督学习任务包括分类(预测类别标签)和回归(预测连续值)。
- 无监督学习:目标是探索和理解数据的内在结构。由于没有标签,算法侧重于发现数据中的模式、组群或异常值。常见的无监督学习任务包括聚类(将相似的数据点分组)和降维(简化数据的表示)。
- 监督学习:由于其预测能力,广泛应用于需要明确输出的情况。例如,图像识别、语音识别、自然语言处理(如情感分析)、推荐系统、金融市场预测等。
- 无监督学习:适用于数据探索、预处理或当标签成本过高时。例如,在社交媒体分析中识别用户群体、网络流量异常检测、基因序列分析中的模式发现等。
二、监督学习的原理
四个流程:
利用带有标签的数据集训练模型,通过调整模型参数最小化预测误差,使其能够对未知数据做出准确预测,并通过评估来检验模型的性能。
- 数据集:在监督学习中,我们使用一个包含多个数据样本的数据集进行训练,每个数据样本都包含输入特征和对应的标签(即期望的输出)。
- 模型训练:模型通过学习输入特征和标签之间的关系来建立预测模型。这个过程通常涉及到参数优化,即通过调整模型内部的参数,使得模型在训练集上的预测误差最小化。
- 预测:一旦模型训练完成,它就可以用来对新的、未见过的数据进行预测。模型会分析新数据的输入特征,并基于在训练阶段学到的关系来生成预测结果。
- 评估:为了评估模型的性能,我们通常会将一部分数据保留作为测试集,不参与训练过程。模型在测试集上的表现可以帮助我们了解其泛化能力,即模型对未见数据的预测能力。
两个任务:回归、分类
- 一、回归(Regression)
- 任务:预测连续数值输出。
- 目标:根据输入特征估计一个连续值。
- 数据特点:处理的是连续型数据,这类数据可以在某个范围内取任意实数值,如温度、身高、体重、价格等。
- 应用例子:
- 房价预测:基于房屋面积、位置等特征预测房价。
- 股票价格预测:基于历史数据和市场趋势预测未来股价。
- 芝麻信用分数:基于用户的多种行为数据预测信用分数。
- 模型行为:学习输入与输出之间的连续关系,并为新数据预测输出值。
- 二、分类(Classification)
- 任务:预测离散的类别标签。
- 目标:将实例分配到两个或多个离散类别中。
- 数据特点:处理的是离散型数据,即不连续的数据,如性别、天气状况等。
- 应用例子:
- 图像识别:将图像分类为不同的对象类别,如猫、狗等。
- 邮件分类:将电子邮件分类为垃圾邮件或非垃圾邮件。
- 客户信用评级:基于客户的信用历史将其分类为不同的信用等级。
- 模型行为:学习如何区分不同类别,并为新数据分配类别标签。
三、监督学习的案例
回归案例:芝麻信用分是怎么来的?
- 一、构建问题与选择模型
- 确定目标:评估个人信用状况。
- 选择影响因素:经过逻辑判断,选择付款记录、账户总金额、信用记录跨度、新账户和信用类别作为影响信用的主要因素。
- 构建模型:建立一个模型f,这个模型将上述5个因素与个人信用分数关联起来。目标是找出模型f的具体形式。
- 二、收集已知数据
- 数据收集:收集大量包含上述5种因素和个人信用状态的数据。
- 数据划分:将收集到的数据分为训练集、验证集和测试集。
- 三、训练出理想模型
- 模型训练:使用训练集数据,通过机器学习算法“猜测”出5种因素与信用分数之间的关系,即模型f。
- 模型验证:使用验证集数据验证模型f的准确度。将验证集数据输入模型,计算出信用分,并与实际信用分进行比较,评估模型的性能。
- 模型优化:根据验证结果对模型进行调整和优化,以提高其准确度。
- 四、对新用户进行预测
- 数据收集:对于新用户,收集其上述5种因素的数据。
- 信用预测:将新用户的数据输入训练好的模型f中,计算出该用户的信用分数。
分类案例:如何预测离婚?
- 一、构建问题与选择模型
- 确定目标:预测夫妻是否会离婚。
- 特征选择:选择对话中的情绪关联作为预测离婚的主要特征。这些情绪关联可能包括争吵、欢笑、调侃和情感表露等。
- 选择模型:可以选择一种分类算法,如决策树、逻辑回归或支持向量机等。
- 二、收集已知数据
- 数据收集:邀请700对夫妻参与实验,记录他们的对话,并根据对话中的情绪关联给他们打分。
- 数据预处理:将收集到的对话数据转化为可以用于机器学习模型训练的格式。这可能包括文本处理、特征提取和标签编码等步骤。
- 三、训练出理想模型
- 模型训练:使用已知数据训练分类模型。在这个过程中,模型会学习如何根据对话中的情绪关联来预测夫妻是否会离婚。
- 模型评估:通过交叉验证等方法评估模型的性能,确保模型能够准确地预测离婚概率。
- 模型优化:根据评估结果对模型进行调整和优化,以提高其预测准确率。
- 四、对新用户进行预测
- 数据收集:对于新的夫妻,收集他们的对话数据,并提取相应的情绪关联特征。
- 离婚预测:将新夫妻的数据输入训练好的分类模型中,模型会输出这对夫妻的离婚概率。根据这个概率,我们可以判断这对夫妻是否会离婚。
热门推荐
数学建模算法与应用 第6章 微分方程建模及其求解方法
上市公司市值怎么算出来的?具体计算过程与实例说明
碳水化合物:它们是什么、类型以及对饮食的基本益处
如何制定有效的饮食减脂计划?减脂饮食应注意哪些要点?
慢热型人格的心理特质与社交策略
四川稻城亚丁旅游攻略,探寻最后一片净土,邂逅三神山的千年传说
短剧的风,掀动着怎样的网文生态?
情绪变化是怀孕正常现象吗?如何应对孕期情绪波动?
生吃三文鱼全攻略:美味与安全并存!
肌肤保湿技巧与护肤产品选择指南
西红柿的营养价值和医学领域的研究成果
发光二极管的原理
腊月初七的风俗习初惯,腊月初七传统风俗习惯与文化内涵
禄的秘密:从古至今的权力游戏
界限:建立健康人际关系的关键
2025山东大学研究生奖学金和助学金政策详解
金融资产计量交易成本:影响投资回报与风险的神秘因素
AI战争,实际上还是人的战争
天天喝豆浆的人,后来都怎么样了?
人类数学史上曾出现三次危机,第三次危机至今都没解决!
科比在中国的魅力与影响力解析
徐州把子肉
老年人助听器怎么选:一份实用指南
防城港最漂亮的古镇,邂逅那些藏在时光里的美
合肥工大的机械工程专业应该往哪个方向去选?
冬季大小病丨冬季肺结节、肺癌患者如何保健?
显示屏选购指南:排行榜、使用时长与品质考量
《认知驱动》——提升自我认知,驱动个人成长
网站需求管理文案怎么写
2025年清明节期间北京交通指南:易拥堵路段及安全提示