问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习的建模流程

创作时间:
作者:
@小白创作中心

机器学习的建模流程

引用
CSDN
1.
https://blog.csdn.net/lx2929266892/article/details/138544457

机器学习是人工智能领域的重要分支,其核心在于通过算法让计算机从数据中学习并做出预测或决策。本文将详细介绍机器学习的建模流程,包括数据获取、预处理、特征工程、模型训练和评估等关键步骤,帮助读者建立对机器学习的整体认知。

流程概述

机器学习的建模流程主要包括以下几个步骤:

  1. 获取数据:这是建模的第一步,需要收集与任务相关的数据。数据来源可以是经验数据、图像数据、文本数据、用户数据等。

  2. 数据基本处理:对获取的数据进行预处理,包括处理缺失值、异常值等,确保数据质量。

  3. 特征工程:通过特征提取、预处理、降维、选择和组合等手段,将原始数据转化为适合模型训练的特征向量。

  4. 模型训练:选择合适的机器学习算法(如KNN、线性回归、逻辑回归等)进行模型训练。

  5. 模型评估:通过回归、分类、聚类等评测指标,评估模型的性能,并解决拟合问题,优化模型的泛化能力。

获取数据

数据获取是机器学习建模的第一步,数据的质量和数量直接影响模型的效果。常见的数据类型包括:

  • 经验数据
  • 图像数据
  • 文本数据
  • 用户数据

数据基本处理

数据预处理是提高模型效果的关键步骤,主要包括:

  • 数据缺失值处理:处理数据中的缺失值,可以采用填充、删除等方法。
  • 异常值处理:识别并处理数据中的异常值,避免对模型训练产生负面影响。

特征工程

特征工程是机器学习中非常重要的环节,通过特征工程可以显著提升模型的性能。

概述

特征是对任务有用的属性信息,特征工程则是利用专业背景知识和技巧处理数据,让模型效果更好。

内容

特征提取

从原始数据中提取与任务相关的特征,构成特征向量。

特征预处理

特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

将不同的单位的特征数据转换成同一个范围内,
使训练数据中不同特征对模型产生较为一致的影响
不同特征堆模型影响一致性,其中量纲问题用:归一化,标准化

特征降维

保证数据的主要信息要保留下来

特征选择

原始数据特征很多,但是对任务相关是其中一个特征集合子集。

从特征中选则出一些重要特征训练模型

特征组合

把多个特征合并组合成一个特征

机器学习(模型训练)

常见的机器学习算法包括:

  • KNN近邻算法
  • 线形回归
  • 逻辑回归
  • 决策树
  • GBDT

模型评估

分类

  • 回归评测指标:MAE、MSE
  • 分类评测指标:准确率
  • 聚类评测指标:CH、SC等

模型拟合问题

拟合

用来表示模型对样本点的拟合情况

三种情况

  • 正好拟合:模型在训练集和测试集上表现都很好
  • 欠拟合:模型在训练集上表现很差,在测试集表现也很差。原因:模型过于简单
  • 过拟合:模型在训练集上表现很好,在测试集表现很差。原因:模型太过于复杂、数据不纯、训练数据太少

泛化

模型在新数据集(非训练数据)上的表现好坏的能力

奥卡姆剃刀原则

给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

总结

以上就是机器学习的建模流程,内容比较基础,想要学习机器学习的朋友,可以在此基础上去看看其他大佬们更深层次的讲解,谢谢观看。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号