资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习基础：sklearn库的模块、估计器和模型持久化

创作时间:

作者:

@小白创作中心

机器学习基础：sklearn库的模块、估计器和模型持久化

引用

CSDN

https://blog.csdn.net/weixin_47566927/article/details/142436808

scikit-learn（简称sklearn）是Python中使用最广泛的机器学习库之一，它提供了各种监督学习和无监督学习算法，以及数据预处理、模型选择和评估等工具。本文将介绍sklearn的主要模块、监督学习与无监督学习的区别、估计器的概念和使用方法，以及模型持久化的基本知识。

sklearn介绍

scikit-learn是一个基于Python的机器学习库，它构建于NumPy、SciPy和matplotlib之上，提供了各种机器学习算法，包括分类、回归、聚类等。它还包含了数据预处理、模型选择和评估等工具，使得机器学习任务的实现更加便捷。

sklearn的模块

在sklearn主页上列出了主要的六个模块：

Classification（分类）
Regression（回归）
Clustering（聚类）
Dimensionality Reduction（降维）
Model selection（模型评估）
Preprocessing（数据预处理）

除此之外，还有一些重要的模块，例如：

树模型模块 (sklearn.tree)
决策树分类器（DecisionTreeClassifier）
决策树回归器（DecisionTreeRegressor）
随机森林分类器（RandomForestClassifier）
随机森林回归器（RandomForestRegressor）
梯度提升树分类器（GradientBoostingClassifier）
梯度提升树回归器（GradientBoostingRegressor）
集成学习模块 (sklearn.ensemble)
AdaBoost 分类器（AdaBoostClassifier）
AdaBoost 回归器（AdaBoostRegressor）
堆叠分类器（StackingClassifier）
堆叠回归器（StackingRegressor）
支持向量机模块 (sklearn.svm)
支持向量分类器（SVC）
支持向量回归器（SVR）
单类分类器（OneClassSVM）
神经网络模块 (sklearn.neural_network)
多层感知器分类器（MLPClassifier）
多层感知器回归器（MLPRegressor）
模型持久化模块 (sklearn.base)
模型保存和加载（joblib、dump、load）

具体可以参考官网的examples网页，左侧的就是支持的模块，可以点进去查看使用方法。

监督学习和无监督学习

机器学习中的问题类型通常根据数据的特性、学习任务的目标以及用于训练模型的数据标签的可用性来分类。以下是您提到的四类问题的详细解释：

监督学习 (Supervised Learning)

监督学习是一种机器学习方法，其中模型从标记的训练数据学习，每个训练样本都包括输入和相应的输出标签。监督学习的目标是学习一个映射规则，使得模型能够根据新的输入预测输出。它进一步分为两类主要任务：

分类 (Classification)：预测离散标签。
回归 (Regression)：预测连续值。

例子

分类：邮件分类（垃圾邮件检测）、疾病诊断、图像识别。
回归：房价预测、股票价格预测、天气预测。

无监督学习 (Unsupervised Learning)

无监督学习涉及无标签数据，模型必须自行发现输入数据中的结构。无监督学习通常用于聚类、关联规则学习和降维。这种类型的学习对于探索数据和发现数据中的隐藏模式非常有用。

例子

聚类：市场细分、社交网络分析、图像压缩。
关联规则学习：购物篮分析、推荐系统。
降维：PCA（主成分分析）、t-SNE（t-分布随机邻域嵌入）。

估计器

在机器学习中，估计器（Estimator）是一个通用术语，指的是任何可以从数据中学习并做出预测的算法或模型。在 scikit-learn 这样的机器学习库中，估计器通常是一个实现了特定接口的类，这个接口包括至少两个方法：fit() 和 predict()。估计器的目标是捕捉数据中的模式，并能够对新数据做出预测或决策。

估计器的主要特性和方法包括：

fit(X, y)：

这是训练模型的主要方法。它接受输入数据 X 和目标变量 y，并根据这些数据来训练估计器。在训练过程中，估计器会调整其内部参数以最好地拟合数据。

predict(X)：

一旦估计器被训练，predict() 方法用于对新数据 X 进行预测。它使用 fit() 方法训练得到的模型参数来预测数据的输出。

score(X, y)(可选)：

许多估计器还实现了 score() 方法，它返回一个分数，表示模型在给定数据 X 和 y 上的性能。对于分类任务，这通常是准确率；对于回归任务，可能是均方误差或其他指标。

get_params() 和 set_params()：

这些方法允许用户获取或设置估计器的参数。这在超参数调整和模型配置中非常有用。

估计器的类型：

分类器（Classifiers）：

用于分类任务的估计器，如逻辑回归、支持向量机、决策树等。

回归器（Regressors）：

用于预测连续值的估计器，如线性回归、岭回归等。

聚类器（Clusterers）：

用于将数据分组的估计器，如 K-Means、层次聚类等。

降维器（Dimensionality Reducers）：

用于减少数据维度的估计器，如主成分分析（PCA）、t-SNE等。

示例：使用 scikit-learn 中的估计器

from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression

# 创建数据
X, y = make_regression(n_samples=100, n_features=1, noise=20)

# 创建估计器实例
model = LinearRegression()

# 训练模型
model.fit(X, y)

# 进行预测
predictions = model.predict(X)

# 评估模型
score = model.score(X, y)
print("模型得分:", score)

在这个例子中，LinearRegression 是一个估计器，用于解决回归问题。它通过 fit() 方法学习数据，并通过 predict() 方法进行预测。

估计器是机器学习中的核心概念，为算法的实现和使用提供了一个统一和灵活的框架。

模型持久化（sklearn使用joblib，pytorch使用pt/pth）

模型持久化是指将训练好的机器学习模型保存到磁盘上，以便将来可以重新加载和使用，而无需重新训练。在Python中，有几个常用的库可以用来进行模型持久化：

pickle：

pickle 是Python的标准库，可以序列化和反序列化Python对象结构。
产生 .pkl 文件。

joblib：

joblib 是一个专为Python中大型数组和模型持久化设计的库，常用于机器学习任务。
特别适合用于包含大量数值数据的对象，如NumPy数组和scikit-learn模型。
产生 .joblib 文件。

PyTorch torch.save：

PyTorch提供了 torch.save 函数来保存模型或模型的状态字典。
产生 .pt 或 .pth 文件。

TensorFlow tf.keras.models.save：

TensorFlow和Keras提供了 save 方法来保存模型。
可以保存为HDF5文件（.h5）或SavedModel格式（包含 .pb 和变量的目录）。

h5py：

h5py 是用于与HDF5文件交互的Python库，Keras等深度学习框架使用它来保存模型。
产生 .h5 文件。

joblib 和 pickle 比较：

joblib 在处理大数组时通常比 pickle 更高效，因为它采用了更高效的压缩和存储机制。
joblib 也更适合持久化包含大量数值数据的模型，如机器学习模型。

示例代码

使用 joblib 保存和加载模型：

from sklearn.linear_model import LinearRegression
from joblib import dump, load

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 保存模型
dump(model, 'model.joblib')

# 加载模型
model = load('model.joblib')

使用 pickle 保存和加载模型：

import pickle

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 保存模型
with open('model.pkl', 'wb') as file:
    pickle.dump(model, file)

# 加载模型
with open('model.pkl', 'rb') as file:
    model = pickle.load(file)

模型持久化是机器学习工作流中的一个重要步骤，它使得模型可以在不同的环境中重用，也便于模型的版本控制和部署。