划分训练集、验证集和测试集以及为何需要验证集？

创作时间:

作者:

@小白创作中心

划分训练集、验证集和测试集以及为何需要验证集？

引用

CSDN

https://blog.csdn.net/NBlinge/article/details/136548487

在机器学习项目中，数据集的划分是一个基础但重要的步骤。通常，我们将数据集划分为训练集、验证集和测试集三部分。这种划分方式有什么好处？为什么需要验证集？本文将为您详细解答这些问题。

一、机器学习数据集

训练集（训练阶段）：用于构建我们的模型，我们的模型在训练集上进行学习，通常在这个阶段我们可以有多种方法进行训练。
验证集（模型挑选阶段）：用于挑选最优模型超参的样本集合：使用验证集可以得到反向传播什么时候结束以及超参怎么设置最合理。主要目的是为了挑选在验证集上表现最好的模型。
测试集（验证阶段评估泛化误差）：在我们挑选好验证集上表现最好的模型之后，用于评估该模型泛化能力的数据集。但不能作为调参、选择特征等算法相关的选择的依据。测试集的作用是体现在测试的过程。

一般来说，上述三个数据集的比例为60：20：20

二、为何需要验证集

参数不仅仅只有权重：在神经网络中有很多参数，有些参数，比如权重是可以通过训练集学习更新的；但是有些参数是在训练开始之前人为设定的，比如学习率（或初始学习率），层的大小等这类参数，我们可以称之为超参数。
超参数的调整：这样的参数一次训练只能设置一次，很显然为了找到一个合适的数值，需要不断调整其设定值，重复训练模型，观察其结果。
验证集：那为什么不直接在训练集上观察其调整带来的效果呢？因为如果只是在训练集上观察效果，那么学习总是会往尽可能多的满足训练集上的情况靠近。但是换了个从未观察过的样本集合中，可能效果就不是那么好。所以此时为了调超参数，引入一个网络从未学习的样本集合——验证集，来观看每一次调超参数后的结果。
测试集：测试集是不能以任何形式参与神经网络中的学习的过程中的。如果参与了，那么就无法保证模型在未观测的数据上的表现的可靠性。似乎这样说，和验证集貌似效果一样。但是验证集的不断参与调整超参数的过程，就已经不满足测试集“不能以任何形式参与神经网络中的学习的过程中”这一个原则。验证集的存在是为了调整超参数，而已经确定完最佳超参数的模型如何去查看其的表现如何呢？那么这就是测试集的存在的意义。
特殊情况：如果此时我对于验证集的想法没有错误的话，那么如果你的模型不需要调整超参数，就可以在fit的过程中，直接拿测试集的数据作为validation_data（验证数据）。而不需要为此设置一个验证集。