如何确定神经网络的层数和隐藏层神经元数量？

创作时间:

作者:

@小白创作中心

如何确定神经网络的层数和隐藏层神经元数量？

引用

CSDN

https://m.blog.csdn.net/qq_42722197/article/details/138460634

BP神经网络主要由输入层、隐藏层、输出层构成，输入和输出层的节点数是固定的。不论是回归还是分类任务，选择合适的层数以及隐藏层节点数，在很大程度上都会影响神经网络的性能。

一、输入层和输出层的节点数量

输入层的神经元数量：等于待处理数据中输入变量的数量
输出层的神经元的数量：等于与每个输入关联的输出的数量

难点在于确定合适的隐藏层及其神经元的数量。

二、隐藏层的层数

如何确定隐藏层的层数是一个至关重要的问题。首先需要注意一点：

在神经网络中，当且仅当数据非线性分离时才需要隐藏层！

对于一般简单的数据集，一两层隐藏层通常就足够了。但对于涉及时间序列或计算机视觉的复杂数据集，则需要额外增加层数。单层神经网络只能用于表示线性分离函数，也就是非常简单的问题，比如分类问题中的两个类可以用一条直线整齐地分开。

隐藏层的层数与神经网络的效果/用途，可以用如下表格概括：

隐藏层数	能力
0	仅能够表示线性可分函数或决策
1	可以拟合任何“包含从一个有限空间到另一个有限空间的连续映射”的函数
2	搭配适当的激活函数可以表示任意精度的任意决策边界，并且可以拟合任何精度的任何平滑映射
>2	多出来的隐藏层可以学习复杂的描述（某种自动特征工程）

层数越深，理论上拟合函数的能力增强，效果按理说会更好，但是实际上更深的层数可能会带来过拟合的问题，同时也会增加训练难度，使模型难以收敛。

因此，在使用BP神经网络时，最好可以参照已有的表现优异的模型，如果实在没有，则根据上面的表格，从一两层开始尝试，尽量不要使用太多的层数。在CV、NLP等特殊领域，可以使用CNN、RNN、attention等特殊模型，不能不考虑实际而直接无脑堆砌多层神经网络。尝试迁移和微调已有的预训练模型，能取得事半功倍的效果。

三、隐藏层中的神经元数量

在隐藏层中使用太少的神经元将导致欠拟合(underfitting)。相反，使用过多的神经元同样会导致一些问题。首先，隐藏层中的神经元过多可能会导致过拟合(overfitting)。当神经网络具有过多的节点（过多的信息处理能力）时，训练集中包含的有限信息量不足以训练隐藏层中的所有神经元，因此就会导致过拟合。即使训练数据包含的信息量足够，隐藏层中过多的神经元会增加训练时间，从而难以达到预期的效果。

通常，对所有隐藏层使用相同数量的神经元就足够了。对于某些数据集，拥有较大的第一层并在其后跟随较小的层将导致更好的性能，因为第一层可以学习很多低阶的特征，这些较低层的特征可以馈入后续层中，提取出较高阶特征。

需要注意的是，与在每一层中添加更多的神经元相比，添加层层数将获得更大的性能提升。因此，不要在一个隐藏层中加入过多的神经元。

对于如何确定神经元数量，有很多经验之谈。stackoverflow上有大神给出了经验公式以供参考：