6.2 Normalization

本章代码:

这篇文章主要介绍了 Batch Normalization 的概念,以及 PyTorch 中的 1d/2d/3d Batch Normalization 实现。

Batch Normalization

称为批标准化。批是指一批数据,通常为 mini-batch;标准化是处理后的数据服从$N(0,1)$的正态分布。

批标准化的优点有如下:

  • 可以使用更大的学习率,加速模型收敛

  • 可以不用精心设计权值初始化

  • 可以不用 dropout 或者较小的 dropout

  • 可以不用 L2 或者较小的 weight decay

  • 可以不用 LRN (local response normalization)

假设输入的 mini-batch 数据是$\mathcal{B}=\left{x_{1 \dots m}\right}$,Batch Normalization 的可学习参数是$\gamma, \beta$,步骤如下:

  • 求 mini-batch 的均值:$\mu_{\mathcal{B}} \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_{i}$

  • 求 mini-batch 的方差:$\sigma_{\mathcal{B}}^{2} \leftarrow \frac{1}{m} \sum_{i=1}\left(x_{i}-\mu_{\mathcal{B}}\right)^{2}$

  • 标准化:$\widehat{x}{i} \leftarrow \frac{x{i}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{B}^{2}+\epsilon}}$,其中$\epsilon$ 是放置分母为 0 的一个数

  • affine transform(缩放和平移):$y_{i} \leftarrow \gamma \widehat{x}{i}+\beta \equiv \mathrm{B} \mathrm{N}{\gamma, \beta}\left(x_{i}\right)$,这个操作可以增强模型的 capacity,也就是让模型自己判断是否要对数据进行标准化,进行多大程度的标准化。如果$\gamma= \sqrt{\sigma_{B}^{2}}$,$\beta=\mu_{\mathcal{B}}$,那么就实现了恒等映射。

Batch Normalization 的提出主要是为了解决 Internal Covariate Shift (ICS)。在训练过程中,数据需要经过多层的网络,如果数据在前向传播的过程中,尺度发生了变化,可能会导致梯度爆炸或者梯度消失,从而导致模型难以收敛。

Batch Normalization 层一般在激活函数前一层。

下面的代码打印一个网络的每个网络层的输出,在没有进行初始化时,数据尺度越来越小。

当使用nn.init.kaiming_normal_()初始化后,数据的标准差尺度稳定在 [0.6, 0.9]。

当我们不对网络层进行权值初始化,而是在每个激活函数层之前使用 bn 层,查看数据的标准差尺度稳定在 [0.58, 0.59]。因此 Batch Normalization 可以不用精心设计权值初始化。

下面以人民币二分类实验中的 LeNet 为例,添加 bn 层,对比不带 bn 层的网络和带 bn 层的网络的训练过程。

不带 bn 层的网络,并且使用 kaiming 初始化权值,训练过程如下:

可以看到训练过程中,训练集的 loss 在中间激增到 1.4,不够稳定。

带有 bn 层的 LeNet 定义如下:

带 bn 层的网络,并且不使用 kaiming 初始化权值,训练过程如下:

虽然训练过程中,训练集的 loss 也有激增,但只是增加到 0.4,非常稳定。

Batch Normalization in PyTorch

在 PyTorch 中,有 3 个 Batch Normalization 类

  • nn.BatchNorm1d(),输入数据的形状是 $B \times C \times 1D_feature$

  • nn.BatchNorm2d(),输入数据的形状是 $B \times C \times 2D_feature$

  • nn.BatchNorm3d(),输入数据的形状是 $B \times C \times 3D_feature$

nn.BatchNorm1d()为例,如下:

参数:

  • num_features:一个样本的特征数量,这个参数最重要

  • eps:在进行标准化操作时的分布修正项

  • momentum:指数加权平均估计当前的均值和方差

  • affine:是否需要 affine transform,默认为 True

  • track_running_stats:True 为训练状态,此时均值和方差会根据每个 mini-batch 改变。False 为测试状态,此时均值和方差会固定

主要属性:

  • runninng_mean:均值

  • running_var:方差

  • weight:affine transform 中的 $\gamma$

  • bias:affine transform 中的 $\beta$

在训练时,均值和方差采用指数加权平均计算,也就是不仅考虑当前 mini-batch 的值均值和方差还考虑前面的 mini-batch 的均值和方差。

在训练时,均值方差固定为当前统计值。

所有的 bn 层都是根据特征维度计算上面 4 个属性,详情看下面例子。

nn.BatchNorm1d()

输入数据的形状是 $B \times C \times 1D_feature$。在下面的例子中,数据的维度是:(3, 5, 1),表示一个 mini-batch 有 3 个样本,每个样本有 5 个特征,每个特征的维度是 1。那么就会计算 5 个均值和方差,分别对应每个特征维度。momentum 设置为 0.3,第一次的均值和方差默认为 0 和 1。输入两次 mini-batch 的数据。

数据如下图:

代码如下所示:

输出为:

虽然两个 mini-batch 的数据是一样的,但是 bn 层的均值和方差却不一样。以第二个特征的均值计算为例,值都是 2。

  • 第一次 bn 层的均值计算:$running_mean=(1-momentum) \times pre_running_mean + momentum \times mean_t =(1-0.3) \times 0 + 0.3 \times 2 =0.6$

  • 第二次 bn 层的均值计算:$running_mean=(1-momentum) \times pre_running_mean + momentum \times mean_t =(1-0.3) \times 0.6 + 0.3 \times 2 =1.02$

网络还没进行前向传播之前,断点查看 bn 层的属性如下:

nn.BatchNorm2d()

输入数据的形状是 $B \times C \times 2D_feature$。在下面的例子中,数据的维度是:(3, 3, 2, 2),表示一个 mini-batch 有 3 个样本,每个样本有 3 个特征,每个特征的维度是 $1 \times 2$。那么就会计算 3 个均值和方差,分别对应每个特征维度。momentum 设置为 0.3,第一次的均值和方差默认为 0 和 1。输入两次 mini-batch 的数据。

数据如下图:

代码如下:

输出如下:

nn.BatchNorm3d()

输入数据的形状是 $B \times C \times 3D_feature$。在下面的例子中,数据的维度是:(3, 2, 2, 2, 3),表示一个 mini-batch 有 3 个样本,每个样本有 2 个特征,每个特征的维度是 $2 \times 2 \times 3$。那么就会计算 2 个均值和方差,分别对应每个特征维度。momentum 设置为 0.3,第一次的均值和方差默认为 0 和 1。输入两次 mini-batch 的数据。

数据如下图:

代码如下:

输出如下:

Layer Normalization

提出的原因:Batch Normalization 不适用于变长的网络,如 RNN

思路:每个网络层计算均值和方差

注意事项:

  • 不再有 running_mean 和 running_var

  • $\gamma$ 和 $\beta$ 为逐样本的

参数:

  • normalized_shape:该层特征的形状,可以取$C \times H \times W$、$H \times W$、$W$

  • eps:标准化时的分母修正项

  • elementwise_affine:是否需要逐个样本 affine transform

下面代码中,输入数据的形状是 $B \times C \times feature$,(8, 2, 3, 4),表示一个 mini-batch 有 8 个样本,每个样本有 2 个特征,每个特征的维度是 $3 \times 4$。那么就会计算 8 个均值和方差,分别对应每个样本。

Layer Normalization 可以设置 normalized_shape 为 (3, 4) 或者 (4)。

Instance Normalization

提出的原因:Batch Normalization 不适用于图像生成。因为在一个 mini-batch 中的图像有不同的风格,不能把这个 batch 里的数据都看作是同一类取标准化。

思路:逐个 instance 的 channel 计算均值和方差。也就是每个 feature map 计算一个均值和方差。

包括 InstanceNorm1d、InstanceNorm2d、InstanceNorm3d。

InstanceNorm1d为例,定义如下:

参数:

  • num_features:一个样本的特征数,这个参数最重要

  • eps:分母修正项

  • momentum:指数加权平均估计当前的的均值和方差

  • affine:是否需要 affine transform

  • track_running_stats:True 为训练状态,此时均值和方差会根据每个 mini-batch 改变。False 为测试状态,此时均值和方差会固定

下面代码中,输入数据的形状是 $B \times C \times 2D_feature$,(3, 3, 2, 2),表示一个 mini-batch 有 3 个样本,每个样本有 3 个特征,每个特征的维度是 $2 \times 2 $。那么就会计算 $3 \times 3 $ 个均值和方差,分别对应每个样本的每个特征。如下图所示:

下面是代码:

输出如下:

Group Normalization

提出的原因:在小 batch 的样本中,Batch Normalization 估计的值不准。一般用在很大的模型中,这时 batch size 就很小。

思路:数据不够,通道来凑。 每个样本的特征分为几组,每组特征分别计算均值和方差。可以看作是 Layer Normalization 的基础上添加了特征分组。

注意事项:

  • 不再有 running_mean 和 running_var

  • $\gamma$ 和 $\beta$ 为逐通道的

定义如下:

参数:

  • num_groups:特征的分组数量

  • num_channels:特征数,通道数。注意 num_channels 要可以整除 num_groups

  • eps:分母修正项

  • affine:是否需要 affine transform

下面代码中,输入数据的形状是 $B \times C \times 2D_feature$,(2, 4, 3, 3),表示一个 mini-batch 有 2 个样本,每个样本有 4 个特征,每个特征的维度是 $3 \times 3 $。num_groups 设置为 2,那么就会计算 $2 \times (4 \div 2) $ 个均值和方差,分别对应每个样本的每个特征。

输出如下:

参考资料

如果你觉得这篇文章对你有帮助,不妨点个赞,让我有更多动力写出好文章。

我的文章会首发在公众号上,欢迎扫码关注我的公众号张贤同学

最后更新于

这有帮助吗?