0. 前言
介绍现代的卷积神经网络架构,本章中的每一个模型都曾一度占据主导地位,其中许多模型都是ImageNet竞赛的优胜者。ImageNet竞赛自2010年以来,一直是计算机视觉中监督学习进展的指向标。
这些模型包括:
AlexNet,第一个在大规模视觉竞赛中击败传统计算机视觉模型的大型神经网络;
使用重复块的网络(VGG),它利用许多重复的神经网络块;
网络中的网络(NiN),它重复使用由卷积层和$1 \times 1$卷积层(用来代替全连接层)来构建深层网络;
含并行连结的网络(GoogLeNet),它使用并行连结的网络,通过不同窗口大小的卷积层和最大池化层来并行抽取信息;
残差网络(ResNet),它通过残差块构建跨层的数据通道,是计算机视觉中最流行的体系架构;
稠密连接网络(DenseNet),它的计算成本很高,但带来了更好的效果。
虽然深度神经网络的概念非常简单——将神经网络堆叠在一起。但由于不同的网络架构和超参数选择,这些神经网络的性能会发生很大变化。 本章介绍的神经网络是将人类直觉和相关数学见解结合后,经过大量研究试错后的结晶。 按时间顺序介绍这些模型是很好的,能够加深对模型是如何被创造出来的理解。 例如,批量规范化(batch normalization)和残差网络(ResNet)为设计和训练深度神经网络提供了重要思想指导。
顺便一提,本章的训练用M1芯片算起来费劲😄。
对应实践:https://github.com/silenceZheng66/deep_learning/blob/master/d2l/0x08.ipynb
0.1. 结论
- AlexNet的架构与LeNet相似,但使用了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。
- 今天,AlexNet已经被更有效的架构所超越,但它是从浅层网络到深层网络的关键一步。
- 尽管AlexNet的代码只比LeNet多出几行,但学术界花了很多年才接受深度学习这一概念,并应用其出色的实验结果。这也是由于缺乏有效的计算工具
- Dropout、ReLU和预处理是提升计算机视觉任务性能的其他关键步骤。
- VGG-11使用可复用的卷积块构造网络。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。
- 块的使用导致网络定义的非常简洁。使用块可以有效地设计复杂的网络。
- 在VGG论文中,Simonyan和Ziserman尝试了各种架构。特别是他们发现深层且窄的卷积(即$3\times3$)比较浅层且宽的卷积更有效。
- NiN使用由一个$1 \times 1$卷积层和多个卷积层组成的块。该块可以在卷积神经网络中使用,以允许更多的每像素非线性。
- NiN去除了容易造成过拟合的全连接层,将它们替换为全局平均池化层(即在所有位置上进行求和)。该池化层通道数量为所需的输出数量(例如,Fashion-MNIST的输出为10)。
- 移除全连接层可减少过拟合,同时显著减少NiN的参数。
- NiN的设计影响了许多后续卷积神经网络的设计。
- Inception块相当于一个有4条路径的子网络。它通过不同窗口形状的卷积层和最大池化层来并行抽取信息,并使用$1 \times 1$卷积层减少每像素级别上的通道维数从而降低模型复杂度。
- GoogLeNet将多个设计精细的Inception块与其他层(卷积层、全连接层)串联起来。其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的。
- GoogLeNet和它的后继者们一度是ImageNet上最有效的模型之一:它以较低的计算复杂度提供了类似的测试精度。
- 在模型训练过程中,批量规范化利用小批量的均值和标准差,不断调整神经网络的中间输出,使整个神经网络各层的中间输出值更加稳定。
- 批量规范化在全连接层和卷积层的使用略有不同。
- 批量规范化层和暂退层一样,在训练模式和预测模式下计算不同。
- 批量规范化有许多有益的副作用,主要是正则化。另一方面,”减少内部协变量偏移“的原始动机似乎不是一个有效的解释。
- 学习嵌套函数(nested function)是训练神经网络的理想情况。在深层神经网络中,学习另一层作为恒等映射(identity function)较容易(尽管这是一个极端情况)。
- 残差映射可以更容易地学习同一函数,例如将权重层中的参数近似为零。
- 利用残差块(residual blocks)可以训练出一个有效的深层神经网络:输入可以通过层间的残余连接更快地向前传播。
- 残差网络(ResNet)对随后的深层神经网络设计产生了深远影响。
- 在跨层连接上,不同于ResNet中将输入与输出相加,稠密连接网络(DenseNet)在通道维上连结输入与输出。
- DenseNet的主要构建模块是稠密块和过渡层。
- 在构建DenseNet时,需要通过添加过渡层来控制网络的维数,从而再次减少通道的数量。
1. 深度卷积神经网络(AlexNet)
事实上,在上世纪90年代初到2012年之间的大部分时间里,神经网络往往被其他机器学习方法超越,如支持向量机(support vector machines)。
在计算机视觉中,直接将神经网络与其他机器学习方法进行比较也许不公平。这是因为,卷积神经网络的输入是由原始像素值或是经过简单预处理(例如居中、缩放)的像素值组成的。但在使用传统机器学习方法时,从业者永远不会将原始像素作为输入。在传统机器学习方法中,计算机视觉流水线是由经过人的手工精心设计的特征流水线组成的。对于这些传统方法,大部分的进展都来自于对特征有了更聪明的想法,并且学习到的算法往往归于事后的解释。
虽然上世纪90年代就有了一些神经网络加速卡,但仅靠它们还不足以开发出有大量参数的深层多通道多层卷积神经网络。此外,当时的数据集仍然相对较小。除了这些障碍,训练神经网络的一些关键技巧仍然缺失,包括启发式参数初始化、随机梯度下降的变体、非挤压激活函数和有效的正则化技术。
因此,与训练端到端(从像素到分类结果)系统不同,经典机器学习的流水线看起来更像下面这样:
- 获取一个有趣的数据集。
- 根据光学、几何学、其他知识以及偶然的发现,手工对特征数据集进行预处理。
- 通过标准的特征提取算法,如SIFT(尺度不变特征变换)和SURF(加速鲁棒特征)或其他手动调整的流水线来输入数据。
- 将提取的特征送入最喜欢的分类器中(例如线性模型或其它核方法),以训练分类器。
机器学习研究人员相信机器学习既重要又美丽:优雅的理论去证明各种模型的性质。机器学习是一个正在蓬勃发展、严谨且非常有用的领域。然而计算机视觉研究人员会告诉你图像识别的诡异事实: 推动领域进步的是数据特征,而不是学习算法。计算机视觉研究人员相信,从对最终模型精度的影响来说,更大或更干净的数据集、或是稍微改进的特征提取,比任何学习算法带来的进步要大得多。
1.1. 学习表征
在2012年前,图像特征都是机械地计算出来的。事实上,设计一套新的特征函数、改进结果,并撰写论文是盛极一时的潮流。SIFT、SURF、HOG(定向梯度直方图)、bags of visual words和类似的特征提取方法占据了主导地位。
深度学习从业人员想法则与众不同:他们认为特征本身应该被学习。此外,他们还认为,在合理地复杂性前提下,特征应该由多个共同学习的神经网络层组成,每个层都有可学习的参数。在机器视觉中,最底层可能检测边缘、颜色和纹理。事实上,Alex Krizhevsky、Ilya Sutskever和Geoff Hinton提出了一种新的卷积神经网络变体AlexNet。在2012年ImageNet挑战赛中取得了轰动一时的成绩。AlexNet以Alex Krizhevsky的名字命名,他是AlexNet论文的第一作者。
有趣的是,在网络的最底层,模型学习到了一些类似于传统滤波器的特征抽取器。 下图是从AlexNet论文复制的,描述了底层图像特征。
AlexNet的更高层建立在这些底层表示的基础上,以表示更大的特征,如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体,如人、飞机、狗或飞盘。最终的隐藏神经元可以学习图像的综合表示,从而使属于不同类别的数据易于区分。尽管一直有一群执着的研究者不断钻研,试图学习视觉数据的逐级表征,然而很长一段时间里这些尝试都未有突破。深度卷积神经网络的突破出现在2012年。突破可归因于两个关键因素:数据 和 硬件
1.1.1. 数据
包含许多特征的深度模型需要大量的有标签数据,才能显著优于基于凸优化的传统方法(如线性方法和核方法)。
然而,限于早期计算机有限的存储和90年代有限的研究预算,大部分研究只基于小的公开数据集。例如,不少研究论文基于加州大学欧文分校(UCI)提供的若干个公开数据集,其中许多数据集只有几百至几千张在非自然环境下以低分辨率拍摄的图像。这一状况在2010年前后兴起的大数据浪潮中得到改善。
2009年,ImageNet数据集发布,并发起ImageNet挑战赛:要求研究人员从100万个样本中训练模型,以区分1000个不同类别的对象。ImageNet数据集由斯坦福教授李飞飞小组的研究人员开发,利用谷歌图像搜索(Google Image Search)对每一类图像进行预筛选,并利用亚马逊众包(Amazon Mechanical Turk)来标注每张图片的相关类别。这种规模是前所未有的。这项被称为ImageNet的挑战赛推动了计算机视觉和机器学习研究的发展,挑战研究人员确定哪些模型能够在更大的数据规模下表现最好。
1.1.2. 硬件
深度学习对计算资源要求很高,训练可能需要数百个迭代轮数,每次迭代都需要通过代价高昂的许多线性代数层传递数据。这也是为什么在20世纪90年代至21世纪初,优化凸目标的简单算法是研究人员的首选。然而,用GPU训练神经网络改变了这一格局。图形处理器(Graphics Processing Unit,GPU)早年用来加速图形处理,使电脑游戏玩家受益。GPU可优化高吞吐量的$4 \times 4$矩阵和向量乘法,从而服务于基本的图形任务。这些数学运算与卷积层的计算惊人地相似!由此,英伟达(NVIDIA)和ATI已经开始为通用计算操作优化gpu,甚至把它们作为通用GPU(general-purpose GPUs,GPGPU)来销售。
在解释GPU比CPU“强”之前,先来深度理解一下中央处理器(Central Processing Unit,CPU)的核心。
CPU的每个核心都拥有高时钟频率的运行能力,和高达数MB的三级缓存(L3Cache)。它们非常适合执行各种指令,具有分支预测器、深层流水线和其他使CPU能够运行各种程序的功能。
然而,这种明显的优势也是它的致命弱点:通用核心的制造成本非常高。
它们需要大量的芯片面积、复杂的支持结构(内存接口、内核之间的缓存逻辑、高速互连等等),而且它们在任何单个任务上的性能都相对较差。
相比于CPU,GPU由$100 \sim 1000$个小的处理单元组成(NVIDIA、ATI、ARM和其他芯片供应商之间的细节稍有不同),通常被分成更大的组(NVIDIA称之为warps)。
虽然每个GPU核心都相对较弱,有时甚至以低于1GHz的时钟频率运行,但庞大的核心数量使GPU比CPU快几个数量级。
例如,NVIDIA最近一代的Ampere GPU架构为每个芯片提供了高达312 TFlops的浮点性能,而CPU的浮点性能到目前为止还没有超过1 TFlops。
之所以有如此大的差距,原因其实很简单:首先,功耗往往会随时钟频率呈二次方增长。对于一个CPU核心,假设它的运行速度比GPU快4倍,你可以使用16个GPU内核取代,那么GPU的综合性能就是CPU的$16 \times 1/4 = 4$倍。其次,GPU内核要简单得多,这使得它们更节能。同时深度学习中的许多操作需要相对较高的内存带宽,而GPU拥有10倍于CPU的带宽。
回到2012年的重大突破,当Alex Krizhevsky和Ilya Sutskever实现了可以在GPU硬件上运行的深度卷积神经网络时,一个重大突破出现了。他们意识到卷积神经网络中的计算瓶颈:卷积和矩阵乘法,都是可以在硬件上并行化的操作。于是,他们使用两个显存为3GB的NVIDIA GTX580 GPU实现了快速卷积运算。他们的创新cuda-convnet几年来它一直是行业标准,并推动了深度学习热潮。
1.2. AlexNet
2012年,AlexNet横空出世。它首次证明了学习到的特征可以超越手工设计的特征,一举打破了计算机视觉研究的现状。
AlexNet使用了8层卷积神经网络,并以很大的优势赢得了2012年ImageNet图像识别挑战赛。
AlexNet和LeNet的架构非常相似,如下图所示。
注意,这里我们提供了一个稍微精简版本的AlexNet,去除了当年需要两个小型GPU同时运算的设计特点。
AlexNet和LeNet的设计理念非常相似,但也存在显著差异。
首先,AlexNet比相对较小的LeNet5要深得多。AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。
其次,AlexNet使用ReLU而不是sigmoid作为其激活函数。
下面深入研究AlexNet的细节。
1.2.1. 模型设计
在AlexNet的第一层,卷积窗口的形状是$11\times11$。由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上,因此,需要一个更大的卷积窗口来捕获目标。
第二层中的卷积窗口形状被缩减为$5\times5$,然后是$3\times3$。
此外,在第一层、第二层和第五层卷积层之后,加入窗口形状为$3\times3$、步幅为2的最大池化层。而且,AlexNet的卷积通道数目是LeNet的10倍。
在最后一个卷积层后有两个全连接层,分别有4096个输出。这两个巨大的全连接层拥有将近1GB的模型参数。由于早期GPU显存有限,原版的AlexNet采用了双数据流设计,使得每个GPU只负责存储和计算模型的一半参数。
现在GPU显存相对充裕,所以现在很少需要跨GPU分解模型(因此这里的AlexNet模型在这方面与原始论文稍有不同)。
1.2.2. 激活函数
此外,AlexNet将sigmoid激活函数改为更简单的ReLU激活函数。一方面,ReLU激活函数的计算更简单,它不需要如sigmoid激活函数那般复杂的求幂运算。另一方面,当使用不同的参数初始化方法时,ReLU激活函数使训练模型更加容易。
当sigmoid激活函数的输出非常接近于0或1时,这些区域的梯度几乎为0,因此反向传播无法继续更新一些模型参数。相反,ReLU激活函数在正区间的梯度总是1。
也就是说,如果模型参数没有正确初始化,sigmoid函数可能在正区间内得到几乎为0的梯度,从而使模型无法得到有效的训练。
1.2.3. 容量控制和预处理
AlexNet通过暂退法控制全连接层的模型复杂度,而LeNet只使用了权重衰减。 为了进一步扩充数据,AlexNet在训练时增加了大量的图像增强数据,如翻转、裁切和变色。 这使得模型更健壮,更大的样本量有效地减少了过拟合。有关数据扩增的内容会在计算机视觉章节中讲到。
下面来构造一下AlexNet:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27import torch
from torch import nn
net = nn.Sequential(
# 使用一个11*11的更大卷积窗口来捕捉对象。
# 同时,步幅为4,以减少输出的高度和宽度。
# 输出通道的数目(96)远大于LeNet
nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
# 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道数
nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
# 使用三个连续的卷积层和较小的卷积窗口。
# 除了最后的卷积层,输出通道的数量进一步增加。
# 在前两个卷积层之后,池化层不用于减少输入的高度和宽度
nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Flatten(),
# 这里,全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合
nn.Linear(6400, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
nn.Linear(4096, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
# 最后是输出层。由于这里使用Fashion-MNIST,所以用类别数为10,而非论文中的1000
nn.Linear(4096, 10))
构造一个高度和宽度都为224的单通道数据,来观察每一层输出的形状。 它与前面图的AlexNet架构相匹配。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27X = torch.randn(1, 1, 224, 224)
for layer in net:
X=layer(X)
print(layer.__class__.__name__,'output shape:\t',X.shape)
输出:
Conv2d output shape: torch.Size([1, 96, 54, 54])
ReLU output shape: torch.Size([1, 96, 54, 54])
MaxPool2d output shape: torch.Size([1, 96, 26, 26])
Conv2d output shape: torch.Size([1, 256, 26, 26])
ReLU output shape: torch.Size([1, 256, 26, 26])
MaxPool2d output shape: torch.Size([1, 256, 12, 12])
Conv2d output shape: torch.Size([1, 384, 12, 12])
ReLU output shape: torch.Size([1, 384, 12, 12])
Conv2d output shape: torch.Size([1, 384, 12, 12])
ReLU output shape: torch.Size([1, 384, 12, 12])
Conv2d output shape: torch.Size([1, 256, 12, 12])
ReLU output shape: torch.Size([1, 256, 12, 12])
MaxPool2d output shape: torch.Size([1, 256, 5, 5])
Flatten output shape: torch.Size([1, 6400])
Linear output shape: torch.Size([1, 4096])
ReLU output shape: torch.Size([1, 4096])
Dropout output shape: torch.Size([1, 4096])
Linear output shape: torch.Size([1, 4096])
ReLU output shape: torch.Size([1, 4096])
Dropout output shape: torch.Size([1, 4096])
Linear output shape: torch.Size([1, 10])
1.3. 读取数据集
在这里使用的是Fashion-MNIST数据集。因为即使在现代GPU上,训练ImageNet模型,同时使其收敛可能需要数小时或数天的时间。
将AlexNet直接应用于Fashion-MNIST的一个问题是,Fashion-MNIST图像的分辨率($28 \times 28$像素)低于ImageNet图像。为了解决这个问题,这里将它们增加到$224 \times 224$(通常来讲这不是一个明智的做法,只是为了匹配AlexNet)。使用d2l.load_data_fashion_mnist
函数中的resize
参数执行此调整。1
2
3batch_size = 128
# d2l包中的函数,省略其实现,后续训练过程同上
train_iter, test_iter = load_data_fashion_mnist(batch_size, resize=224)
1.4. 训练AlexNet
与LeNet相比,这里的主要变化是使用更小的学习速率训练,这是因为网络更深更广、图像分辨率更高,训练卷积神经网络就更昂贵。1
2
3
4lr, num_epochs = 0.01, 10
# d2l包中的函数,省略其实现,后续训练过程同上
# 修改设备为mps,适配M1芯片设备
train_ch6(net, train_iter, test_iter, num_epochs, lr, torch.device('mps'))
2. 使用块的网络(VGG)
虽然AlexNet证明深层神经网络卓有成效,但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。 下面将介绍一些常用于设计深层神经网络的启发式概念。
与芯片设计中工程师从放置晶体管到逻辑元件再到逻辑块的过程类似,神经网络架构的设计也逐渐变得更加抽象。研究人员开始从单个神经元的角度思考问题,发展到整个层,现在又转向块,重复层的模式。
使用块的想法首先出现在牛津大学的视觉几何组(visualgeometry group)的VGG网络中。通过使用循环和子程序,可以很容易地在任何现代深度学习框架的代码中实现这些重复的架构。
2.1. VGG块
经典卷积神经网络的基本组成部分是下面的这个序列:
- 带填充以保持分辨率的卷积层;
- 非线性激活函数,如ReLU;
- 池化层,如最大池化层。
而一个VGG块与之类似,由一系列卷积层组成,后面再加上用于空间下采样(缩小图像)的最大池化层。在最初的VGG论文中,作者使用了带有$3 \times 3$卷积核、填充为1(保持高度和宽度)的卷积层,和带有$2 \times 2$池化窗口、步幅为2(每个块后的分辨率减半)的最大池化层。在下面的代码中定义了一个名为vgg_block
的函数来实现一个VGG块。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15import torch
from torch import nn
# 该函数有三个参数,分别对应于卷积层的数量num_convs、
# 输入通道的数量in_channels 和输出通道的数量out_channels.
def vgg_block(num_convs, in_channels, out_channels):
layers = []
# for _ in range(n) 一般仅仅用于循环n次,不用设置变量,用 _ 指代临时变量,只在这个语句中使用一次。
for _ in range(num_convs):
layers.append(nn.Conv2d(in_channels, out_channels,
kernel_size=3, padding=1))
layers.append(nn.ReLU())
in_channels = out_channels
layers.append(nn.MaxPool2d(kernel_size=2,stride=2))
return nn.Sequential(*layers)
2.2. VGG网络
与AlexNet、LeNet一样,VGG网络可以分为两部分:第一部分主要由卷积层和池化层组成,第二部分由全连接层组成。
VGG神经网络连接上图中的几个VGG块。其中有超参数变量conv_arch
。该变量指定了每个VGG块里卷积层个数和输出通道数。全连接模块则与AlexNet中的相同。
原始VGG网络有5个卷积块,其中前两个块各有一个卷积层,后三个块各包含两个卷积层。第一个模块有64个输出通道,每个后续模块将输出通道数量翻倍,直到该数字达到512。由于该网络使用8个卷积层和3个全连接层,因此它通常被称为VGG-11。1
conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))
下面的代码实现了VGG-11。可以通过在conv_arch上执行for循环来简单实现。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17def vgg(conv_arch):
conv_blks = []
in_channels = 1
# 卷积层部分
for (num_convs, out_channels) in conv_arch:
conv_blks.append(vgg_block(num_convs, in_channels, out_channels))
in_channels = out_channels
return nn.Sequential(
# 星号变量
*conv_blks, nn.Flatten(),
# 全连接层部分
nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),
nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),
nn.Linear(4096, 10))
net = vgg(conv_arch)
构建一个高度和宽度为224的单通道数据样本,以观察每个层输出的形状。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19X = torch.randn(size=(1, 1, 224, 224))
for blk in net:
X = blk(X)
print(blk.__class__.__name__,'output shape:\t',X.shape)
输出:
Sequential output shape: torch.Size([1, 64, 112, 112])
Sequential output shape: torch.Size([1, 128, 56, 56])
Sequential output shape: torch.Size([1, 256, 28, 28])
Sequential output shape: torch.Size([1, 512, 14, 14])
Sequential output shape: torch.Size([1, 512, 7, 7])
Flatten output shape: torch.Size([1, 25088])
Linear output shape: torch.Size([1, 4096])
ReLU output shape: torch.Size([1, 4096])
Dropout output shape: torch.Size([1, 4096])
Linear output shape: torch.Size([1, 4096])
ReLU output shape: torch.Size([1, 4096])
Dropout output shape: torch.Size([1, 4096])
Linear output shape: torch.Size([1, 10])
在每个块的高度和宽度减半,最终高度和宽度都为7。最后再展平表示,送入全连接层处理。
2.3. 训练模型
VGG-11比AlexNet计算量更大,因此构建了一个通道数较少的网络,足够用于训练Fashion-MNIST数据集。1
2
3ratio = 4
small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch]
net = vgg(small_conv_arch)
除了使用略高的学习率外,模型训练过程与之前的AlexNet类似。1
2
3lr, num_epochs, batch_size = 0.05, 10, 128
train_iter, test_iter = load_data_fashion_mnist(batch_size, resize=224)
train_ch6(net, train_iter, test_iter, num_epochs, lr, torch.device('mps'))
3. 网络中的网络(NiN)
LeNet、AlexNet和VGG都有一个共同的设计模式:通过一系列的卷积层与池化层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。 然而如果在网络的早期使用全连接层,则可能会完全放弃表征的空间结构。 网络中的网络(NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机。
3.1. NiN块
卷积层的输入和输出由四维张量组成,张量的每个轴分别对应样本、通道、高度和宽度。另外,全连接层的输入和输出通常是分别对应于样本和特征的二维张量。
NiN的想法是在每个像素位置(针对每个高度和宽度)应用一个全连接层。如果将权重连接到每个空间位置,则可以将其视为$1 \times 1$卷积层,或作为在每个像素位置上独立作用的全连接层。从另一个角度看,即将空间维度中的每个像素视为单个样本,将通道维度视为不同特征。
NiN块以一个普通卷积层开始,后面是两个$1 \times 1$的卷积层。这两个$1 \times 1$卷积层充当带有ReLU激活函数的逐像素全连接层。第一层的卷积窗口形状通常由用户设置。随后的卷积窗口形状固定为$1 \times 1$。
NiN块函数:1
2
3
4
5
6
7
8
9
10import torch
from torch import nn
def nin_block(in_channels, out_channels, kernel_size, strides, padding):
return nn.Sequential(
nn.Conv2d(in_channels, out_channels, kernel_size, strides, padding),
nn.ReLU(),
nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU(),
nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU())
3.2. NiN模型
最初的NiN网络从AlexNet中得到了一些启示。NiN使用窗口形状为$11\times11$、$5\times5$和$3\times3$的卷积层,输出通道数量与AlexNet中的相同。每个NiN块后有一个最大池化层,池化窗口形状为$3\times3$,步幅为2。
NiN和AlexNet之间的一个显著区别是NiN完全取消了全连接层。相反,NiN使用一个NiN块,其输出通道数等于标签类别的数量。最后放一个全局平均池化层(global average pooling layer),生成一个对数几率 (logits)。NiN设计的一个优点是,它显著减少了模型所需参数的数量。然而在实践中,这种设计有时会增加训练模型的时间。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15net = nn.Sequential(
nin_block(1, 96, kernel_size=11, strides=4, padding=0),
# 最大池化,第一个参数是池化窗口的大小
nn.MaxPool2d(3, stride=2),
nin_block(96, 256, kernel_size=5, strides=1, padding=2),
nn.MaxPool2d(3, stride=2),
nin_block(256, 384, kernel_size=3, strides=1, padding=1),
nn.MaxPool2d(3, stride=2),
nn.Dropout(0.5),
# 标签类别数是10
nin_block(384, 10, kernel_size=3, strides=1, padding=1),
# 自适应平均池化,参数为输出的形状
nn.AdaptiveAvgPool2d((1, 1)),
# 将四维的输出转成二维的输出,其形状为(批量大小,10)
nn.Flatten())
创建一个数据样本来查看每个块的输出形状:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16X = torch.rand(size=(1, 1, 224, 224))
for layer in net:
X = layer(X)
print(layer.__class__.__name__,'output shape:\t', X.shape)
输出:
Sequential output shape: torch.Size([1, 96, 54, 54])
MaxPool2d output shape: torch.Size([1, 96, 26, 26])
Sequential output shape: torch.Size([1, 256, 26, 26])
MaxPool2d output shape: torch.Size([1, 256, 12, 12])
Sequential output shape: torch.Size([1, 384, 12, 12])
MaxPool2d output shape: torch.Size([1, 384, 5, 5])
Dropout output shape: torch.Size([1, 384, 5, 5])
Sequential output shape: torch.Size([1, 10, 5, 5])
AdaptiveAvgPool2d output shape: torch.Size([1, 10, 1, 1])
Flatten output shape: torch.Size([1, 10])
3.3. 训练模型
使用Fashion-MNIST来训练模型。训练NiN与训练AlexNet、VGG时相似。1
2
3lr, num_epochs, batch_size = 0.1, 10, 128
train_iter, test_iter = load_data_fashion_mnist(batch_size, resize=224)
train_ch6(net, train_iter, test_iter, num_epochs, lr, torch.device('mps'))
4. 含并行连结的网络(GoogLeNet)
在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet的网络架构大放异彩。GoogLeNet吸收了NiN中串联网络的思想,并在此基础上做了改进。这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。
毕竟,以前流行的网络使用小到$1\times1$,大到$11\times11$的卷积核。该文的一个观点是,有时使用不同大小的卷积核组合是有利的。本节将介绍一个稍微简化的GoogLeNet版本:省略了一些为稳定训练而添加的特殊特性,现在有了更好的训练方法,这些特性不是必要的。
4.1. Inception块
在GoogLeNet中,基本的卷积块被称为Inception块(Inception block)。这很可能得名于电影《盗梦空间》(Inception),因为电影中的一句话“我们需要走得更深”(“We need to go deeper”)。
如上图所示,Inception块由四条并行路径组成。前三条路径使用窗口大小为$1\times1$、$3\times3$和$5\times5$的卷积层,从不同空间大小中提取信息。中间的两条路径在输入上执行$1\times1$卷积,以减少通道数,从而降低模型的复杂性。第四条路径使用$3\times3$最大池化层,然后使用$1\times1$卷积层来改变通道数。
这四条路径都使用合适的填充来使输入与输出的高和宽一致,最后会将每条线路的输出在通道维度上连结,并构成Inception块的输出。在Inception块中,通常调整的超参数是每层输出通道数。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29import torch
from torch import nn
from torch.nn import functional as F
class Inception(nn.Module):
# c1--c4是每条路径的输出通道数
def __init__(self, in_channels, c1, c2, c3, c4, **kwargs):
super(Inception, self).__init__(**kwargs)
# 线路1,单1x1卷积层
self.p1_1 = nn.Conv2d(in_channels, c1, kernel_size=1)
# 线路2,1x1卷积层后接3x3卷积层
self.p2_1 = nn.Conv2d(in_channels, c2[0], kernel_size=1)
self.p2_2 = nn.Conv2d(c2[0], c2[1], kernel_size=3, padding=1)
# 线路3,1x1卷积层后接5x5卷积层
self.p3_1 = nn.Conv2d(in_channels, c3[0], kernel_size=1)
self.p3_2 = nn.Conv2d(c3[0], c3[1], kernel_size=5, padding=2)
# 线路4,3x3最大池化层后接1x1卷积层
self.p4_1 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)
self.p4_2 = nn.Conv2d(in_channels, c4, kernel_size=1)
def forward(self, x):
p1 = F.relu(self.p1_1(x))
# 为什么中间两条加激活函数呢?
p2 = F.relu(self.p2_2(F.relu(self.p2_1(x))))
p3 = F.relu(self.p3_2(F.relu(self.p3_1(x))))
p4 = F.relu(self.p4_2(self.p4_1(x)))
# 在通道维度上连结输出
return torch.cat((p1, p2, p3, p4), dim=1)
为什么GoogLeNet如此有效呢?首要原因是滤波器(也就是不同大小的卷积核,或者说卷积层)的组合,它们可以用各种滤波器尺寸探索图像,这意味着不同大小的滤波器可以有效地识别不同范围的图像细节。同时,我们可以为不同的滤波器分配不同数量的参数。
4.2. GoogLeNet模型
如下图所示,GoogLeNet一共使用9个Inception块和全局平均池化层的堆叠来生成其估计值。Inception块之间的最大池化层可降低维度。第一个模块类似于AlexNet和LeNet,Inception块的组合从VGG继承,全局平均池化层避免了在最后使用全连接层。
下面逐一实现GoogLeNet的每个模块。第一个模块使用64个通道、$7\times7$卷积层。1
2
3b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))
第二个模块使用两个卷积层:第一个卷积层是64个通道、$1\times1$卷积层;第二个卷积层使用将通道数量增加三倍的$3\times3$卷积层。这对应于Inception块中的第二条路径。1
2
3
4
5b2 = nn.Sequential(nn.Conv2d(64, 64, kernel_size=1),
nn.ReLU(),
nn.Conv2d(64, 192, kernel_size=3, padding=1),
nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))
第三个模块串联两个完整的Inception块。
第一个Inception块的输出通道数为$64+128+32+32=256$,四个路径之间的输出通道数量比为$64:128:32:32=2:4:1:1$。第二个和第三个路径首先将输入通道的数量分别减少到$96/192=1/2$和$16/192=1/12$,然后连接第二个卷积层。第二个Inception块的输出通道数增加到$128+192+96+64=480$,四个路径之间的输出通道数量比为$128:192:96:64 = 4:6:3:2$。第二条和第三条路径首先将输入通道的数量分别减少到$128/256=1/2$和$32/256=1/8$。1
2
3b3 = nn.Sequential(Inception(192, 64, (96, 128), (16, 32), 32),
Inception(256, 128, (128, 192), (32, 96), 64),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))
第四模块更加复杂,它串联了5个Inception块,其输出通道数分别是$192+208+48+64=512$、$160+224+64+64=512$、$128+256+64+64=512$、$112+288+64+64=528$和$256+320+128+128=832$。这些路径的通道数分配和第三模块中的类似,首先是含$3×3$卷积层的第二条路径输出最多通道,其次是仅含$1×1$卷积层的第一条路径,之后是含$5×5$卷积层的第三条路径和含$3×3$最大汇聚层的第四条路径。其中第二、第三条路径都会先按比例减小通道数。这些比例在各个Inception块中都略有不同。1
2
3
4
5
6b4 = nn.Sequential(Inception(480, 192, (96, 208), (16, 48), 64),
Inception(512, 160, (112, 224), (24, 64), 64),
Inception(512, 128, (128, 256), (24, 64), 64),
Inception(512, 112, (144, 288), (32, 64), 64),
Inception(528, 256, (160, 320), (32, 128), 128),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))
第五模块包含输出通道数为$256+320+128+128=832$和$384+384+128+128=1024$的两个Inception块。其中每条路径通道数的分配思路和第三、第四模块中的一致,只是在具体数值上有所不同。需要注意的是,第五模块的后面紧跟输出层,该模块同NiN一样使用全局平均池化层,将每个通道的高和宽变成1。最后将输出变成二维数组,再接上一个输出个数为标签类别数的全连接层。1
2
3
4
5
6b5 = nn.Sequential(Inception(832, 256, (160, 320), (32, 128), 128),
Inception(832, 384, (192, 384), (48, 128), 128),
nn.AdaptiveAvgPool2d((1,1)),
nn.Flatten())
net = nn.Sequential(b1, b2, b3, b4, b5, nn.Linear(1024, 10))
GoogLeNet模型的计算复杂,而且不如VGG那样便于修改通道数。 为了使Fashion-MNIST上的训练短小精悍,这里将输入的高和宽从224降到96,简化了计算。下面演示各个模块输出的形状变化。1
2
3
4
5
6
7
8
9
10
11
12X = torch.rand(size=(1, 1, 96, 96))
for layer in net:
X = layer(X)
print(layer.__class__.__name__,'output shape:\t', X.shape)
输出:
Sequential output shape: torch.Size([1, 64, 24, 24])
Sequential output shape: torch.Size([1, 192, 12, 12])
Sequential output shape: torch.Size([1, 480, 6, 6])
Sequential output shape: torch.Size([1, 832, 3, 3])
Sequential output shape: torch.Size([1, 1024])
Linear output shape: torch.Size([1, 10])
4.3. 训练模型
使用Fashion-MNIST数据集来训练我们的模型。在训练之前将图片转换为$96×96$分辨率。1
2
3lr, num_epochs, batch_size = 0.1, 10, 128
train_iter, test_iter = load_data_fashion_mnist(batch_size, resize=96)
train_ch6(net, train_iter, test_iter, num_epochs, lr, torch.device('mps'))
5. 批量规范化(batch normalization)
训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手。本节中将介绍批量规范化(batch normalization),这是一种流行且有效的技术,可持续加速深层网络的收敛速度。再结合下节将介绍的残差块,批量规范化使得研究人员能够训练100层以上的网络。
5.1. 训练深层网络
对于批量规范化层的需求源于人们在训练神经网络时遇到的一些实际挑战。
首先,数据预处理的方式通常会对最终结果产生巨大影响。以应用多层感知机来预测房价为例,使用真实数据时,第一步是标准化输入特征,使其平均值为0,方差为1。直观地说,这种标准化可以很好地与优化器配合使用,因为它可以将参数的量级进行统一。
第二,对于典型的多层感知机或卷积神经网络。当训练时,中间层中的变量(例如,多层感知机中的仿射变换输出)可能具有更广的变化范围:不论是沿着从输入到输出的层,跨同一层中的单元,或是随着时间的推移,模型参数的随着训练更新变幻莫测。
批量规范化的发明者非正式地假设,这些变量分布中的这种偏移可能会阻碍网络的收敛。也就是我们猜想,如果一个层的可变值是另一层的100倍,则可能需要对学习率进行补偿调整。
第三,更深层的网络很复杂,容易过拟合。这意味着正则化变得更加重要。批量规范化应用于单个可选层(也可以应用到所有层),其原理如下:在每次训练迭代中,我们首先规范化输入,即通过减去其均值并除以其标准差,这两步操作均基于当前小批量处理。然后应用比例系数和比例偏移。正是由于这个基于批量统计的标准化,才有了批量规范化的名称。
注意如果尝试使用大小为1的小批量应用批量规范化,将无法学到任何东西。这是因为在减去均值之后,每个隐藏单元将为0。所以,只有使用足够大的小批量,批量规范化这种方法才是有效且稳定的。并且在应用批量规范化时,批量大小的选择可能比没有批量规范化时更重要。
从形式上来说,用$\mathbf{x} \in \mathcal{B}$表示一个来自小批量$\mathcal{B}$的输入,批量规范化$\mathrm{BN}$根据以下表达式转换$\mathbf{x}$:
在上式中,$\hat{\boldsymbol{\mu}}_\mathcal{B}$是小批量$\mathcal{B}$的样本均值,$\hat{\boldsymbol{\sigma}}_\mathcal{B}$是小批量$\mathcal{B}$的样本标准差。应用标准化后,生成的小批量的平均值为0和单位方差为1。由于单位方差(与其他一些魔法数)是一个主观的选择,因此我们通常包含拉伸参数(scale)$\boldsymbol{\gamma}$和偏移参数(shift)$\boldsymbol{\beta}$,它们的形状与$\mathbf{x}$相同。$\boldsymbol{\gamma}$和$\boldsymbol{\beta}$是需要与其他模型参数一起学习的参数。
由于在训练过程中,中间层的变化幅度不能过于剧烈,而批量规范化将每一层主动居中,并将它们重新调整为给定的平均值和大小(通过$\hat{\boldsymbol{\mu}}_\mathcal{B}$和${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$)。
从形式上来看,我们计算出上式中的$\hat{\boldsymbol{\mu}}_\mathcal{B}$和${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$,如下所示:
我们在方差估计值中添加一个小的常量$\epsilon > 0$,以确保我们永远不会尝试除以零,即使在经验方差估计值可能消失的情况下也是如此。估计值$\hat{\boldsymbol{\mu}}_\mathcal{B}$和${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$通过使用平均值和方差的噪声(常量)估计来抵消缩放问题。这种噪声事实上是有益的。
由于某些无法用理论解释的原因,优化中的各种噪声源通常会促使更快的训练和较少的过拟合:这种变化似乎是正则化的一种形式。在一些初步研究中,将批量规范化的性质与贝叶斯先验相关联。这些理论揭示了为什么批量规范化最适应$50 \sim 100$范围中的中等批量大小的难题。
另外,批量规范化层在”训练模式“(通过小批量统计数据规范化)和“预测模式”(通过数据集统计规范化)中的功能不同。在训练过程中,我们无法得知使用整个数据集来估计平均值和方差,所以只能根据每个小批次的平均值和方差不断训练模型。而在预测模式下,可以根据整个数据集精确计算批量规范化所需的平均值和方差。
下面,了解一下批量规范化在实践中是如何工作的。
5.2. 批量规范化层
批量规范化和其他层之间的一个关键区别是,由于批量规范化在完整的小批量上运行,因此不能像以前在引入其他层时那样忽略批量大小。 下面讨论两种情况:全连接层和卷积层,他们的批量规范化实现略有不同。
5.2.1. 全连接层
通常会将批量规范化层置于全连接层中的仿射变换和激活函数之间。设全连接层的输入为x,权重参数和偏置参数分别为$\mathbf{W}$和$\mathbf{b}$,激活函数为$\phi$,批量规范化的运算符为$\mathrm{BN}$。那么,使用批量规范化的全连接层的输出的计算详情如下:
均值和方差是在应用变换的”相同”小批量上计算的。
5.2.2. 卷积层
同样,对于卷积层,我们可以在卷积层之后和非线性激活函数之前应用批量规范化。当卷积有多个输出通道时,则需要对这些通道的“每个”输出执行批量规范化,每个通道都有自己的拉伸(scale)和偏移(shift)参数,这两个参数都是标量。假设当前小批量包含$m$个样本,并且对于每个通道,卷积的输出具有高度$p$和宽度$q$。那么对于卷积层,在每个输出通道的$m \cdot p \cdot q$个元素上同时执行每个批量规范化。因此,在计算平均值和方差时,会收集所有空间位置的值,然后在给定通道内应用相同的均值和方差,以便在每个空间位置对值进行规范化。
5.2.3. 预测过程中的批量规范化
批量规范化在训练模式和预测模式下的行为通常不同。首先,将训练好的模型用于预测时,我们不再需要样本均值中的噪声以及在微批次上估计每个小批次产生的样本方差了。其次,例如,我们可能需要使用模型对逐个样本进行预测。一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差,并在预测时使用它们得到确定的输出。可见,和暂退法一样,批量规范化层在训练模式和预测模式下的计算结果也是不一样的。
5.3. 从零实现
从头开始实现一个具有张量的批量规范化层:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29import torch
from torch import nn
def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
# 通过is_grad_enabled来判断当前模式是训练模式还是预测模式
if not torch.is_grad_enabled():
# 预测模式下,直接使用传入的移动平均所得的均值和方差
X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
else:
# 训练模式,判断是全连接还是卷积
assert len(X.shape) in (2, 4)
if len(X.shape) == 2:
# 使用全连接层的情况,计算特征维上的均值和方差
mean = X.mean(dim=0)
var = ((X - mean) ** 2).mean(dim=0)
else:
# 使用二维卷积层的情况,计算通道维上(axis=1)的均值和方差。
# 这里需要保持X的形状以便后面可以做广播运算
mean = X.mean(dim=(0, 2, 3), keepdim=True)
var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)
# 训练模式下,用当前的均值和方差做标准化
X_hat = (X - mean) / torch.sqrt(var + eps)
# 更新移动平均的均值和方差
moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
moving_var = momentum * moving_var + (1.0 - momentum) * var
# Y为该批量规范化结果
Y = gamma * X_hat + beta # 缩放和移位
return Y, moving_mean.data, moving_var.data
现在创建一个正确的BatchNorm层。这个层将保持适当的参数:拉伸gamma
和偏移beta
,这两个参数将在训练过程中更新。此外该层将保存均值和方差的移动平均值,以便在模型预测期间随后使用。
撇开算法细节,注意这里实现层的基础设计模式。通常情况下会用一个单独的函数定义其数学原理,比如说batch_norm
。然后将此功能集成到一个自定义层中,其代码主要处理数据移动到训练设备(如GPU)、分配和初始化任何必需的变量、跟踪移动平均线(此处为均值和方差)等问题。简单起见这里没有采用自动推断输入形状,因此我们需要指定整个特征的数量(num_dims)。但在调用深度学习框架内置的批量规范化API时该迎刃而解。
1 | class BatchNorm(nn.Module): |
5.4. 使用批量规范化层的 LeNet
下面将批量规范化层应用于LeNet模型。批量规范化是在卷积层或全连接层之后、相应的激活函数之前应用的。
1 | net = nn.Sequential( |
下面将在Fashion-MNIST数据集上训练网络。 这个代码与本书第一次训练LeNet时几乎相同,主要区别在于学习率大得多(大了0.1?)。1
2
3lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = load_data_fashion_mnist(batch_size)
train_ch6(net, train_iter, test_iter, num_epochs, lr, torch.device('something'))
看看从第一个批量规范化层中学到的拉伸参数gamma和偏移参数beta:1
2
3
4
5
6
7net[1].gamma.reshape((-1,)), net[1].beta.reshape((-1,))
输出:
(tensor([0.3362, 4.0349, 0.4496, 3.7056, 3.7774, 2.6762], device='cuda:0',
grad_fn=<ReshapeAliasBackward0>),
tensor([-0.5739, 4.1376, 0.5126, 0.3060, -2.5187, 0.3683], device='cuda:0',
grad_fn=<ReshapeAliasBackward0>))
5.5. 框架实现
直接使用深度学习框架中定义的BatchNorm。 该代码看起来几乎与从零实现的代码相同。1
2
3
4
5
6
7
8
9net = nn.Sequential(
# nn.BatchNorm2d自动推断输入形状
nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2),
nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),
nn.Linear(256, 120), nn.BatchNorm1d(120), nn.Sigmoid(),
nn.Linear(120, 84), nn.BatchNorm1d(84), nn.Sigmoid(),
nn.Linear(84, 10))
使用相同超参数来训练模型。 注意通常高级API变体运行速度快得多,因为它的代码已编译为C++或CUDA,而我们的自定义代码由Python实现。1
train_ch6(net, train_iter, test_iter, num_epochs, lr, torch.device('something'))
5.6. 争议,无法被解释的方法
直观地说,批量规范化被认为可以使优化更加平滑。然而我们必须区分直觉和对我们观察到的现象的真实解释。我们甚至不知道简单的神经网络(多层感知机和传统的卷积神经网络)为什么如此有效。即使在暂退法和权重衰减的情况下,它们仍然非常灵活,因此无法通过常规的学习理论泛化保证来解释它们是否能够泛化到看不见的数据。
在提出批量规范化的论文中,作者除了介绍了其应用,还解释了其原理:通过减少内部协变量偏移(internal covariate shift)。据推测,作者所说的“内部协变量转移”类似于上述的直觉(即对现象的猜测),即变量值的分布在训练过程中会发生变化。然而,这种解释有两个问题:
1、这种偏移与严格定义的协变量偏移(covariate shift)非常不同,所以这个名字用词不当。
2、这种解释只提供了一种不明确的直觉,但留下了一个有待后续挖掘的问题:为什么这项技术如此有效?
本书旨在传达实践者用来发展深层神经网络的直觉。然而,重要的是将这些指导性直觉与既定的科学事实区分开来。最终,当你掌握了这些方法,并开始撰写自己的研究论文时,你会希望清楚地区分技术和直觉。
随着批量规范化的普及,“内部协变量偏移”的解释反复出现在技术文献的辩论,特别是关于“如何展示机器学习研究”的更广泛的讨论中。Ali Rahimi在接受2017年NeurIPS大会的“接受时间考验奖”(Test of Time Award)时发表了一篇令人难忘的演讲。他将“内部协变量转移”作为焦点,将现代深度学习的实践比作炼金术。他对该示例进行了详细回顾,概述了机器学习中令人不安的趋势。此外,一些作者对批量规范化的成功提出了另一种解释:在某些方面,批量规范化的表现出与原始论文中声称的行为是相反的。
然而,与机器学习文献中成千上万类似模糊的说法相比,内部协变量偏移没有更值得批评。很可能,它作为这些辩论的焦点而产生共鸣,要归功于目标受众对它的广泛认可。
批量规范化已经被证明是一种不可或缺的方法。它适用于几乎所有图像分类器,并在学术界获得了数万引用。
6. 残差网络(ResNet)
随着网络的设计越来越深,深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。更重要的是设计网络的能力,在这种网络中,添加层会使网络更具表现力,为了取得质的突破,需要一些数学基础知识
6.1. 函数类
首先,假设有一类特定的神经网络架构$\mathcal{F}$,它包括学习速率和其他超参数设置。对于所有$f \in \mathcal{F}$,存在一些参数集(例如权重和偏置),这些参数可以通过在合适的数据集上进行训练而获得。现在假设 $f^{perfect}$ 是我们真正想要找到的函数,如果是$f^{perfect} \in \mathcal{F}$,那么可以轻而易举的训练得到它,但通常不会那么幸运,我们将尝试找到一个函数$f^{perfect}_\mathcal{F}$,这是在$\mathcal{F}$中的最佳选择。例如,给定一个具有$\mathbf{X}$特性和$\mathbf{y}$标签的数据集,我们可以尝试通过解决以下优化问题来找到它:
为了更近似真正$f^{perfect}$的函数,我们只能尽量设计一个更强大的架构 $\mathcal{F}’$,并预计$f^{perfect}_{\mathcal{F}’}$比$f^{perfect}_{\mathcal{F}}$“更近似”。然而,如果$\mathcal{F} \not\subseteq \mathcal{F}’$,则无法保证新的体系“更近似”。事实上,$f^{perfect}_{\mathcal{F}’}$可能更糟:如下图所示,对于非嵌套函数(non-nested function)类,较复杂的函数类并不总是向“真”函数$f^{perfect}$靠拢(复杂度由$\mathcal{F}_1$向$\mathcal{F}_6$递增)。在图的左边,虽然$\mathcal{F}_3$比$\mathcal{F}_1$更接近$f^{perfect}$,但$\mathcal{F}_6$却离的更远了。而对于图右侧的嵌套函数(nested function)类$\mathcal{F}_1 \subseteq \ldots \subseteq \mathcal{F}_6$,则可以避免上述问题。
因此,只有当较复杂的函数类包含较小的函数类时,才能确保提高它们的性能。对于深度神经网络,如果能将新添加的层训练成恒等映射(identity function)$f(\mathbf{x}) = \mathbf{x}$,新模型和原模型将同样有效。同时,由于新模型可能得出更优的解来拟合训练数据集,因此添加层似乎更容易降低训练误差。
针对这一问题,何恺明等人提出了残差网络(ResNet)。它在2015年的ImageNet图像识别挑战赛夺魁,并深刻影响了后来的深度神经网络的设计。残差网络的核心思想是:每个附加层都应该更容易地包含原始函数作为其元素之一。于是,残差块(residual blocks)便诞生了,这个设计对如何建立深层神经网络产生了深远的影响。凭借它,ResNet赢得了2015年ImageNet大规模视觉识别挑战赛。
6.2. 残差块
现在聚焦于神经网络局部:如下图所示,假设原始输入为x,而希望学出的理想映射为为$f(\mathbf{x})$(作为图中上方激活函数的输入)。左图虚线框中的部分需要直接拟合出该映射$f(\mathbf{x})$,而右图虚线框中的部分则需要拟合出残差映射$f(\mathbf{x}) - \mathbf{x}$。残差映射在现实中往往更容易优化。以恒等映射作为希望学出的理想映射$f(\mathbf{x})$,我们只需将右图虚线框内上方的加权运算(如仿射)的权重和偏置参数设成0这样结果不就是零了?然后再加x?没看懂,那么$f(\mathbf{x})$即为恒等映射。实际中,当理想映射$f(\mathbf{x})$极接近于恒等映射时,残差映射也易于捕捉恒等映射的细微波动。下图右图是ResNet的基础架构—残差块(residual block)。在残差块中,输入可通过跨层数据线路更快地向前传播。
ResNet沿用了VGG完整的$3×3$卷积层设计。残差块里首先有2个有相同输出通道数的$3×3$卷积层。每个卷积层后接一个批量规范化层和ReLU激活函数。然后通过跨层数据通路,跳过这2个卷积运算,将输入直接加在最后的ReLU激活函数前。这样的设计要求2个卷积层的输出与输入形状一样,从而使它们可以相加。如果想改变通道数,就需要引入一个额外的$1×1$卷积层来将输入变换成需要的形状后再做相加运算。
残差块的实现如下:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27import torch
from torch import nn
from torch.nn import functional as F
class Residual(nn.Module):
def __init__(self, input_channels, num_channels,
use_1x1conv=False, strides=1):
super().__init__()
self.conv1 = nn.Conv2d(input_channels, num_channels,
kernel_size=3, padding=1, stride=strides)
self.conv2 = nn.Conv2d(num_channels, num_channels,
kernel_size=3, padding=1)
if use_1x1conv:
self.conv3 = nn.Conv2d(input_channels, num_channels,
kernel_size=1, stride=strides)
else:
self.conv3 = None
self.bn1 = nn.BatchNorm2d(num_channels)
self.bn2 = nn.BatchNorm2d(num_channels)
def forward(self, X):
Y = F.relu(self.bn1(self.conv1(X)))
Y = self.bn2(self.conv2(Y))
if self.conv3:
X = self.conv3(X)
Y += X
return F.relu(Y)
如下图所示,此代码生成两种类型的网络:一种是当 use_1x1conv=False
时,应用ReLU非线性函数之前,将输入添加到输出。另一种是当use_1x1conv=True
时,添加通过$1×1$卷积调整通道和分辨率。
下面查看输入和输出形状一致的情况:1
2
3
4
5
6
7blk = Residual(3,3)
X = torch.rand(4, 3, 6, 6)
Y = blk(X)
Y.shape
输出:
torch.Size([4, 3, 6, 6])
也可以在增加输出通道数的同时,减半输出的高和宽。这里设置步长为2,原本的$6×6$ 在padding = 1后实际为$8×8$,在此基础上用$3×3$卷积核进行卷积,会得到$3×3$的大小,故减半了。
1 | blk = Residual(3,6, use_1x1conv=True, strides=2) |
6.3. ResNet模型
ResNet的前两层跟之前介绍的GoogLeNet中的一样:在输出通道数为64、步幅为2的$7×7$卷积层后,接步幅为2的$3×3$的最大池化层。不同之处在于ResNet每个卷积层后增加了批量规范化层。
1 | b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3), |
GoogLeNet在后面接了4个由Inception块组成的模块。ResNet则使用4个由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块。第一个模块的通道数同输入通道数一致。由于之前已经使用了步幅为2的最大池化层,所以无须减小高和宽。之后的每个模块在第一个残差块里将上一个模块的通道数翻倍,并将高和宽减半。
下面来实现这个模块。注意对第一个模块做了特别处理。
1 | def resnet_block(input_channels, num_channels, num_residuals, |
接着在ResNet加入所有残差块,这里每个模块使用2个残差块:
1 | b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True)) |
最后,与GoogLeNet一样,在ResNet中加入全局平均池化层,以及全连接层输出。
1 | net = nn.Sequential(b1, b2, b3, b4, b5, |
每个模块有4个卷积层(不包括恒等映射的1×1卷积层)。加上第一个$7×7$卷积层和最后一个全连接层,共有18层。因此,这种模型通常被称为ResNet-18。通过配置不同的通道数和模块里的残差块数可以得到不同的ResNet模型,例如更深的含152层的ResNet-152。虽然ResNet的主体架构跟GoogLeNet类似,但ResNet架构更简单,修改也更方便。这些因素都导致了ResNet迅速被广泛使用。
观察一下ResNet中不同模块的输入形状是如何变化的:分辨率降低,通道数量增加,直到全局平均池化层聚集所有特征。 这些变化同样适用之前讲述的架构。
1 | X = torch.rand(size=(1, 1, 224, 224)) |
6.4. 训练模型
在Fashion-MNIST数据集上训练ResNet:1
2
3lr, num_epochs, batch_size = 0.05, 10, 256
train_iter, test_iter = load_data_fashion_mnist(batch_size, resize=96)
train_ch6(net, train_iter, test_iter, num_epochs, lr, torch.device('mps'))
7. 稠密连接网络(DenseNet)
ResNet极大地改变了如何参数化深层网络中函数的观点。 稠密连接网络(DenseNet)在某种程度上是ResNet的逻辑扩展。
7.1. 从ResNet到DenseNet
回想一下任意函数的泰勒展开式(Taylor expansion),它把这个函数分解成越来越高阶的项。在$x$接近0时,
同样,ResNet将函数展开为
也就是说,ResNet将$f$分解为两部分:一个简单的线性项和一个复杂的非线性项。
那么再向前拓展一步,那么如果我们想将$f$拓展成超过两部分的信息呢?一种方案便是DenseNet。
如上图所示,ResNet和DenseNet的关键区别在于,DenseNet输出是连接(用图中的$[,]$表示)而不是如ResNet的简单相加。因此在应用越来越复杂的函数序列后,我们执行从$\mathbf{x}$到其展开式的映射:
最后,将这些展开式结合到多层感知机中,再次减少特征的数量。实现起来非常简单:我们不需要添加术语,而是将它们连接起来。DenseNet这个名字由变量之间的“稠密连接”而得来,最后一层与之前的所有层紧密相连。稠密连接如下图所示。
稠密网络主要由2部分构成:稠密块(dense block)和过渡层(transition layer)。前者定义如何连接输入和输出,而后者则控制通道数量,使其不会太复杂。
7.2. 稠密块体
DenseNet使用了ResNet改良版的“批量规范化、激活和卷积”架构。首先实现一下这个架构。
1 | import torch |
一个稠密块由多个卷积块组成,每个卷积块使用相同数量的输出通道。在前向传播中,将每个卷积块的输入和输出在通道维上连结。
1 | class DenseBlock(nn.Module): |
下例中,定义一个有2个卷积块、输出通道数为10的DenseBlock
。使用通道数为3的输入时,我们会得到通道数为$3+2×10=23$的输出。卷积块的通道数控制了输出通道数相对于输入通道数的增长,因此也被称为增长率(growth rate)。
1 | blk = DenseBlock(2, 3, 10) |
7.3. 过渡层
由于每个稠密块都会带来通道数的增加,使用过多则会过于复杂化模型。而过渡层可以用来控制模型复杂度。它通过$1×1$卷积层来减小通道数,并使用步幅为2的平均池化层减半高和宽,从而进一步降低模型复杂度。
1 | def transition_block(input_channels, num_channels): |
对上一个例子中稠密块的输出使用通道数为10的过渡层。 此时输出的通道数减为10,高和宽均减半。
1 | blk = transition_block(23, 10) |
7.4. DenseNet模型
构造DenseNet模型。DenseNet首先使用同ResNet一样的单卷积层和最大池化层。
1 | b1 = nn.Sequential( |
接下来,类似于ResNet使用的4个残差块,DenseNet使用的是4个稠密块。与ResNet类似,可以设置每个稠密块使用多少个卷积层。这里设成4,从而与之前提到的ResNet-18保持一致。稠密块里的卷积层通道数(即增长率)设为32,所以每个稠密块将增加128个通道。
在每个模块之间,ResNet通过步幅为2的残差块减小高和宽,DenseNet则使用过渡层来减半高和宽,并减半通道数。
1 | # num_channels为当前的通道数 |
与ResNet类似,最后接上全局池化层和全连接层来输出结果。
1 | net = nn.Sequential( |
7.5. 训练模型
由于这里使用了比较深的网络,此处将输入高和宽从224降到96来简化计算。
1 | lr, num_epochs, batch_size = 0.1, 10, 256 |