【计算机视觉】计算机视觉CNN架构

语言 Chinese, Simplified

SEO Title

三种用于组合层以提高准确性的经典网络架构

从本质上讲，神经网络复制了人类从错误中学习的相同过程。除了神经过程外，CNN中的卷积还执行特征提取过程。

以下是三个经典的网络及其基础架构。

LeNet-5

LeNet是第一个CNN架构，也是基于梯度的学习的一个例子。

LeNet是在改良的NIST或MNIST数据集上进行训练的，旨在识别支票上的手写数字。改变权重和超参数，使得损失函数上的梯度发散达到最小。但正如在计算机视觉中使用的那样，LeNet中的权重和超参数是手动设计的。LeNet的输入是32×32，在没有放大的情况下是可见的，远远大于最初写入的字符的大小。大的输入允许捕获图像中的微小特征。

LeNet由卷积层、子采样层和全连通层组成。（有关LeNet-5的架构图，请参阅http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf，第7页）。

卷积层从图像中提取特征。
子采样层包括将激活函数应用于来自卷积层的输入，并对通过应用激活函数获得的输出执行池化处理。
完全连接层将一层的每个神经元连接到另一层的每一个神经元。完全连接层的最后一层被保留用于激活函数以帮助分类。

AlexNet

LeNet体系结构表明，增加网络深度可以提高准确性。AlexNet体系结构包含了这一教训。AlexNet由五个卷积层和三个完全连接层组成。

AlexNet使用ReLu（整流线性单元）作为其激活函数。ReLu代替传统的sigmoid或tanh函数用于将非线性引入网络。与传统的激活函数相比，ReLu对正值的响应更大，对负值的响应为零，确保并非所有神经元在任何给定时间都是活跃的。ReLu所需的计算时间也低于sigmoid和tanh。

ReLu的另一个优点是它可以去除（丢弃）死亡的神经元，如下所示。

Dropout in AlexNet

开发者可以设置丢弃不活动神经元的比率。Dropout有助于避免AlexNet中的过拟合。

当在ImageNet LSVRC-2012数据集上训练时，AlexNet实现了15.3%的相对较低的错误率，而非CNN的错误率为26.2%。（有关AlexNet的体系结构图，请参阅https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-con…，第5页。