跳转到主要内容
Chinese, Simplified

三种用于组合层以提高准确性的经典网络架构

从本质上讲,神经网络复制了人类从错误中学习的相同过程。除了神经过程外,CNN中的卷积还执行特征提取过程。

以下是三个经典的网络及其基础架构。

LeNet-5

LeNet是第一个CNN架构,也是基于梯度的学习的一个例子。

LeNet是在改良的NIST或MNIST数据集上进行训练的,旨在识别支票上的手写数字。改变权重和超参数,使得损失函数上的梯度发散达到最小。但正如在计算机视觉中使用的那样,LeNet中的权重和超参数是手动设计的。LeNet的输入是32×32,在没有放大的情况下是可见的,远远大于最初写入的字符的大小。大的输入允许捕获图像中的微小特征。

 

LeNet由卷积层、子采样层和全连通层组成。(有关LeNet-5的架构图,请参阅http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf,第7页)。

  • 卷积层从图像中提取特征。
  • 子采样层包括将激活函数应用于来自卷积层的输入,并对通过应用激活函数获得的输出执行池化处理。
  • 完全连接层将一层的每个神经元连接到另一层的每一个神经元。完全连接层的最后一层被保留用于激活函数以帮助分类。

AlexNet

LeNet体系结构表明,增加网络深度可以提高准确性。AlexNet体系结构包含了这一教训。AlexNet由五个卷积层和三个完全连接层组成。

AlexNet使用ReLu(整流线性单元)作为其激活函数。ReLu代替传统的sigmoid或tanh函数用于将非线性引入网络。与传统的激活函数相比,ReLu对正值的响应更大,对负值的响应为零,确保并非所有神经元在任何给定时间都是活跃的。ReLu所需的计算时间也低于sigmoid和tanh。

ReLu的另一个优点是它可以去除(丢弃)死亡的神经元,如下所示。

Dropout in AlexNet

开发者可以设置丢弃不活动神经元的比率。Dropout有助于避免AlexNet中的过拟合。

当在ImageNet LSVRC-2012数据集上训练时,AlexNet实现了15.3%的相对较低的错误率,而非CNN的错误率为26.2%。(有关AlexNet的体系结构图,请参阅https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-con…,第5页。

VGG-Net(视觉几何组)

AlexNet展示了使用较大过滤器的价值。为了达到最先进的水平,VGG-Net在一个系列中使用了3×3个滤波器。这增加了网络的深度,这在检测图像中的特征方面是有效的。(有关VGG-Net的架构图,在包含1000个类的数据集上进行训练和测试,每个类中有1000个图像,请参阅

https://www.researchgate.net/profile/Clifford_Yang/publication/325137356/figure/fig2/AS:670371271413777@1536840374533/llustration-of-the-network-architecture-of-VGG-19-model-conv-means-convolution-FC-means.jpg

 

原文地址
https://developer.qualcomm.com/software/qualcomm-neural-processing-sdk/cnn-architectures/computer-vision-cnn-architectures
本文地址
Article

微信

知识星球

微信公众号

视频号