基于卷积神经网络的纹理分类方法研究-冀中.pdf-得力文库

资源描述

《基于卷积神经网络的纹理分类方法研究-冀中.pdf》由会员分享，可在线阅读，更多相关《基于卷积神经网络的纹理分类方法研究-冀中.pdf（9页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、ISSN 1 67394 l 8 CODEN JKYTA8Journal of Frontiers of Computer Science and Technology1673-9418201610(03)-0389-09doi：103778巧issn167394181505073基于卷积神经网络的纹理分类方法研究+冀中+，刘青，聂林红，庞彦伟天津大学电子信息工程学院，天津300072Texture Classification with Convolutional Neural NetworkJI Zhong+，LIU Qing，NIE Linhong，PANG YanweiSchool

2、 ofElectronic Information Engineering，Tianjin University，Tianjin 300072，China+Corresponding author：Email：jizhongtjueducnE-mail：fcstvip163comhttp：wwwceajorgTel：+861 089056056JI Zhong，LIU Qing，NIE Linhong，et a1Texture classification with convolutional neural network。Journal ofFrontiers of Computer Sci

3、ence and Technology,2016，10(3)：389-397Abstract：Deep convolutional neural network(CNN)has recently achieved great breakthroughs in many computervision tasksHowever,its application in texture classification has not been thoroughly researchedTo this end，thispaper carries out a systemic research on its

4、application in image texture classificationSpecifically,CNN is used toextract preliminary image feature，and subsequent PCA(principal component analysis)operation Can reduce its dimensionality to obtain final texture feature which is fed into an SVM(support vector machine)classifier for predictionThi

5、s paper does comprehensive experiments and analysis on four benchmark datasetsThe results show that CNN isa better texture feature representation and achieves quite good performance in most image texture datasetsHowever,CNN performs worse in datasets with image noise and rotationThus，this paper indi

6、cates the necessity to enhancethe abilities of noise tolerance and rotation invariance of CNN，and it is necessary to construct a large diverse texturedataset to guarantee its best performance in image texture classificationKey words：texture classification；convolutional neural network(CNN)；computer v

7、ision摘要：深度卷积神经网络(convolutional neural network，cNN)在许多计算机视觉应用中都取得了突破性进展，但其在纹理分类应用中的性能还未得到深入研究。为此，就CNN模型在图像纹理分类中的应用进行了较+The National Natural Science Foundation of China under Grant Nos61271325，61472273(国家自然科学基金)；the Elite ScholarProgram ofTianjin University under Grant No201 5XRG一0014(天津大学“北洋学者-青年骨干教师

8、”项目)Received 2015-05，Accepted 2015-07CNKI网络优先出版：2015-0714，http：wwwcnkinetkcmsdetail1 15602TE201507141558001html万方数据390 Journal ofFrontiers ofComputer Science and Technology计算机科学与探索为系统的研究。具体而言，将CNN用于提取图像的初步特征，此特征经过PCA(principal component analysis)降维后可得到最终的纹理特征，将其输入到SVM(support vector machine)分类器中便可获得

9、分类标签。在4个常用的纹理数据集上进行了性能测试与分析，结果表明CNN模型在大多纹理数据集上均能取得很好的性能，是一种优秀的纹理特征表示模型，但其对包含旋转和噪声的纹理图像数据集仍不能取得理想结果，需要进一步提升CNN的抗旋转能力和抗噪声能力。另外，有必要构建具有足够多样性的大规模纹理数据集来保证CNN性能的发挥。关键词：纹理分类；卷积神经网络(CNN)；计算机视觉文献标志码：A 中图分类号：TPl831 引言纹理在自然界中广泛存在，几乎所有自然界事物的表面都是一种纹理，它包含了图像的表面信息与其周围环境的关系，兼顾了图像的宏观信息和微观结构，因此纹理分析在计算机视觉和多媒体分析领域占据重要地

10、位。传统的纹理分类算法以局部二值模式(10cal binary paRem，LBP)t”为代表，并以它为基础提出了一系列的改进算法，例如ELBP(extendedLBP)2J、CLBP(completed LBP)31 xLFD(10cal仔equencydescriptors)川、BRINT(binary rotation invariant andnoise tolerant)等。近年来，深度卷积神经网络(convolutional neuralnetwork，cNN)在图像分类任务中取得了突破性的进展6-8并吸引了许多学者和研究人员投身其中。CNN成功的原因之一是大数据为深度模型的训练提

11、供了基础。其中，ILSVRC(ImageNet largescale visual recognition challenge)唧作为视觉识别系统性能的测试平台，在深度架构的发展中起到了至关重要的作用。一些优秀的CNN模型，例如ConvNett 61、CaffeNett】、OverFeat1、GoogLeNet”21等均以此为基础构建。近期，在研究CNN算法和结构的同时，一些学者还尝试将ImageNet上训练的CNN直接应用于场景分类”31、目标检测”4，和图像检索BS等其他视觉识别任务中，实验结果表明预训练的CNN可以作为通用的特征描述符使用。此外，文献16进一步提出应该将CNN作为计算机视

12、觉领域中的首选模型。虽然预训练的CNN在许多计算机视觉任务中都取得了良好的效果，但是其在纹理分类任务中的性能还未得到深入研究。为此，本文较为系统地研究了CNN模型在纹理分类中的性能，通过在4个常用的纹理数据集上的测试与分析，并与传统的纹理分类算法相比较，表明了其在纹理分类任务中的有效性。由于自然界中采集的纹理图像大都包含不同程度的旋转、噪声等变化，本文还针对CNN在纹理分类中的抗旋转和噪声的性能进行讨论，指出有必要提升CNN在纹理分类中的抗旋转能力和抗噪声能力，以及构建具有足够多样性的大规模纹理数据集。此外，本文还将预训练的CNN与直接训练的CNN模型进行对比，表明了预训练CNN模型的有效性。

13、2算法描述本文将在ImageNet数据集上训练得到的CNN模型应用于纹理分类任务，其具体过程如图1所示。在训练阶段，首先使用CNN提取预处理后的训练图像的特征；其次利用PCA(principal component analysis)训练图像标签训练集iJllg东,像：测试图像预处理乡2NN提取特征七多?CA维数约简JIJ练图l 。一一一I贝0试图像特征I j像特征咂堕母1蔓丑一固Fig1 Process of texture classification with CNN图1 CNN用于纹理分类的具体流程万方数据冀中等：基于卷积神经网络的纹理分类方法研究 39l技术对所提CNN特征进行维数

14、约简得到最终的训练图像特征；最后结合训练图像的特征和标签，训练一个SVM(support vector machine)分类器。在测试阶段，测试图像经过与训练阶段相同的预处理、CNN特征提取以及PCA降维等过程得到测试图像的特征，并将所得特征作为已训练完成的SVM的输入，其输出即为测试图像的预测标签。下面介绍所提方法的具体细节。21预处理CNN作为一种神经网络结构，其超参数(hyperparameter)在训练时就已经确定。这些超参数包括神经网络的层数、每一层网络中的神经元个数等。因此，为了能够使用预训练的CNN提取纹理图像的特征，需要对纹理图像进行预处理。预处理过程主要包括两个步骤：(1)将

15、纹理图像的尺寸统一调整为CNN在预训练时所设计的输人大小。针对本文所使用的CNN，纹理图像在输入网络之前均被调整为以下尺寸，即(227x227像素)3通道。(2)对调整后的纹理图像进行均值归一化操作。本文所使用的CNN是在ImageNet数据集上训练所得，因此在使用CNN提取特征前，需要将纹理图像减去ImageNet数据集的平均图像。22 CNN特征提取本文所使用的预训练模型为BVLC ReferenceCaffeNet(简称为CaffeNet)，该模型是ConvNet模型的一个变体。CaffeNet包含5个卷积层(convolutionallayer)，3个最大池化层(max pooling

16、 layer)和3个全连接层(fullyconnected layer)，具体结构描述如表1所示。下面介绍CaffeNet中重要的组成部分。221 卷积层卷积层是CNN的核心结构。卷积层中每个神经元的权值矩阵被称为卷积核(kernel)或者滤波器(filter)，卷积核与输入之间是局部连接的，因而其网络参数与全连接方式相比减少很多。每个卷积核通过“滑动窗口”的方式提取出输入数据不同位置的特征，所得结果为一个二维特征集合，即特征图(featuremap)。本层的特征图将作为下一层的输入继续传播。通过训练，卷积核可以提取出某些有意义的特征，例如第个卷积层的卷积核类似于Gabor滤波器”，可以提取边

17、缘、角等信息。CaffeNet包含5个卷积层(convlconv5)，其卷积核大小(kernel size)分别为11 2、5232、32、32像素，输出的特征图数目分别为96、256、384、384、256个，卷积的步长(Stride)分别为4、l、1、1、1像素。多层的结构可以对输人的图像进行逐层抽象，获得更高层次的分布式特征表达。222 池化层池化(pooling)是计算机视觉与机器学习领域中的常见操作。所谓池化，就是将不同位置的特征进行聚合。常见的池化方式有平均池化(mean pooling)、最大池化(max pooling)和随机池化(stochastic pooling)等。Ca

18、ffNet模型采用最大池化的方式，该模型中的convl、conv2和conv5层后均连接了一个最大池化层，其池化尺寸均为32像素，池化步长均为2像素。通过池化，不仅可以降低特征的维数，还可以提高特征的鲁棒性。223全连接层相比于卷积层的局部连接方式，全连接层的全连接方式将会带来更多的网络参数。CaffeNet模型的最后3层为全连接层(full6full8)。由于之前的卷积层及池化层已经将特征的维数降低至可接受的大小，因而使用全连接层并不会导致特别严重的计算负担。在CaffeNet的3个全连接层中，full6和full7层均Table 1 Structure and parameters of

19、CaffeNet表1 CaffeNet网络结构与参数万方数据392 Journal ofFrontiers ofComputer Science and Technology计算机科学与探索为包含4 096个神经元的隐藏层，而full8层为1 000路的soflmax输出层。虽然这3个全连接层的输出都可作为通用的特征使用，但文献181中指出，将预训练的CNN应用于物体识别、图像检索等计算机视觉任务时，full6层输出的特征可以获得最好的效果，因此本文使用full6层的输出作为纹理图像的特征。224 Rectified Linear Units常见的激活函数主要包括sigmoid函数f(x)=(

20、1+e。)。1和双曲正切函数厂(x)=tanh(x)。然而，就训练速度而言，使用这些饱和非线性激活函数要慢于使用非饱和非线性激活函数f(x)=max(0，工)嘶1，该函数被称为Rectified Linear unitS(ReLu)邺1。文献20指出，除了速度优势之外，ReLU还具有以下两个特点：(1)相比于传统激活函数，ReLU的单边抑制更符合生物学观点；(2)ReLU可以获得稀疏表达，其性能比传统激活函数的性能更好。因此，CaffeNet模型使用ReLU作为激活函数。具体而言，CaffeNet的convlconv5以及full6-full7层后均使用ReLU获取激活值以继续前向传播。225

21、 Local Response NormalizationCaffeNet模型在convl和conv2层后使用LocalResponse Normalization(LRN)方法来提升网络的泛化能力，如文献6】所述，LRN具体实现如下：其中，a：、，表示把第i个卷积核作用于位置(z，Y)并经过ReLU函数后的激活值；k、冠、践和罗为LRN的超参数，通常情况下取值为尼=2，n=5，6【=10一，=075。23 PCA维数约筒本文使用CaffeNet中full6层的输出作为纹理图像的特征，该层包含4 096个神经元，相应的输出向量有4 096维，维数相对较高。因此，为降低特征维度，以减小计算负担，

22、本文使用经典的PCA降维算法对所得特征进行维数约简，获得最终的纹理图像特征，其中所采用的降维原则是保留95的能量。24 SvM训练训练图像特征提取完成后，结合训练图像的特征和标签可以训练得到一个SVM分类器。本文使用LIBLINEARt211工具包进行SVM的训练。LIBLINEAR是一个用于大规模线性分类的开源工具包，其中oneVStherest策略被用于多分类SVM的实现。3实验目前主流的纹理数据集有CURETt221KTHTIPS雎31、KTHTIPS 2bt231和Outex TClot241。本文分别对前3个数据集进行测试，验证CNN特征的有效性，并在下文讨论中，基于Outex TC

23、IO数据集对CNN的抗旋转性能进行探讨。实验选取的对比算法主要有：ELBP口1(IVC 2012)、CLBPt31(TIP2010)、VZ脉8吲(IJCV2005)、VZ Joill_尸(PAMI 2009)、LFD【”(PR2013)和BRINT吲(TIP2014)，这些对比算法既包括一些经典的算法，也包括目前在各个数据集上取得最好性能的算法，对比算法的实验性能均为相应文章所提供的数值。由于这些对比算法大多没有同时对这4个数据集进行实验验证，在接下来的实验对比分析中，这些对比算法并不是在每个数据集都有体现。如未加说明，实验中CNN即指利用ImageNet预训练好的CNN模型CaffeNet。

24、下面分别介绍在这4个数据集上的实验结果及分析。31 CURET数据集ClAReT数据集包含6l类在不同视角、光照和旋转角度条件下采集的纹理图像。在每一类图像中，92张采集角度小于600的纹理图被选择出来用于实验，每张图像尺寸为200200像素。在实验过程中，本文使用与文献221中相同的划分方式，即在每类纹理中，随机抽取张图像作为训练样本，剩余的92一张图像作为测试样本，数目依次选取46、23、12和6。在固定数目的情况下，随机实验重复进行10次，使用10次实验结果的均值作为算法的最终分类结果。表2给出了CURET数据集上不同算法性能的比较。由表中数据可以看出，与其他算法相比，在选取训练样本不同

25、的情况下，CNN算法均达到了较好的=yIX6万方数据冀中等：基于卷积神经网络的纹理分类方法研究 393分类性能，例如在N=46的情况下，CNN相比于ELBP、CLBP_Slri6u23Mlri6u23C、VZ_MR8、VZ_Joint和LFD243等算法，其分类准确率分别提升了087、179、128、146和010，性能仅次于BRINT。此外，还可以看出，随着训练样本个数的减小，CNN的性能提升明显增多，这些结果表明了CNN具有较强的表示能力。Table 2 Performance comparison on CURET dataset表2 CURET数据集上性能比较32 KTHTIPS数据

26、集KTHTIPS数据集共包含10类在不同视角、光照和尺度条件下采集的纹理图像。在每一类图像中，前5种尺度的45张纹理图被选择出来用于实验，每张图像尺寸为200x200像素。在实验过程中，本文使用与文献4中相同的划分方式，即在每类纹理中，随机抽取23张图像作为训练样本，剩余的22张图像作为测试样本，随机实验重复进行50次，使用50次实验结果的均值作为算法的最终分类结果。各算法在KTHTIPS数据集上的分类准确率如表3所示。Table 3 Performance comparison on KTHTIPS dataset表3 KTHTIPS数据集上性能比较算法分类准确率CNNCLBPs2ri4u

27、23M熟C oVZ MR8捌VZ Jointa2目LFD243川98239346942585459658由表中数据可以看出，CNNgE CLBPS2ri4u23M24 3C、VZMR8、VZJoint和LFD243等算法，分类准确率有了较大的提高，分别提升了477、398、1278和165。根据公开文献的调研结果，使用CNN模型的方法在KTHTIPS数据集上取得了目前最好的性能，进一步表明了CNN在纹理分类任务中的有效性。33 KTHTIPS 2b数据集KTHTIPS 2b数据集是在KTHTIPS数据集基础上经过扩展得到的更富挑战性的彩色纹理图像数据集。该数据集共包含11类在不同视角、光照和尺

28、度条件下采集的纹理图像。每类图像包含4种不同的样本，分别为a、b、C、d，每种样本包含108张图像，每张图像尺寸为(200x200像素)3通道。在实验过程中，随机选取3种不同样本进行训练，剩余的1种样本用于测试，实验重复进行4次，使用4次实验结果的均值作为算法的最终分类结果。由于KTHTIPS 2b是彩色数据集，为了检验颜色对性能的影响，本文在输入图像不同的情况下对CNN的性能进行测试，具体如下：(1)使用彩色原图作为CNN的输人；(2)先将彩色图像转为灰度图像，再使用灰度图像作为CNN的输入。分类结果如表4所示。Table 4 Performance comparison between c

29、olorand gray inputs on KTH-TIPS一2b dataset表4 KTHTIPS 2b数据集上使用彩色图像和灰度图像作为输入的性能比较均值由表4中数据可以看出，尽管在不同的训练集测试集样本划分情况下，使用彩色图像和灰度图像的结果有所差异，但是整体而言，使用灰度图像的效果要更好。表5给出了不同算法在KTHTIPS 2b数据集上的分类性能比较。由于现有算法大多都不考虑颜色的影响，表中只列出了在使用灰度图像作为输人的万方数据394 Journal ofFrontiers ofComputer Science and Technology计算机科学与探索情况下的分类性能比较。由

30、于KTHTIPS 中的图_2b像相比于上述两个纹理集(CURET以及KTHTIPS)中的图像更加复杂，因而更具挑战性。从表5中的数据可以看出，所有的算法在KTHTIP 2b上的分类准确率均低于在CURET和KTHTIPS上的准确率。在这种情况下，相比于ELBP、CLBP、Vz MR8、VZ Joint和BRINT，CNN的分类准确率分别高出1464、1534、2394、1994和1034。由此可以说明，CNN具有强大的表示能力和鲁棒性，在复杂的纹理分类任务中也能获得很好的效果。Table 5 Performance comparison on KTHTIPS_2b dataset表5 KTHT

31、IPS 2b数据集上性能比较算法分类准确率CNNELBP21CLBP嘲VZ MR8瞄1VZ Jointt251BRINTt5】8064660065_305670607070304讨论下面围绕预训练的CNN在纹理分类任务中的应用展开讨论，具体包括：(1)预训练的CNN与直接使用纹理图像训练的CNN的对比；(2)预训练的CNN的抗旋转性能测试；(3)预训练的CNN的抗噪声性能测试。41预训练的CNN与直接训练的CNN的对比为了论述方便，本节使用DirectCNN表示直接使用纹理图像训练的CNN。本文在CURET数据集上进行DirectCNN模型的训练，具体过程如下：首先，在每类纹理中，随机选取4

32、6张图像作为训练样本，并将剩余46张图像作为测试样本。其次，统一将训练样本的大小由200200像素调整为128128像素。最后，采用Data Augmentation方法增加训练样本个数，即选取每张训练图像中左上角、左下角、右上角、右下角以及中间的100100像素图像块形成5个新图像，共14 030(61 x46x5)张图像作为新的训练样本。测试时，需将测试图像的大小调整至与训练图像相同，即100x100像素，此时共有2 806(6146)张测试图像。由于数据集训练数据的限制，较难训练比较深度的模型，本文仅使用上述训练数据训练两个浅层的DirectCNN用于测试对比，分别称为D1CNN和D2一

33、CNN，其中数字“1”和“2”分别表示CNN模型中卷积层的个数。D1一CNN与D2一CNN的参数如表6所示。Table 6 Structures and parameters ofDl一CNNand D2CNN表6 D1CNN与D2CNN网络结构与参数经过50次迭代训练后，D1一CNN和D2一CNN在测试集上的准确率分别为9120和8927，低于CNN的9764。原因在于CURET训练集中的图像较少，DirectCNN难以得到充分的训练，所以其分类准确率较低；而CaffeNet是在大型数据集ImageNet上进行训练的，训练图像高达上百万张，可以学习到有效的特征，因此其分类准确率较高。在其他数

34、据集上也取得了类似的结果。这些结果表明了预训练的CNN的有效性，同时也可知构建大型纹理数据集的必要性。42抗旋转性能测试CNN在CURET、KTHTIPS、KTHTIPS 2b等数据集上能够取得良好的效果，一方面是由于CNN强大的学习能力和表示能力，另一方面也归功于训练样本的多样性。为了测试CNN的抗旋转性能：使用Outex TCl0数据集进行实验。Outex TCl0数据集共包含24类在“inca”光照下采集的9种不同旋转角度(Oo，5。，10。，150，300，45。，600，750，900)的纹理图像，其中每张图像尺寸为128x 128像素。在实验过程中，采用标万方数据冀中等：基于卷积

35、神经网络的纹理分类方法研究 395准的训练方式，即选取旋转角度为O。的图像作为训练样本，其他旋转角度的图像作为测试样本。在训练时并未提供其他旋转角度的图像，因此可以很好地测试CNN特征自身的抗旋转能力。实验结果如表7所示。Table 7 Performance comparison on OutexTC 1 0 dataset表7 Outex TCIO数据集上性能比较算法分类准确率胼CNNCLBP_S2#3M2ri4u23C”VZ MR8t221VZ Joint【251LFD2434170769893935992009964表7给出了不同算法在Outex TCl0数据集上的分类准确率的比较。

36、由于传统的纹理分类方法在设计特征时均针对旋转变化进行了相应的改进，从而分类准确率较好；而在ImageNet上进行训练的CNN只具有一定的抗旋转能力，同时在提取特征时并未提供其他旋转角度的样本，因次分类准确率较差。为了进一步证实上述分析，本文进行了以下补充实验：与标准方式仅选取旋转角度为0。的20张图像作为训练样本不同，补充实验在每类纹理中随机选取20张作为训练样本，剩余的160张作为测试样本，随机实验重复进行50次，使用50次实验结果的均值作为算法的最终分类结果。表8给出了OutexTCl0数据集上使用标准和非标准训练方式的性能比较。由表中数据可以看出，使用随机方式选取训练图像的结果要远好于使

37、用标准方式选取训练图像的结果。这说明虽然CNN自身的抗旋转能力有限，但是当训练数据包含足够的多样性时，CNN能够取得良好效果。该结果表明了有必要提升CNN在纹理分Table 8 Performance comparison between standardand non-standard training on OutexTC 1 0 dataset表8 Outex TCIO数据集上使用标准和非标准训练式的性能比较算法分类准确率觞CNN(标准)CNN(非标准)70769924类中的抗旋转能力，以及构建具有足够多样性的纹理数据集。43抗噪声性能测试在自然条件下采集的纹理图像可能包含噪声，因此特

38、征的抗噪声能力在纹理分类任务中比较重要。本节在CURET数据集上添加高斯噪声以模拟自然条件下采集的带噪声的纹理图像。在实验过程中，从每类纹理中随机抽取46张图像作为训练样本，剩余的46张图像作为测试样本，每张图像上添加高斯噪声后作为新的训练IN试样本。本文使用SNR(signal noise ratio)作为噪声强度的指标，依次选取SNR=30，15，lO，5进行实验，并与现有文献中抗噪声性能最好的算法BRINT进行对比，实验结果如表9所示。可以看出，在不同的SNR情况下，CNN相比于目前最好的抗噪声算法BRINT性能降低1 5以上，这说明CNN的抗噪声性能有待提高。Table 9 Perfo

39、rmance comparison with different SNR表9不同SNR情况下的分类性能比较5结束语本文将ImageNet数据集上预训练得到的CNN模型应用于纹理分类任务中。实验表明，预训练的CNN模型能够提取出有效的纹理特征，在常用的纹理数据集上均取得良好的效果。尤其在KTHTIPS和KTHTIPS 2b数据集上，本文方法取得了目前为止最高的分类准确率。为了进一步探究预训练的CNN的性能，本文将预训练的CNN与直接训练的CNN进行对比，说明了构建大型纹理数据集的必要性。此外，本文还对CNN的抗旋转性能与抗噪声性能进行了测试，说明了提升CNN自身鲁棒性和构建多样性数据集的必要性。

40、References：【1】ojala T，Pietikainen M，Maenpaa T-Multiresolution grayscale万方数据396 Journal ofFrontiers ofComputer Science and Technology计算机科学与探索 2016，10(3)and rotation mvarlant texture classification with local binarypatternsJ，IEEE Transactions on Pattern Analysis andMachine Intelligence，2002，24(7)：97 I

41、-9872】2 Liu Li，Zhao Lingiun，kng Yunli，et a1Extended local binarypattems for texture classificationJImage and Vision Computing，2012，30(2)：86993】Guo Zherthua,Zhang Lei，Zhang DA completed modelingof local binary pattern operator for texture classificationJIEEE Transactions 0n Image Processing,2010，19(6

42、)：1657-1663【4】Maani R，Kalra S，Yang Y HNoise robust rotation invafiant features for texture classificationJPauem Recognition，2013，46(8)：21032116【55 Liu Li，Long Yunli，Fieguth P wel a1BRINT：binary rotation invariant and noise tolerant texture classificationJIEEE Transactions on Inlage Processing，2014，2

43、3(7)：30713084【6Krizhevsky A，Sutskever I，Hinton G EImageNet classification with dcep convolutional neural networksCAdvancesin Neural Information Processing Systems 25：Proceedings ofthe 26th Annual Conference on Neural Information ProcessingSystems，Lake Tahoe，USA，Dec 3-6，2012：109711057】Zeiler M D，Ferg

44、us R。Visualizing and understanding convolutional networksCLNCS 8689：Proceedings of the 1 3thEuropean Conference on Computer Vision，Zurich，Switzer1and，Sep 6-t2，2014Berlin，Heidelberg：Springer，2014：818-8338】Simonyan K Zisserman AVery de印convolutional networksfor largescale image recognitionJOLarXiv：140

45、91556(2014)201503-30http：arxivorgpdf14091556pdE9】Russakovsky O，Deng Jia，Su Hao，et a1ImageNet largescale visual recognition challengeJOLarXiv：14090575(2014)2015-0330http：arxivorgpdf14090575pdf1 0】Jia Yangqing，Shehamer E，Donahue Jet a1Caffe：convolutional architecture for fast feature embeddingCProceed

46、ingsof the 2014 ACM Conference on Multimedia,Orlando，USA，Nov 3-7，2014New York，USA：ACM，2014：6756781 1】Sermanet B Eigen D，Zhang Xiang，et a1OverFeat：integratedrecognition，localization and detection using convolutionalnetworksJOL。arXiv：1312。6229(2013)201503301。http：arxivorgabs1312622912】Szegedy C，Liu We

47、i，Jia Yangqing，et a1Going deeper withconvolutionsJOLarXiv：14094842(2014)20t5-0330h却：llarxivorgpdf14094842v1pdf13】Yoo D，Park S，Lee J Yet a1Fisher kernel for deep neuralactivationsJarXiv：14121628(201钔201503-30http：arxivorgpdffl4121628pdE【14He Kaiming，Zhang Xiangyu，Ren Shaoqing，et a1Spatialpyramid pool

48、ing in deep convolutional networks for visualrecognitionJOLarXiv：1406。4729(2014)2015-03301h卸：llarxivorgpdf14064729pdf【1 5Babenko A，Slesarev A，Chigorin A，et a1Neural codes forimage retrievalCVLNCS 8689：Proceedings of the 13thEuropean Conference on Computer Vision,Zurich,Switzerland,Sep 6-12，2014Berlin，Heidelberg：Springer2014：584599【161 Razavian A S，Azizpour H，Sullivan J，et a1CNN featuresoff-theshelfan astounding baseline for recognitionJOL

展开阅读全文