文章:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
来源:Technicalreport
大意:通过图像金字塔来实现识别中的尺度无关性;
作者:Xiangyu Zhang, Shaoqing Ren, Jian Sun ,来自微软
主要内容:由于之前的大部分
而这篇文章中,提出了利用空间金字塔池化(spatial pyramid pooling 2.对可能的几个目标(显著性目标窗口,可能有几千个)的每一个都进行识别然后再选出最大值作为检测到的目标;利用这种网络,我们只需要计算完整图像的特征图(feature maps)一次,然后池化子窗口的特征,这样就产生了固定长度的表示,它可以用来训练检测器;
层池化特征并且产生固定大小的输出,它的输出然后再送到第一个全连接层。也就是说在卷积层和全连接层之前,,我们导入了一个新的层,它可以接受不同大小的输入但是产生相同大小的输出;这样就可以避免在网络的输入口处就要求它们大小相同,也就实现了文章所说的可以接受任意输入尺度;
文章说这种形式更符合我们的大脑,我们的大脑总不会是说先对输入我们视觉的图像进行切割或者归一化同一尺寸再进行识别,而是采用先输入任意大小的图像,然后再后期进行处理。
2.SPP
快了几十倍到一百多倍的速度;池化层(,它表示了响应的强度和位置信息;在利用SPP层替换最后一个卷积层后面的池化层中,
是根据不同的图像大小计算出来的),这样不同输入图像大小的输出就可以相同了。对于给定的输入图像大小,我们可以先计算出它所需要的空间bin块的多少,计算如下:比如一张连接起来作为第一个全连接层的输出;
版权声明:本文为博主原创文章,未经博主允许不得转载。
我想一个人旅行,可以不带相机,也不要带上手机,