Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition


原文链接:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (2015)

Introduction

一般的CNN需要固定大小输入,which sometimes需要crop或warp(拉伸),which可能会损失一些信息或者造成不必要的误差。 考察原因,是由于FC层需要固定大小的输入,于是本文提出在FC层前加入SPP层,从而使不同大小的输入都可以生成一个相同大小的输出作为FC层的输入。(有一些像将crop或warp推迟到FC层前面做的样子)

SPP层

Bag-of-Words方法类似

相当于一个金字塔,连续做三次pooling,后两次为2x2pooling,最后每一个map得到一个数,而第一个pooling的大小和输入成正比,目的在于使其输出一个4x4的output map,然后将三次pooling的结果分别展开成vecter,依次连接在一起,作为后续FC层的输入

SIFT vector 有被提到,是什么??

相当于对于不同大小的输入,网络会截取不同大小(scale)的featrue作为判别依据,而scales在准确率上也有很大的影响

最后一个pooling相当于一个global pooling操作,而该操作在其他文章中也有很多不同的应用