原文链接：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (2015)

Introduction

一般的CNN需要固定大小输入，which sometimes需要crop或warp（拉伸），which可能会损失一些信息或者造成不必要的误差。考察原因，是由于FC层需要固定大小的输入，于是本文提出在FC层前加入SPP层，从而使不同大小的输入都可以生成一个相同大小的输出作为FC层的输入。（有一些像将crop或warp推迟到FC层前面做的样子）

SPP层

与Bag-of-Words方法类似

相当于一个金字塔，连续做三次pooling，后两次为2x2pooling，最后每一个map得到一个数，而第一个pooling的大小和输入成正比，目的在于使其输出一个4x4的output map，然后将三次pooling的结果分别展开成vecter，依次连接在一起，作为后续FC层的输入

SIFT vector 有被提到，是什么？？

相当于对于不同大小的输入，网络会截取不同大小（scale）的featrue作为判别依据，而scales在准确率上也有很大的影响

最后一个pooling相当于一个global pooling操作，而该操作在其他文章中也有很多不同的应用