原文链接:Deep Residual Learning for Image Recognition (2015) 每个block至少两层,因为一层的话整个block基本上就是一个linear层,没有观察到很大的好处。 进一步的探究:Identity Mapping in Deep Residual Networks (2016)