Pyramid Scene Parsing Network


原文链接:Pyramid Scene Parsing Network (2017)

重要观察结论

错配的关系:“上下文关系”很重要,比如河里seldom有车,飞机一般在runway或天上等。缺少收集上下文信息等能力会提高错分类的可能

易混淆的类别:比如田野和泥土,山和丘陵,墙、房屋、建筑和摩天大楼等,我们应该避免一个东西被同时标记为相似类别中的两类的情况。可以通过利用两类别的关系实现

不明显的类别:比如路灯、指示牌等往往较小而易被忽略,而大的物品却容易充斥感受野而造成问题。如当枕头和床的appearance相似时,可能被整体标记为床而忽视掉枕头

总结,许多错误部分或完全与上下文关系和对不同感受野的整体信息有关。所以引入合适的global-scene-level prior(长官?)可以达到很好的改进

Pyramid Pooling Module

PSP

pyrimid的level和大小可以modify

网络的结构

见上图,其中CNN为dilated ResNet