作者:谢江涛

近日,引人瞩目的国际计算机视觉与模式识别大会CVPR 2018在美国盐湖城落下帷幕. 在为期5天的会议中, 除了有精彩的口头报告、墙报张贴以及企业展示之外,还有对极具挑战性的竞赛的宣讲和总结. 在大会开幕式的特别环节中,四个具有代表性的竞赛组委会被邀请上台进行宣讲. 其中精细粒度分类workshop FGVC5的旗舰挑战赛iNaturalist Challenge 2018 (iNat-2018)是该环节的重头戏之一,该竞赛由谷歌公司、 加州理工和康奈尔大学共同组织,并得到微软公司赞助. 在iNat-2018竞赛中,大连理工大学信息与通信工程学 院李培华教授所指导的团队DLUT_VLG取得第1名(159),在识别率上分别高出第2名Deep Learning Analytics 公司和第3名Baidu VIS团队1.1%和1.8%.

尽管基于深度学习的视觉识别取得了很大进展,大规模物种识别问题仍然是一个巨大的挑战. 在微软公司启动的智慧地球项目中,为了有效地保护生物多样性, 关键任务之一是能够从数字图像中自动识别自然界中种类繁多的动物、植物和菌类等. 谷歌公司也与加州理工和康奈尔大学合作,提出视觉维基百科项目,致力于精细粒度种类识别问题. 正是在这样的背景下,谷歌公司和微软公司联合推出了iNat-2018,旨在解决基于视觉的大规模物种识别这一难题. 相对于粗粒度、仅包含1000类、类别样本均衡的ImageNet竞赛, iNat-2018具有显著不同:(1) 属于精细粒度分类问题─类别之间差异细微;(2) 类别数规模更大─类别数是ImageNet竞赛的8倍多, 超过8000类物种;(3) 不同类别样本分布极不均衡,呈现长尾分布─每类最多有1000张样本图像、最少却仅有2张样本图像; 上述这些因素使iNat-2018竞赛更具有挑战性.

本次竞赛冠军DLUT_VLG所使用核心技术方案, 是基于该团队所研发的矩阵幂正规化协方差聚合(MPN-COV)卷积网络网络模型及快速训练算法. MPN-COV模型的新颖之处在于在网络中引入了二阶统计信息作为图像表征,与经典方法在学习过程中仅仅挖掘一阶统计信息具有显著不同, 能够学习到分辨能力更强的视觉特征. 通过引入全局协方差聚合和矩阵幂正规化技术, MPN-COV模型在性能上显著优于经典的卷积网络,而且收敛速度更快,相关工作发表在ICCV 2017 和CVPR 2018上. 除了全局协方差聚合之外,该课题组也深入研究了全局高斯聚合卷积网络,解决了高斯流形嵌入和端到端学习问题, 研究成果发表于CVPR 2017 (oral)和TPAMI 2017.