被誉为计算机视觉领域 “奥斯卡” 的 CVPR 刚刚落下帷幕,2021 年首届 “新内容 新交互” 全球视频云创新挑战赛正火热进行中,这两场大赛都不约而同地将关注点放在了视频方向肢解领域,本文将详细分享来自阿里达摩院的团队在 CVPR DAVIS 视频方向肢解较量夺冠背后的技巧经验,为本届大赛参赛选手提供 “他山之石”。
作者|负天
与图像识别不同,AI 分析理解视频的技巧门槛较高。长期以来,业界在视频 AI 技巧的研究上鲜有重大突破。以 CVPR 会议难度最高的较量之一 DAVIS( Densely Annotated Video Segmentation)为例,该较量需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮拦等信息,过去几年,全球顶级科技在该较量中的成绩从未突破 80 分,而达摩院的模型终究在 test-challenge 上取得了 84.1 的成绩。
DAVIS 的数据集经过精心挑选和标注,视频肢解中比较难的点都有体现,比如:快速运动、遮拦、消失与重现、形变等。DAVIS 的数据分为 train(60 个视频序列), val(30 个视频序列),test-dev(30 个视频序列),test-challenge(30 个视频序列)。其中 train 和 val 是可以下载的,且提供了每一帧的标注信息。对于半监督任务, test-dev 和 test-challenge,每一帧的 RGB 图片可以下载,且第一帧的标注信息也提供了。算法需要根据第一帧的标注 mask,来对后续帧进行肢解。肢解本身是 instance 级别的。
阿里达摩院:像素级视频肢解
阿里达摩院提供了一种全新的空间自在方法,打破了传统 STM 方法缺乏时序性的瓶颈,可以让系统基于视频前一帧的画面猜测方向物体下一帧的位置;此外,阿里还引入了语义肢解中的精细化肢解微调模块,大幅提高了肢解的精细程度。终究,精准识别动态方向的轮廓边界,并且与背景进行分离,实现像素级方向肢解。
基本框架
达摩院的算法基于 2019 年 CVPR 的 STM 做了进一步改进。STM 的主要思想在于,对于历史帧,每一帧都编码为 key-value 形式的 feature。猜测目前帧的时候,以目前帧的 key 去和历史帧的 key 做婚配。婚配的方式是 non-local 的。这种 non-local 的婚配,可以看做将目前 key,每个坐标上的 C 维特色,和历史每一帧在这个坐标上的 C 维特色做婚配。婚配得到的结果,作为一个 soft 的 index,去读取历史 value 的信息。读取的特色和目前帧的 value 拼接起来,用于后续的猜测。
三大技巧创新
1. 空间自在
STM 的特色婚配方式,提供了一种空间上的长依赖, 类似于 Transformer 中,通过 self-attention 来做序列关联。这种机制,能够很好地处理物体运动、外观变化、遮拦等。但也有一个问题,就是缺乏时序性,缺少短时依赖。当某一帧突然出现和方向相似的物体时,容易产生误召回。在视频场景中,很多情况下,目前帧临近的几帧,对目前帧的影响要大于更早的帧。基于这一点,达摩院提出依靠前一帧结果,计算 attention 来自在目前帧方向猜测的位置,相当于对短期依赖的建模。
具体的方法如下图所示:
1. 目前帧的特色和前一帧的猜测 mask 在 channel 维度上做 concat,得到 HxWx (c+1) 的特色;
2. 通过卷积将特色压缩为 HxW;
3. 用 sigmoid 函数将 HxW 的特色,压缩范围,作为空间 attention;
4. 把 attention 乘到原特色上,作为空间自在。
下图为空间 attention 的可视化结果,可以看到大致对应了前景的位置。
2. 增强 decoder
达摩院引入了语义肢解中的感受野增强技巧 ASPP 和精细化肢解的微调(refinement)模块。ASPP 作用于 memory 读取后的特色,用于融合不同感受野的信息,提升对不同标准物体的处理能力。
3. 训练策略
达摩院提出了一个简单但是有效的训练策略,减少了训练阶段和尝试阶段存在的差异,提升了终究效果。
原始 STM 训练时,会随机从视频中采样 3 帧。这三帧之间的跳帧间隔,随着训练逐渐增大,目的是增强模型鲁棒性。但达摩院发现,这样会导致训练时和尝试时不一致,因为尝试时,是逐帧处理的。为此,在训练的最后阶段,达摩院将跳帧间隔重新减小,以保证和尝试时一致。
其他
backbone: 达摩院使用了 ResNeST 这个比较新的 backbone,它可以无痛替换掉原 STM 的 resnet。在结果上有比较明显提升。
尝试策略: 达摩院使用了多标准尝试和 model ensemble。不同标准和不同 model 的结果,在终究猜测的 map 上,做了简单的等权重平均。
显存优化: 达摩院做了一些显存优化方面的工作,使得 STM 在多方向模式下,可以支持大标准的训练、尝试,以及支持较大的 memory 容量。
数据: 训练数据上,达摩院使用了 DAVIS、Youtube-VOS,以及 STM 原文用到的静态图像数据库。没有其他数据。
结果
达摩院的模型,终究在 test-challenge 上取得了 84.1 的成绩。
在 test-dev 上的消融实验。达摩院复现的 STM 达到了和原文一致的结果。在各种 trick 的加持下, 得到了 11 个点的提升。
随着互联网技巧、5G 技巧等的发展,短视频、视频会议、直播的场景越来越多,视频肢解技巧也将成为不可或缺的一环。比如,在视频会议中,视频肢解可以精确区分前背景,从而对背景进行虚化或替换;**在直播中,用户只需要站在绿幕前,算法就实时替换背景,实现一秒钟换新直播间**;在视频编辑领域,可以辅助进行后期制作。
参考
1. Oh SW, Lee JY, Xu N, Kim SJ. Video object segmentation using space-time memory networks. InProceedings of the IEEE International Conference on Computer Vision 2019
1. Wang X, Girshick R, Gupta A, He K. Non-local neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition 2018