当前位置: 监察器 >> 监察器介绍 >> CVPR视频Transfor
机器之心专栏
机器之心编辑部
复旦大学、微软Cloud+AI的研究者将视频表征学习解耦为空间信息表征学习和时间动态信息表征学习,提出了首个视频Transformer的BERT预训练方法BEVT。该研究已被CVPR接收。在自然语言处理领域,采用掩码预测方式的BERT预训练助力Transformer在各项任务上取得了巨大成功。近期,因为Transformer在图像识别、物体检测、语义分割等多个计算机视觉任务上取得的显著进展,研究人员尝试将掩码预测预训练引入到图像领域,通过预测被掩码图像块的离散视觉token或像素值实现图像表征学习。然而,目前还鲜有研究探索视频Transformer的BERT预训练方法。不同于静态图像,除了空间先验信息,视频中包含着运动、物体间交互等丰富的动态信息,因此相比于图像表示学习,视频表征学习更为复杂、困难。现有的视频Transformer往往依赖大规模静态图像数据(如ImageNet)上预训练的权重,并没有考虑在视频数据集上通过自监督方法学习时间动态信息。为了在下游视频理解任务上取得良好的性能,视频Transformer需要同时学习空间先验信息和时间动态信息。基于上述观点,来自复旦大学、微软Cloud+AI的研究者将视频表征学习解耦为空间信息表征学习和时间动态信息表征学习,提出了首个视频Transformer的BERT预训练方法BEVT。BEVT是由图像通路和视频通路组成的双路联合自监督预训练框架。图像通路通过预测被掩码图像块的离散视觉token来学习空间建模,视频通路通过预测被掩码三维视频通道的离散视觉token来学习时间建模,而通过模型参数共享实现的双路联合预训练则使得视频Transformer模型能够高效地同时学习到上述两种能力。经过ImageNet-1K和Kinetics-上的图像-视频联合自监督预训练后,使用VideoSwin-Base主干的BEVT在迁移到多种视频理解下游任务上时都取得了优于全监督预训练、对比学习预训练和单流预训练的结果;其中在Something-Something-v2和Diving48上分别取得了71.4%和87.2%的Top-1准确率,优于许多先进的视频Transformer模型。