The official implementation of the STHQ:
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题, 进行了深入的研究, 提出了基于时空层级查询的指代视频目标分割方法 (STHQ). 本文将指代视频目标分割看作基于查询的序列预测问题, 并提出两级查询机制来进行目标的时空一致性建模和时空特征学习. 在第一阶段, 本文提出了帧级空间信息提取模块, 该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互, 生成包含目标空间信息的实例嵌入; 在第二阶段,本文提出时空信息聚合模块, 该模块使用视频级的可学习查询嵌入和第一阶段生成的实例嵌入在时空维度进行信息交互, 生成具有时空表征信息的视频级实例嵌入; 最后, 视频级实例嵌入线性变换为条件卷积参数, 并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列. 在该领域的三个基准数据集上的实验结果表明, 本文提出的STHQ方法超越了现有的方法实现了最佳的性能.
We test the codes in the following environments, other versions may also be compatible:
- CUDA 11.1
- Python 3.7
- Pytorch 1.8.1
Please refer to install.md for installation.
Please refer to data.md for data preparation.
You can download the pretrained weights and the trained weights from model zoo
Please see Ref-YTVOS.md, Ref-DAVIS17.md, A2D-Sentences.md and JHMDB-Sentences.md for details.
This repo is based on ReferFormer. Thanks for the wonderful work.