Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin: End-to-End Referring Video Object Segmentation with Multimodal Transformers. CVPR 2022: 4975-4985