Zihang Lin, Chaolei Tan, Jian-Fang Hu, Zhi Jin, Tiancai Ye, Wei-Shi Zheng: Collaborative Static and Dynamic Vision-Language Streams for Spatio-Temporal Video Grounding. CVPR 2023: 23100-23109