Siyuan Wang, Zhuohan Long, Zhihao Fan, Xuanjing Huang, Zhongyu Wei: Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation. COLING 2025: 3310-3328