Junyi Li, Yongqiang Chen, Ningning Ding: CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization. ACL (1) 2026: 3152-3170