Yuhui Wang, Hao He, Xiaoyang Tan, Yaozhong Gan: Trust Region-Guided Proximal Policy Optimization. NeurIPS 2019: 624-634