Jiaming Ji (吉嘉铭)

Cited by

	All	Since 2019
Citations	733	732
h-index	11	11
i10-index	11	11

580

290

145

435

2022202320244 158 569

Public access

View all

5 articles

0 articles

available

not available

Based on funding mandates

Co-authors

Yaodong YangBOYA (博雅) Assistant Professor at Peking UniversityVerified email at pku.edu.cn
Xuehai PanPeking UniversityVerified email at pku.edu.cn
Boyuan ChenPeking UniversityVerified email at stu.pku.edu.cn
Tianyi (Alex) QiuPeking UniversityVerified email at stu.pku.edu.cn
Hantao LouPeking UniversityVerified email at stu.pku.edu.cn
Yiran GengTuring Class, Peking UniversityVerified email at stu.pku.edu.cn
Yuanpei ChenSouth China University of TechnologyVerified email at stanford.edu

Jiaming Ji (吉嘉铭)

Peking University

Verified email at stu.pku.edu.cn - Homepage

AI Alignment Reinforcement Learning Large Language Model


Title Sort by citations Sort by year Sort by title	Cited by Cited by	Year
Baichuan 2: Open large-scale language models A Yang, B Xiao, B Wang, B Zhang, C Bian, C Yin, C Lv, D Pan, D Wang, ... arXiv preprint arXiv:2309.10305, 2023	254*	2023
Beavertails: Towards improved safety alignment of llm via a human-preference dataset J Ji, M Liu, J Dai, X Pan, C Zhang, C Bian, R Sun, Y Wang, Y Yang NeurIPS 2023, 2023	122	2023
Ai alignment: A comprehensive survey J Ji, T Qiu, B Chen, B Zhang, H Lou, K Wang, Y Duan, Z He, J Zhou, ... arXiv preprint arXiv:2310.19852, 2023	92	2023
Safe rlhf: Safe reinforcement learning from human feedback J Dai, X Pan, R Sun, J Ji, X Xu, M Liu, Y Wang, Y Yang ICLR 2024 Spotlight, 2023	80	2023
Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark J Ji, B Zhang, J Zhou, X Pan, W Huang, R Sun, Y Geng, Y Zhong, J Dai, ... NeurIPS 2023, 2023	35*	2023
Constrained update projection approach to safe policy optimization L Yang, J Ji, J Dai, L Zhang, B Zhou, P Li, Y Yang, G Pan NeurIPS 2022, 2022	33	2022
Omnisafe: An infrastructure for accelerating safe reinforcement learning research J Ji, J Zhou, B Zhang, J Dai, X Pan, R Sun, W Huang, Y Geng, M Liu, ... arXiv preprint arXiv:2305.09304, 2023	22	2023
Aligner: Achieving efficient alignment through weak-to-strong correction J Ji, B Chen, H Lou, D Hong, B Zhang, X Pan, J Dai, Y Yang arXiv preprint arXiv:2402.02416, 2024	21	2024
Cup: A conservative update policy algorithm for safe reinforcement learning L Yang, J Ji, J Dai, Y Zhang, P Li, G Pan arXiv preprint arXiv:2202.07565, 2022	15	2022
Heterogeneous-Agent Reinforcement Learning Y Zhong, JG Kuba, S Hu, J Ji, Y Yang JMLR, 2023	12	2023
Pku-beaver: Constrained value-aligned llm via safe rlhf J Dai, X Pan, J Ji, R Sun, Y Wang, Y Yang	12	2023
Augmented proximal policy optimization for safe reinforcement learning J Dai, J Ji, L Yang, Q Zheng, G Pan Proceedings of the AAAI Conference on Artificial Intelligence 37 (6), 7288-7295, 2023	9	2023
SafeDreamer: Safe Reinforcement Learning with World Models W Huang, J Ji, B Zhang, C Xia, Y Yang ICLR 2024, 2023	8	2023
Bi-dexhands: Towards human-level bimanual dexterous manipulation Y Chen, Y Geng, F Zhong, J Ji, J Jiang, Z Lu, H Dong, Y Yang IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023	6	2023
VOCE: Variational Optimization with Conservative Estimation for Offline Safe Reinforcement Learning J Guan, G Chen, J Ji, L Yang, A Zhou, Z Li NeurIPS 2023, 2023	6	2023
Rethinking information structures in rlhf: Reward generalization from a graph theory perspective T Qiu, F Zeng, J Ji, D Yan, K Wang, J Zhou, H Yang, J Dai, X Pan, Y Yang arXiv preprint arXiv:2402.10184, 2024	4	2024
MyoChallenge 2022: Learning contact-rich manipulation using a musculoskeletal hand V Caggiano, G Durandau, H Wang, A Chiappa, A Mathis, P Tano, N Patel, ... NeurIPS 2022 Competition Track, 233-250, 2023	2	2023
ProgressGym: Alignment with a Millennium of Moral Progress T Qiu, Y Zhang, X Huang, JX Li, J Ji, Y Yang arXiv preprint arXiv:2406.20087, 2024		2024
PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models J Ji, D Hong, B Zhang, B Chen, J Dai, B Zheng, T Qiu, B Li, Y Yang arXiv preprint arXiv:2406.15513, 2024		2024
SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset J Dai, T Chen, X Wang, Z Yang, T Chen, J Ji, Y Yang arXiv preprint arXiv:2406.14477, 2024		2024

The system can't perform the operation now. Try again later.

Articles 1–20

Citations per year

Duplicate citations

Merged citations

Add co-authorsCo-authors

Follow

Cited by

Co-authors