Autor der Publikation

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Constrained Update Projection Approach to Safe Policy Optimization.

L. Yang, J. Ji, J. Dai, L. Zhang, B. Zhou, P. Li, Y. Yang, und G. Pan. NeurIPS, (2022)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

Jiaming Song

Hui Ji

Ji Vymer

Ji Haas

Guangju Ji

Weitere Publikationen von Autoren mit dem selben Namen

AI Alignment: A Comprehensive Survey.J. Ji, T. Qiu, B. Chen, B. Zhang, H. Lou, K. Wang, Y. Duan, Z. He, J. Zhou, Z. Zhang und 15 andere Autor(en). CoRR, (2023)PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models.J. Ji, D. Hong, B. Zhang, B. Chen, J. Dai, B. Zheng, T. Qiu, B. Li, und Y. Yang. CoRR, (2024)SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset.J. Dai, T. Chen, X. Wang, Z. Yang, T. Chen, J. Ji, und Y. Yang. CoRR, (2024)CUP: A Conservative Update Policy Algorithm for Safe Reinforcement Learning.L. Yang, J. Ji, J. Dai, Y. Zhang, P. Li, und G. Pan. CoRR, (2022)Constrained Update Projection Approach to Safe Policy Optimization.L. Yang, J. Ji, J. Dai, L. Zhang, B. Zhou, P. Li, Y. Yang, und G. Pan. NeurIPS, (2022)Language Models Resist Alignment.J. Ji, K. Wang, T. Qiu, B. Chen, J. Zhou, C. Li, H. Lou, und Y. Yang. CoRR, (2024)MyoChallenge 2022: Learning contact-rich manipulation using a musculoskeletal hand.V. Caggiano, G. Durandau, H. Wang, A. Chiappa, A. Mathis, P. Tano, N. Patel, A. Pouget, P. Schumacher, G. Martius und 19 andere Autor(en). NeurIPS (Competition and Demos), Volume 220 von Proceedings of Machine Learning Research, Seite 233-250. PMLR, (2021)ProgressGym: Alignment with a Millennium of Moral Progress.T. Qiu, Y. Zhang, X. Huang, J. Li, J. Ji, und Y. Yang. CoRR, (2024)Safe RLHF: Safe Reinforcement Learning from Human Feedback.J. Dai, X. Pan, R. Sun, J. Ji, X. Xu, M. Liu, Y. Wang, und Y. Yang. ICLR, OpenReview.net, (2024)BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset.J. Ji, M. Liu, J. Dai, X. Pan, C. Zhang, C. Bian, B. Chen, R. Sun, Y. Wang, und Y. Yang. NeurIPS, (2023)

BibSonomy

Disambiguierung von "Ji, Jiaming"

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Constrained Update Projection Approach to Safe Policy Optimization.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Jiaming Song

Hui Ji

Ji Vymer

Ji Haas

Guangju Ji

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

BibSonomy

Disambiguierung von "Ji, Jiaming"

KopierenLöschenDiese Publikation zur Ablage hinzufügenCommunity-EintragVersionsverlauf dieses EintragsURLDOIBibTeXEndNoteAPAChicagoDIN 1505HarvardMSOffice XML Constrained Update Projection Approach to Safe Policy Optimization.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Jiaming Song

Hui Ji

Ji Vymer

Ji Haas

Guangju Ji

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Constrained Update Projection Approach to Safe Policy Optimization.