Article,

Secrets of RLHF in Large Language Models Part II: Reward Modeling.

B. Wang, R. Zheng, L. Chen, Y. Liu, S. Dou, C. Huang, W. Shen, S. Jin, E. Zhou, C. Shi, S. Gao, N. Xu, Y. Zhou, X. Fan, Z. Xi, J. Zhao, X. Wang, T. Ji, H. Yan, L. Shen, Z. Chen, T. Gui, Q. Zhang, X. Qiu, X. Huang, Z. Wu, and Y. Jiang.
CoRR, (2024)

Meta data

BibTeX key: journals/corr/abs-2401-06080
entry type: article
year: 2024
journal: CoRR
volume: abs/2401.06080
ee: https://doi.org/10.48550/arXiv.2401.06080
url: http://dblp.uni-trier.de/db/journals/corr/corr2401.html#abs-2401-06080

Tags

dblp

Users

Comments and Reviewsshow / hide

Please log in to take part in the discussion (add own reviews or comments).

Cite this publication

search on