,

Rlaif: Scaling reinforcement learning from human feedback with ai feedback

, , , , , , , и .
arXiv preprint arXiv:2309.00267, (2023)

Метаданные

тэги

Пользователи данного ресурса

  • @albinzehe

Комментарии и рецензии