,

Rlaif: Scaling reinforcement learning from human feedback with ai feedback

H. Lee, S. Phatale, H. Mansoor, K. Lu, T. Mesnard, C. Bishop, V. Carbune, и A. Rastogi.
arXiv preprint arXiv:2309.00267, (2023)

Метаданные

ключ BibTeX: lee2023rlaif
тип записи: article
год: 2023
журнал: arXiv preprint arXiv:2309.00267

тэги

rlaif

Пользователи данного ресурса

Комментарии и рецензиипоказать / перейти в невидимый режим

Пожалуйста, войдите в систему, чтобы принять участие в дискуссии (добавить собственные рецензию, или комментарий)

Цитировать эту публикацию

искать в

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter