Autor der Publikation

A General Theoretical Paradigm to Understand Learning from Human Preferences.

, , , , , , und . AISTATS, Volume 238 von Proceedings of Machine Learning Research, Seite 4447-4455. PMLR, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning., , , , , und . ICLR (Poster), OpenReview.net, (2018)Noisy Networks For Exploration., , , , , , , , , und 3 andere Autor(en). ICLR (Poster), OpenReview.net, (2018)Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity., , , , , , , und . NeurIPS, Seite 10587-10599. (2021)On the Sample Complexity of Reinforcement Learning with a Generative Model ., , und . ICML, icml.cc / Omnipress, (2012)A General Theoretical Paradigm to Understand Learning from Human Preferences., , , , , , und . CoRR, (2023)The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning, , , , , und . ICLR, (2017)cite arxiv:1704.04651.Convex Relaxation Regression: Black-Box Optimization of Smooth Functions by Learning Their Convex Envelopes., , und . UAI, AUAI Press, (2016)Rainbow: Combining Improvements in Deep Reinforcement Learning., , , , , , , , , und . AAAI, Seite 3215-3222. AAAI Press, (2018)Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice., , , , , , , , , und 5 andere Autor(en). ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 17135-17175. PMLR, (2023)Averaging log-likelihoods in direct alignment., , , , , , , , , und 1 andere Autor(en). CoRR, (2024)