Autor der Publikation

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

A General Theoretical Paradigm to Understand Learning from Human Preferences.

M. Azar, Z. Guo, B. Piot, R. Munos, M. Rowland, M. Valko, und D. Calandriello. AISTATS, Volume 238 von Proceedings of Machine Learning Research, Seite 4447-4455. PMLR, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

Azar Djalali

Kamal Azar

Azar Ahanchi

Azar Nithammer

Azar Shahidizenouz

Weitere Publikationen von Autoren mit dem selben Namen

The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning.A. Gruslys, W. Dabney, M. Azar, B. Piot, M. Bellemare, und R. Munos. ICLR (Poster), OpenReview.net, (2018)Noisy Networks For Exploration.M. Fortunato, M. Azar, B. Piot, J. Menick, M. Hessel, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis und 3 andere Autor(en). ICLR (Poster), OpenReview.net, (2018)Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity.R. Liu, M. Azabou, M. Dabagia, C. Lin, M. Azar, K. Hengen, M. Valko, und E. Dyer. NeurIPS, Seite 10587-10599. (2021)On the Sample Complexity of Reinforcement Learning with a Generative Model .M. Azar, R. Munos, und B. Kappen. ICML, icml.cc / Omnipress, (2012)A General Theoretical Paradigm to Understand Learning from Human Preferences.M. Azar, M. Rowland, B. Piot, D. Guo, D. Calandriello, M. Valko, und R. Munos. CoRR, (2023)The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement LearningA. Gruslys, W. Dabney, M. Azar, B. Piot, M. Bellemare, und R. Munos. ICLR, (2017)cite arxiv:1704.04651.Convex Relaxation Regression: Black-Box Optimization of Smooth Functions by Learning Their Convex Envelopes.M. Azar, E. Dyer, und K. Körding. UAI, AUAI Press, (2016)Rainbow: Combining Improvements in Deep Reinforcement Learning.M. Hessel, J. Modayil, H. van Hasselt, T. Schaul, G. Ostrovski, W. Dabney, D. Horgan, B. Piot, M. Azar, und D. Silver. AAAI, Seite 3215-3222. AAAI Press, (2018)Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice.T. Kitamura, T. Kozuno, Y. Tang, N. Vieillard, M. Valko, W. Yang, J. Mei, P. Ménard, M. Azar, R. Munos und 5 andere Autor(en). ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 17135-17175. PMLR, (2023)Averaging log-likelihoods in direct alignment.N. Grinsztajn, Y. Flet-Berliac, M. Azar, F. Strub, B. Wu, E. Choi, C. Cremer, A. Ahmadian, Y. Chandak, O. Pietquin und 1 andere Autor(en). CoRR, (2024)

BibSonomy

Disambiguierung von "Azar, Mohammad Gheshlaghi"

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

A General Theoretical Paradigm to Understand Learning from Human Preferences.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Azar Djalali

Kamal Azar

Azar Ahanchi

Azar Nithammer

Azar Shahidizenouz

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

BibSonomy

Disambiguierung von "Azar, Mohammad Gheshlaghi"

KopierenLöschenDiese Publikation zur Ablage hinzufügenCommunity-EintragVersionsverlauf dieses EintragsURLDOIBibTeXEndNoteAPAChicagoDIN 1505HarvardMSOffice XML A General Theoretical Paradigm to Understand Learning from Human Preferences.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Azar Djalali

Kamal Azar

Azar Ahanchi

Azar Nithammer

Azar Shahidizenouz

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

A General Theoretical Paradigm to Understand Learning from Human Preferences.