Autor der Publikation

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Conditional Language Policy: A General Framework For Steerable Multi-Objective Finetuning.

K. Wang, R. Kidambi, R. Sullivan, A. Agarwal, C. Dann, A. Michi, M. Gelmi, Y. Li, R. Gupta, K. Dubey, A. Ramé, J. Ferret, G. Cideron, L. Hou, H. Yu, A. Ahmed, A. Mehta, L. Hussenot, O. Bachem, und E. Leurent. EMNLP (Findings), Seite 2153-2186. Association for Computational Linguistics, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

Alekh Agarwal

Alekh Jindal

Artem Alekhin

Suman Agarwal

Swarna Agarwal

Weitere Publikationen von Autoren mit dem selben Namen

FASt global convergence of gradient methods for solving regularized M-estimation.A. Agarwal, S. Negahban, und M. Wainwright. SSP, Seite 409-412. IEEE, (2012)Leveraging User-Triggered Supervision in Contextual Bandits.A. Agarwal, C. Gentile, und T. Marinov. CoRR, (2023)Provably Filtering Exogenous Distractors using Multistep Inverse Dynamics.Y. Efroni, D. Misra, A. Krishnamurthy, A. Agarwal, und J. Langford. ICLR, OpenReview.net, (2022)Stochastic Gradient Succeeds for Bandits.J. Mei, Z. Zhong, B. Dai, A. Agarwal, C. Szepesvári, und D. Schuurmans. ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 24325-24360. PMLR, (2023)Stochastic optimization and sparse statistical recovery: Optimal algorithms for high dimensions.A. Agarwal, S. Negahban, und M. Wainwright. NIPS, Seite 1547-1555. (2012)Model-Based Reinforcement Learning with a Generative Model is Minimax Optimal.A. Agarwal, S. Kakade, und L. Yang. COLT, Volume 125 von Proceedings of Machine Learning Research, Seite 67-83. PMLR, (2020)The Non-linear F-Design and Applications to Interactive Learning.A. Agarwal, J. Qian, A. Rakhlin, und T. Zhang. ICML, OpenReview.net, (2024)Stochastic optimization and sparse statistical recovery: An optimal algorithm for high dimensions.A. Agarwal, S. Negahban, und M. Wainwright. CISS, Seite 1-2. IEEE, (2014)Noisy matrix decomposition via convex relaxation: Optimal rates in high dimensions.A. Agarwal, S. Negahban, und M. Wainwright. ICML, Seite 1129-1136. Omnipress, (2011)Metareasoning in Modular Software Systems: On-the-Fly Configuration Using Reinforcement Learning with Rich Contextual Representations.A. Modi, D. Dey, A. Agarwal, A. Swaminathan, B. Nushi, S. Andrist, und E. Horvitz. AAAI, Seite 5207-5215. AAAI Press, (2020)

BibSonomy

Disambiguierung von "Agarwal, Alekh"

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Conditional Language Policy: A General Framework For Steerable Multi-Objective Finetuning.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Alekh Agarwal

Alekh Jindal

Artem Alekhin

Suman Agarwal

Swarna Agarwal

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

BibSonomy

Disambiguierung von "Agarwal, Alekh"

KopierenLöschenDiese Publikation zur Ablage hinzufügenCommunity-EintragVersionsverlauf dieses EintragsURLDOIBibTeXEndNoteAPAChicagoDIN 1505HarvardMSOffice XML Conditional Language Policy: A General Framework For Steerable Multi-Objective Finetuning.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Alekh Agarwal

Alekh Jindal

Artem Alekhin

Suman Agarwal

Swarna Agarwal

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Conditional Language Policy: A General Framework For Steerable Multi-Objective Finetuning.