Autor der Publikation

Conditional Language Policy: A General Framework For Steerable Multi-Objective Finetuning.

, , , , , , , , , , , , , , , , , , , und . EMNLP (Findings), Seite 2153-2186. Association for Computational Linguistics, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

FASt global convergence of gradient methods for solving regularized M-estimation., , und . SSP, Seite 409-412. IEEE, (2012)Leveraging User-Triggered Supervision in Contextual Bandits., , und . CoRR, (2023)Provably Filtering Exogenous Distractors using Multistep Inverse Dynamics., , , , und . ICLR, OpenReview.net, (2022)Stochastic Gradient Succeeds for Bandits., , , , , und . ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 24325-24360. PMLR, (2023)Stochastic optimization and sparse statistical recovery: Optimal algorithms for high dimensions., , und . NIPS, Seite 1547-1555. (2012)Model-Based Reinforcement Learning with a Generative Model is Minimax Optimal., , und . COLT, Volume 125 von Proceedings of Machine Learning Research, Seite 67-83. PMLR, (2020)The Non-linear F-Design and Applications to Interactive Learning., , , und . ICML, OpenReview.net, (2024)Stochastic optimization and sparse statistical recovery: An optimal algorithm for high dimensions., , und . CISS, Seite 1-2. IEEE, (2014)Noisy matrix decomposition via convex relaxation: Optimal rates in high dimensions., , und . ICML, Seite 1129-1136. Omnipress, (2011)Metareasoning in Modular Software Systems: On-the-Fly Configuration Using Reinforcement Learning with Rich Contextual Representations., , , , , , und . AAAI, Seite 5207-5215. AAAI Press, (2020)