Artikel in einem Konferenzbericht,

Delay-Adapted Policy Optimization and Improved Regret for Adversarial MDP with Delayed Bandit Feedback.

T. Lancewicki, A. Rosenberg, und D. Sotnikov.
ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 18482-18534. PMLR, (2023)

Metadaten

BibTeX-Schlüssel: conf/icml/Lancewicki0S23
Eintragstyp: inproceedings
Buchtitel: ICML
Jahr: 2023
Seiten: 18482-18534
Verlag: PMLR
Reihe: Proceedings of Machine Learning Research
Band: 202
BibTeX-Querverweis: conf/icml/2023
ee: https://proceedings.mlr.press/v202/lancewicki23a.html
URL: http://dblp.uni-trier.de/db/conf/icml/icml2023.html#Lancewicki0S23

Tags

dblp

Nutzer

Kommentare und Rezensionenanzeigen / verbergen

Bitte melden Sie sich an um selbst Rezensionen oder Kommentare zu erstellen.

Zitieren Sie diese Publikation

Suchen auf