Autor der Publikation

From Bandits to Monte-Carlo Tree Search: The Optimistic Principle Applied to Optimization and Planning

. Foundations and Trends® in Machine Learning, 7 (1): 1--129 (2014)
DOI: 10.1561/2200000038

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

World Discovery Models., , , , , und . CoRR, (2019)Minimax Regret Bounds for Reinforcement Learning., , und . ICML, Volume 70 von Proceedings of Machine Learning Research, Seite 263-272. PMLR, (2017)Fast LSTD Using Stochastic Approximation: Finite Time Analysis and Application to Traffic Control., , und . ECML/PKDD (2), Volume 8725 von Lecture Notes in Computer Science, Seite 66-81. Springer, (2014)Variable Resolution Discretization for High-Accuracy Solutions of Optimal Control Problems., und . IJCAI, Seite 1348-1355. Morgan Kaufmann, (1999)Sample Efficient Actor-Critic with Experience Replay., , , , , , und . ICLR (Poster), OpenReview.net, (2017)Combining policy gradient and Q-learning., , , und . ICLR (Poster), OpenReview.net, (2017)Geometric Variance Reduction in Markov Chains: Application to Value Function and Gradient Estimation.. J. Mach. Learn. Res., (2006)Sensitivity Analysis Using Ito-circumflex--Malliavin Calculus and Martingales, and Application to Stochastic Optimal Control., und . SIAM J. Control and Optimization, 43 (5): 1676-1713 (2005)The Uncertainty Bellman Equation and Exploration., , , und . CoRR, (2017)PGQ: Combining policy gradient and Q-learning., , , und . CoRR, (2016)