,

Learning Adversarial Markov Decision Processes with Bandit Feedback and Unknown Transition.

, , , , и .
ICML, том 119 из Proceedings of Machine Learning Research, стр. 4860-4869. PMLR, (2020)

Метаданные

тэги

Пользователи данного ресурса

  • @dblp

Комментарии и рецензии