From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training.

X. Feng, Z. Wan, M. Wen, Y. Wen, W. Zhang, и J. Wang. CoRR, (2023)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Ming Wen

Wen Peng

Naiyen Wen

Wen Cao

Wen Wang

Другие публикации лиц с тем же именем

TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision.R. Zhou, Y. Yang, M. Wen, Y. Wen, W. Wang, C. Xi, G. Xu, Y. Yu, и W. Zhang. CoRR, (2024)Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning.J. Kuba, R. Chen, M. Wen, Y. Wen, F. Sun, J. Wang, и Y. Yang. CoRR, (2021)MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning.M. Zhou, Z. Wan, H. Wang, M. Wen, R. Wu, Y. Wen, Y. Yang, Y. Yu, J. Wang, и W. Zhang. J. Mach. Learn. Res., (2023)Offline Pre-trained Multi-agent Decision Transformer.L. Meng, M. Wen, C. Le, X. Li, D. Xing, W. Zhang, Y. Wen, H. Zhang, J. Wang, Y. Yang и 1 other автор(ы). Mach. Intell. Res., 20 (2): 233-248 (апреля 2023)Large sequence models for sequential decision-making: a survey.M. Wen, R. Lin, H. Wang, Y. Yang, Y. Wen, L. Mai, J. Wang, H. Zhang, и W. Zhang. Frontiers Comput. Sci., 17 (6): 176349 (декабря 2023)Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks.L. Meng, M. Wen, Y. Yang, C. Le, X. Li, W. Zhang, Y. Wen, H. Zhang, J. Wang, и B. Xu. CoRR, (2021)MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning.M. Zhou, Z. Wan, H. Wang, M. Wen, R. Wu, Y. Wen, Y. Yang, W. Zhang, и J. Wang. CoRR, (2021)Multi-Agent Reinforcement Learning is a Sequence Modeling Problem.M. Wen, J. Kuba, R. Lin, W. Zhang, Y. Wen, J. Wang, и Y. Yang. CoRR, (2022)Entropy-Regularized Token-Level Policy Optimization for Large Language Models.M. Wen, C. Deng, J. Wang, W. Zhang, и Y. Wen. CoRR, (2024)Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training.X. Feng, Z. Wan, M. Wen, Y. Wen, W. Zhang, и J. Wang. CoRR, (2023)

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter