From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation.

A. Yan, Z. Yang, W. Zhu, K. Lin, L. Li, J. Wang, J. Yang, Y. Zhong, J. McAuley, J. Gao, Z. Liu, и L. Wang. CoRR, (2023)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Li Li

Li Li

Li Li

Li Li

Li Li

Другие публикации лиц с тем же именем

GIT: A Generative Image-to-text Transformer for Vision and Language.J. Wang, Z. Yang, X. Hu, L. Li, K. Lin, Z. Gan, Z. Liu, C. Liu, и L. Wang. Trans. Mach. Learn. Res., (2022)Multiple Z-Complementary Code Sets With Low Inter-Set Cross-Correlation.X. Men, Y. Li, Y. Zeng, и L. Li. IWSDA, стр. 1-5. IEEE, (2022)Meta Module Network for Compositional Visual Reasoning.W. Chen, Z. Gan, L. Li, Y. Cheng, W. Wang, и J. Liu. WACV, стр. 655-664. IEEE, (2021)Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation.Z. Yang, J. Wang, L. Li, K. Lin, C. Lin, Z. Liu, и L. Wang. CoRR, (2023)DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design.K. Lin, Z. Yang, L. Li, J. Wang, и L. Wang. CoRR, (2023)Extracting Human Face Similarity Judgments: Pairs or Triplets?L. Li, V. Malave, A. Song, и A. Yu. CogSci, cognitivesciencesociety.org, (2016)Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog.Z. Gan, Y. Cheng, A. Kholy, L. Li, J. Liu, и J. Gao. ACL (1), стр. 6463-6474. Association for Computational Linguistics, (2019)An Empirical Study of Multimodal Model Merging.Y. Sung, L. Li, K. Lin, Z. Gan, M. Bansal, и L. Wang. EMNLP (Findings), стр. 1563-1575. Association for Computational Linguistics, (2023)MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities.W. Yu, Z. Yang, L. Li, J. Wang, K. Lin, Z. Liu, X. Wang, и L. Wang. ICML, OpenReview.net, (2024)Generalized Decoding for Pixel, Image, and Language.X. Zou, Z. Dou, J. Yang, Z. Gan, L. Li, C. Li, X. Dai, H. Behl, J. Wang, L. Yuan и 4 other автор(ы). CoRR, (2022)

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter