From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models.

G. Sun, W. Yu, C. Tang, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, Y. Wang, и C. Zhang. ICML, OpenReview.net, (2024)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Wenyi Zhang

Wenyi Gao

Yu-Ting Yu

Yu-Yu Su

Sze-Man Yu

Metal complexes with enolatoimine ligands for controlled olefin polymerizationsS. Yu. Uni Konstanz, (2009)

Другие публикации лиц с тем же именем

SALMONN: Towards Generic Hearing Abilities for Large Language Models.C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, и C. Zhang. CoRR, (2023)Connecting Speech Encoder and Large Language Model for ASR.W. Yu, C. Tang, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, и C. Zhang. CoRR, (2023)Connecting Speech Encoder and Large Language Model for ASR.W. Yu, C. Tang, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, и C. Zhang. ICASSP, стр. 12637-12641. IEEE, (2024)M³AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset.Z. Chen, H. Liu, W. Yu, G. Sun, H. Liu, J. Wu, C. Zhang, Y. Wang, и Y. Wang. ACL (1), стр. 9041-9060. Association for Computational Linguistics, (2024)A method of band selection of remote sensing image based on clustering and intra-class index.Y. Yan, W. Yu, и L. Zhang. Multim. Tools Appl., 81 (16): 22111-22128 (2022)HMDN: Hierarchical Multi-Distribution Network for Click-Through Rate Prediction.X. Lou, Y. Yang, K. Dong, H. Huang, W. Yu, P. Wang, X. Li, и J. Wang. CoRR, (2024)T2T-YAO: A Telomere-to-Telomere Assembled Diploid Reference Genome for Han Chinese.Y. He, Y. Chu, S. Guo, J. Hu, R. Li, Y. Zheng, X. Ma, Z. Du, L. Zhao, W. Yu и 32 other автор(ы). Genom. Proteom. Bioinform., 21 (6): 1085-1100 (2023)Can Large Language Models Understand Spatial Audio?C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, J. Zhang, L. Lu, Z. Ma, Y. Wang и 1 other автор(ы). CoRR, (2024)Extending Large Language Models for Speech and Audio Captioning.C. Tang, W. Yu, G. Sun, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, и C. Zhang. ICASSP, стр. 11236-11240. IEEE, (2024)video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models.G. Sun, W. Yu, C. Tang, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, Y. Wang, и C. Zhang. ICML, OpenReview.net, (2024)

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter