,

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models.

G. Sun, W. Yu, C. Tang, X. Chen, T. Tan, W. Li, L. Lu, Z. Ma, и C. Zhang.
CoRR, (2023)

Метаданные

ключ BibTeX: journals/corr/abs-2310-05863
тип записи: article
год: 2023
журнал: CoRR
том: abs/2310.05863
ee: https://doi.org/10.48550/arXiv.2310.05863
url: http://dblp.uni-trier.de/db/journals/corr/corr2310.html#abs-2310-05863

тэги

dblp

Пользователи данного ресурса

Комментарии и рецензиипоказать / перейти в невидимый режим

Пожалуйста, войдите в систему, чтобы принять участие в дискуссии (добавить собственные рецензию, или комментарий)

Цитировать эту публикацию

искать в

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter