,

Spoken Moments: Learning Joint Audio-Visual Representations From Video Descriptions.

M. Monfort, S. Jin, A. Liu, D. Harwath, R. Feris, J. Glass, и A. Oliva.
CVPR, стр. 14871-14881. Computer Vision Foundation / IEEE, (2021)

Метаданные

ключ BibTeX: conf/cvpr/MonfortJLHFGO21
тип записи: inproceedings
название книги: CVPR
год: 2021
страницы: 14871-14881
издательство: Computer Vision Foundation / IEEE
Перекрестная ссылка BibTeX: conf/cvpr/2021
ee: https://doi.org/10.1109/CVPR46437.2021.01463
url: http://dblp.uni-trier.de/db/conf/cvpr/cvpr2021.html#MonfortJLHFGO21

тэги

dblp

Пользователи данного ресурса

Комментарии и рецензиипоказать / перейти в невидимый режим

Пожалуйста, войдите в систему, чтобы принять участие в дискуссии (добавить собственные рецензию, или комментарий)

Цитировать эту публикацию

искать в

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter