,

Spoken Moments: Learning Joint Audio-Visual Representations From Video Descriptions.

, , , , , , и .
CVPR, стр. 14871-14881. Computer Vision Foundation / IEEE, (2021)

Метаданные

тэги

Пользователи данного ресурса

  • @dblp

Комментарии и рецензии