Autor der Publikation

Spoken Moments: Learning Joint Audio-Visual Representations From Video Descriptions.

, , , , , , und . CVPR, Seite 14871-14881. Computer Vision Foundation / IEEE, (2021)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

LangNav: Language as a Perceptual Representation for Navigation., , , , , , und . CoRR, (2023)Automatic adaptation of object detectors to new domains using self-training., , , , , , und . CVPR Workshops, Seite 22-32. Computer Vision Foundation / IEEE, (2019)FT2TF: First-Person Statement Text-To-Talking Face Generation., , , und . CoRR, (2023)How Transferable are Video Representations Based on Synthetic Data?, , , , , , , , , und . NeurIPS, (2022)Leveraging Temporal Context in Low Representational Power Regimes., , , und . CVPR, Seite 10693-10703. IEEE, (2023)Unsupervised Hard Example Mining from Videos for Improved Object Detection., , , , , , und . ECCV (13), Volume 11217 von Lecture Notes in Computer Science, Seite 316-333. Springer, (2018)Learning Human Action Recognition Representations Without Real Humans., , , , , , , , , und . CoRR, (2023)Cross-Modal Discrete Representation Learning., , , , , und . CoRR, (2021)Cross-Modal Discrete Representation Learning., , , , , und . ACL (1), Seite 3013-3035. Association for Computational Linguistics, (2022)Half&Half: New Tasks and Benchmarks for Studying Visual Common Sense., , , , , , , , , und . CVPR Workshops, Seite 1-4. Computer Vision Foundation / IEEE, (2019)