VideoPrism: Un encodeur visuel fondamental pour la compréhension des vidéos

Un nombre incroyable de vidéos sont disponibles sur le Web, couvrant une variété de contenus allant des moments de la vie quotidienne partagés par les gens aux moments historiques en passant par les observations scientifiques, chacune d'entre elles contenant un enregistrement unique du monde. Avec l'objectif de construire un modèle unique pour la compréhension générale des vidéos, nous introduisons 'VideoPrism: Un encodeur visuel fondamental pour la compréhension des vidéos'. VideoPrism est conçu pour gérer une large gamme de tâches de compréhension des vidéos, y compris la classification, la localisation, la recherche, la légende et la réponse aux questions (QA). Nous proposons des innovations à la fois dans les données de pré-entrainement et dans la stratégie de modélisation. Nous pré-entraînons VideoPrism sur un ensemble de données massif et diversifié : 36 millions de paires vidéo-texte de haute qualité et 582 millions de clips vidéo avec du texte parallèle bruité ou généré par machine. Notre approche de pré-entrainement est conçue pour ces données hybrides, afin d'apprendre à la fois à partir des paires vidéo-texte et des vidéos elles-mêmes. VideoPrism est incroyablement facile à adapter aux nouveaux défis de compréhension des vidéos et atteint des performances de pointe avec un seul modèle figé.

via Twitter : lire l’article source

Laisser un commentaire