Plongée approfondie dans le Diffusion Transformer (DiT) de Sora

Cet article explore le fonctionnement du modèle de texte-vidéo Sora, qui est un diffuseur transformer (DiT) développé par Open AI. Il utilise la diffusion pour prédire les vidéos et la puissance des transformers pour une mise à l'échelle de niveau supérieur. L'article détaille les différentes étapes de fonctionnement de Sora, notamment la conversion des vidéos en fragments visuels, la réduction de dimension, la diffusion avec du bruit, le conditionnement avec une couche de norme adaptative, l'utilisation des transformers et la génération de nouveaux échantillons. En conclusion, Sora et le combo DiT-Diffusion Transformer sont prometteurs et ouvrent de nouvelles perspectives en matière d'IA.

via Deep Learning Weekly : lire l’article source

Laisser un commentaire