Emu Video es una herramienta que se centra en la generación de texto a vídeo utilizando un condicionamiento de imagen explícito. Utiliza modelos de difusión para factorizar el proceso de generación en dos pasos: generar una imagen basada en un prompt de texto y luego generar un video basado en el prompt y la imagen generada. Este enfoque factorizado permite una capacitación eficiente de modelos de generación de vídeo de alta calidad. Emu Video se destaca de métodos anteriores que requieren una profunda cascada de modelos, sólo necesitando dos modelos de difusión para generar 512px, videos de 4 segundos de…