Transformar modelos de lenguaje en generadores de vídeo.
Transformar modelos de lenguaje en generadores de vídeo.
VideoPoet, de Google Research, representa una evolución significativa en la generación de vídeo, especialmente en la producción de movimientos grandes, interesantes y de alta fidelidad. Esta herramienta se utiliza para convertir modelos de lenguaje autorregresivos en un generador de vídeo de alta calidad. Incluye componentes como el tokenizer de vídeo MAGVIT V2 y el tokenizer de audio SoundStream que transforman imágenes, vídeo y clips de audio con longitudes variables en una secuencia de códigos discretos en un vocabulario unificado. Estos códigos se asocian con modelos de lenguaje basados en texto, permitiendo la integración con otras modalidades como el texto. Un…
¿Cómo calificarías esta IA?
Ayuda a otras personas haciéndoles saber si esta IA fue útil.