Voicebox es un modelo de IA generativo para el habla que puede generalizarse a tareas para las que no fue específicamente entrenado con el rendimiento de última generación. A diferencia de los sintetizadores de voz existentes, se puede entrenar en datos diversos y no estructurados sin requerir entradas cuidadosamente etiquetadas. Voicebox utiliza un nuevo enfoque llamado Flow Matching, que es el último avance de Meta en modelos generativos no autorregresivos que pueden aprender mapas altamente no deterministas entre texto y voz. Voicebox puede producir clips de audio de alta calidad en una gran variedad de estilos y puede sintetizar voz…