Sintesi: interessante, da tenere d'occhio per gli sviluppi futuri.
I Microsoft labs rilasciano VibeVoice: un'AI di frontiera totalmente OpenSource con cui è possibile trasformare il testo in Audio realistico.
Questo modello scalda le corde vocali dell'AI con mezzo miliardo di parametri e comprende la anche 2 voci, maschile e femminile in lingua italiana.
Gli sviluppatori condividono tutto il codice sorgente su GitHub e ottengono subito migliaia di stelle.
VibeVoice arriva fino a 90 minuti di generazione, possiamo dire che adora le lunghe chiacchierate. Può coordinare ben quattro speaker differenti per maratone audio di novanta minuti (in italiano per ora solo 2).
Immaginiamo un podcast intero generato in un soffio con voci consistenti e passaggi di parola fluidi, questa è l'intenzione degli sviluppatori.
Le prestazioni superano i colossi del settore? Sì e NO. Notiamo muscoli digitali forti che possono competere con Gemini o Eleven Labs. Il realismo raggiunge esecuzioni convincenti, MA attenzione perché può generare errori, detto ciò ricordiamoci che è una BETA e che è OpenSource!
AUDIO EMPATICO
L'audio generato ha sfumature emozionali convincenti perché il sistema interpreta le emozioni nascoste tra le righe (interpreta) in modo autonomo.
Con questa soluzione possiamo evitare di complicati la creazione audio con TAG manuali per suggerire rabbia o gioia perché VibeVoice coglie il sentimento dal testo e lo trasmette con brio naturale. Bisogna testare se è possibile fornirgli indicazioni in tal senso.
Molto interessante è che può cambiare lingua al volo durante la stessa frase riconoscendo la lingua da parlare in base al testo scritto.
Il motore interno combina un modello linguistico di grandi dimensioni con un sistema di diffusione per scolpire audio di altissima qualità.
Puoi testare questa meraviglia su Google Colab in pochi istanti e ascoltare le voci italiane pronunciare i tuoi testi con una naturalezza davvero interessante.
Il modello risponde in meno di trecento millisecondi e garantisce una velocità fulminea per applicazioni in tempo reale.
NON PUOI CLONARE VOCI
Usa formati embedded per le voci che impediscono azioni come la clonazione vocale di personaggi famosi.