In questo video tutorial è possibile vedere come impostare i tag, simili a quelli html, per ottenere il massimo dalla voce TTS usando ...
In questo video tutorial è possibile vedere come impostare i tag, simili a quelli html, per ottenere il massimo dalla voce TTS usando Balabolka.
Il video è in pratica una demo completa della sintassi dei tag che rende più efficace il suono delle voci TTS. La sintassi usata nel video di fatto è XML e tag di controllo SSML.
Che cos'è SSML?
SSML è l'acronimo di Speech Synthesis Markup Language, è un linguaggio di markup utilizzato per controllare aspetti della sintesi vocale, migliorando la qualità e l'intonazione della voce generata dai sistemi TTS (Text-to-Speech).
1. <speak>
Il tag principale che racchiude tutto il testo e
i comandi SSML. Deve essere il contenitore di tutti gli altri tag SSML.
2. <voice>
Specifica la voce da utilizzare per leggere il
testo racchiuso.
3. <break>
Introduce una pausa nel discorso. Può specificare
la durata in millisecondi o una lunghezza (come "short", "medium", "long").
4. <prosody>
Controlla vari attributi della voce come velocità , tono e volume.
5. <say-as>
Specifica come un particolare testo deve essere
interpretato (ad esempio, come una data, un numero di telefono, una frazione,
ecc.).
6. <p> e <s>
Indicano i paragrafi e le frasi, aiutando
a strutturare il testo per migliorare l'intonazione naturale.
7. <phoneme>
Specifica la pronuncia di una parola usando i
simboli fonetici.
8. <sub>
Fornisce un'alternativa di pronuncia o espansione
per una parola o una frase.
esempio alternativa di pronuncia, xml:
esempio espansione di una parola, un Acronimo, xml:
9. <emphasis>
Aggiunge enfasi a una parola o frase.
10. <audio>
Include un file audio esterno nel testo
sintetizzato.
11. <mark>
Inserisce un tag di marcatura temporale nel
testo, utile per sincronizzazioni con eventi esterni.
12. <lang>
Specifica la lingua per il testo racchiuso, utile
per cambi di lingua all'interno dello stesso documento.
Questi tag possono essere combinati in vari modi per creare una lettura più naturale e controllata, migliorando l'esperienza di ascolto per gli utenti.
Nessun commento