Voix générées par intelligence artificielle
Parmi les voix de synthèse disponibles pour les personnages, certaines ont un nom commençant par "EL-". Ces voix sont produites par le générateur ElevenLabs. Il s'agit de voix générées par intelligence artificielle, venant ainsi avec un certain nombre d'avantages et de contraintes qu'il est bon d'avoir en tête lorsque vous les utiliser dans vos projets VTS Editor.
Cette page liste quelques bonnes pratiques à suivre lors de l'utilisation de ces voix.
Les générations sont variables
Comme il s'agit d'une génération de voix par intelligence artificielle (IA), le résultat produit comporte une forme d'aléatoire. C'est quelque chose de volontaire et souhaitable, permettant d'obtenir des variations intéressantes d'un texte à un autre, même pour des textes similaires.
Néanmoins, il peut arriver qu'une génération d'un texte ne vous convienne pas, par exemple si l'intonation ou émotion de la voix ne correspond pas à l'usage de ce texte dans le projet. Dans ce cas, dans la page de récapitulatif des textes, vous pouvez cliquer sur un bouton situé juste à droite du bouton de lecture de la voix, permettant de forcer la re-génération d'une voix précise. Vous pouvez ainsi re-générer plusieurs fois un même texte tant que nécessaire, jusqu'à trouver la prononciation parfaite !
La langue est détectée automatiquement
L'intelligence artificielle qui génère les voix tente de détecter automatiquement la langue dans laquelle lire le texte, et donc l'accent à utiliser. Il n'existe pour l'instant pas de méthode pour "forcer" l'intelligence artificielle à générer la voix dans une langue spécifique. Cela signifie que pour n'importe quel texte vocalisé, sa langue doit être reconnaissable uniquement en lisant le texte.
Par exemple, le mot "Intention" en français n'est pas distinguable du mot "Intention" en anglais. L'intelligence artificielle va donc systématiquement lire le mot "Intention" avec un accent anglais, car c'est la langue sur laquelle elle est le plus entraînée, même si le personnage était censé parler en français, dans un projet VTS Editor en français.
De manière similaire, un texte ne comprenant qu'un nombre écrit avec des chiffres n'indique pas la langue dans laquelle il doit être lu. Un texte comme "3" et "517" seront donc lus "three" et "five hundred and seventeen", plutôt que dans langue du personnage qui le prononce. Pour éviter ce problème avec les nombres, il existe deux méthodes :
- Soit écrire directement le nombre en toutes lettres, par exemple "trois" pour 3 en français. Mais cela va aussi écrire réellement "trois" dans les sous-titres du personnage, ce qui n'est peut-être pas voulu.
- Soit utiliser l'outil de modification de la prononciation pour écrire "3" dans le texte et "trois" dans la prononciation (le bouton situé à droite des champs texte dont le texte est parlé par un personnage).
Éviter les textes trop longs
Lorsqu'un texte contient plusieurs phrases ou de nombreuses pauses à cause de virgules, la voix peut avoir tendance à faire des pauses un peu longues. Rédiger des textes plus courts permet d'éviter ce problème. Par exemple, dans un bloc Parler, une bonne pratique consiste à écrire une seule phrase par réplique, en créant autant de répliques que nécessaires.
Par ailleurs, dans certains cas, si un texte est trop long, la voix peut se "perdre" dans la langue à utiliser, et changer de langue sur la fin du texte. Cela est dû au fait que l'intelligence artificielle tente de détecter automatiquement la langue à utiliser. Faire des textes plus courts permet de réduire la probabilité que ce problème arrive.
- ${ child.title }