Moshi : l’IA vocale de Kyutai aux compétences émotionnelles exceptionnelles

Isabelle Deromas Lebocq

il y a 10 mois

Kyutai, le laboratoire de recherche cofondé par le groupe Iliad, a donc présenté hier Moshi, une IA vocale révolutionnaire. Ce projet, développé en seulement six mois par une équipe de huit chercheurs, promet de transformer notre interaction avec les technologies numériques grâce à des compétences émotionnelles avancées et des capacités de communication vocale sans précédent.

Ces skills ont fait l’objet de premiers essais il y a quelques années dans le cadre de plusieurs projets.

Une démonstration impressionnante et intrigante

Lors de l’annonce, une démonstration de Moshi a été principalement axées sur ses capacités exceptionnelles. Au-delà de sa performance à engager, poursuivre et clôturer une conversation, Moshi a surpris par son habileté à interrompre et même à parler en même temps que son interlocuteur.

Cette caractéristique, bien que troublante, est intentionnelle. Pour rendre les échanges aussi crédibles que possible, Kyutai a intégré des paramètres variés tels que l’hésitation, le chuchotement, les accents et les variations de tonalité. Ces éléments paralinguistiques permettent à Moshi d’influencer la dynamique conversationnelle, rendant les interactions plus naturelles et authentiques.

70 émotions et intonations supportées par Moshi

Kyutai a développé des capacités de traitement des données multimodales et multistream, ainsi que des techniques avancées de conversion de la parole en texte et d’entraînement de modèles. Un large éventail de données a été utilisé pour entraîner Moshi avec un modèle de langage large de 7 milliards de paramètres (LLM 7B) nommé Helium. Grâce à des paramétrages spécifiques (fine tuning), Moshi a appris non seulement à parler au bon moment mais aussi à choisir le contenu approprié à dire.

Pour améliorer ses compétences vocales, Kyutai a utilisé des dialogues synthétiques et un moteur de conversion de la parole en texte développé en interne. Un aspect unique de Moshi est l’utilisation de la voix d’une artiste pour entraîner le modèle. Cela a permis d’incorporer une gamme de 70 émotions et façons de parler, incluant les murmures, l’effroi et les hésitations, offrant ainsi une palette émotionnelle riche et nuancée.

Performances et latence

Un travail approfondi a été réalisé sur la latence pour atteindre un temps de réponse de 200 millisecondes, très proche d’une conversation humaine normale. Cette rapidité est importante pour maintenir la fluidité des interactions et rendre l’expérience utilisateur plus immersive.

Moshi est conçu pour être léger et peut fonctionner localement sur un ordinateur ou un smartphone sans nécessiter une connexion internet, garantissant ainsi une meilleure protection des données personnelles. Cette caractéristique rend Moshi non seulement innovant mais aussi sécurisé, répondant aux préoccupations croissantes en matière de confidentialité.

Kyutai prévoit de partager librement et gratuitement la documentation technique, les modèles, et le code de Moshi. Cette initiative a our objectif d’encourager les tests, les études et le développement par la communauté scientifique et technologique. En ouvrant ses ressources, Kyutai espère stimuler l’innovation et contribuer de manière significative à l’évolution de l’intelligence artificielle vocale.