Moshi, l’IA conversationnelle de Kyutai : un assistant vocal qui repousse les limites du dialogue humain

Isabelle Deromas Lebocq

il y a 7 mois

Le laboratoire français Kyutai a récemment dévoilé (le 18 septembre dernier) de nouveaux détails sur son assistant conversationnel expérimental, Moshi. Conçu pour engager des dialogues naturels et fluides, cet assistant se distingue par sa capacité à penser et parler simultanément, imitant les nuances de la voix humaine. Malgré une limitation actuelle des conversations à cinq minutes, le potentiel de cette technologie laisse entrevoir des applications plus étendues à l’avenir, notamment face à des intelligences artificielles plus établies.

Développé autour d’un modèle de traitement parole-texte, Moshi intègre un framework de dialogue en duplex complet, capable de gérer deux flux audio simultanément. Le premier flux correspond à l’utilisateur, tandis que le second représente Moshi lui-même. Cette double gestion audio permet à Moshi de prédire ses propres paroles en temps réel, améliorant la fluidité et la cohérence de ses réponses. Ce système repose sur Mimi, un codec audio neuronal de streaming qui traite l’audio à 24 kHz et peut représenter des signaux jusqu’à 12,5 Hz avec une latence très réduite de 80 millisecondes.

We release two Moshi models, adapted from our demo by replacing Moshi’s voice with artificially generated ones, one male and one female. We are looking forward to hearing what the community will build with it, and we thank everyone that helped for this release: @HuggingFace:… pic.twitter.com/jVfk4rE2p9
— kyutai (@kyutai_labs) September 18, 2024

Technologie avancée et modélisation sophistiquée

Pour renforcer ses performances, Moshi s’appuie sur Helium, un modèle de langage multimodal possédant 7 milliards de paramètres. Helium a été pré-entraîné sur une grande quantité de données audio, et son rôle consiste à générer des scripts synthétiques qui sont ensuite transformés en dialogues en duplex intégral par un système de synthèse vocale (TTS) multi-flux. Grâce à cette architecture, Moshi peut gérer des conversations en temps réel avec une latence totale pratique de seulement 200 millisecondes, même sur un GPU L4.

Les chercheurs de Kyutai ont mis l’accent sur la robustesse de Moshi dans divers environnements sonores. Pour ce faire, ils ont créé 20 000 heures de données de conversations synthétiques, enregistrées dans des conditions variées et avec des accents différents, tout en maintenant une constance dans la voix de Moshi. Cette approche permet à l’assistant de s’adapter à des contextes d’utilisation complexes, tout en préservant une identité vocale unique.

Des performances et une évaluation comparée

Lors d’évaluations comparatives, Moshi a surpassé des modèles de référence comme Falcon, Llama 2 et OLMo sur des tests liés au raisonnement général (MMLU) et au raisonnement scientifique (ARC). Cependant, ses résultats restent en deçà de ceux obtenus par des modèles de Mistral AI et Google. Malgré ces résultats, la capacité de Moshi à modéliser des conversations en duplex intégral en fait un candidat de choix pour des applications nécessitant des interactions fluides et naturelles.

Une publication sous licence ouverte

Kyutai a également décidé de publier ses modèles sous la licence Creative Commons BY 4.0, la plus permissive de toutes. Cela inclut le codec vocal Mimi ainsi que deux voix synthétiques, Moshiko (voix masculine) et Moshika (voix féminine), toutes deux développées à partir de la technologie de Moshi. Cette licence permet à d’autres de distribuer, modifier et développer ces modèles, même à des fins commerciales, à condition de créditer Kyutai pour leur travail original.

Cette ouverture à la communauté pourrait accélérer les avancées dans le domaine des assistants conversationnels et faciliter l’émergence de nouvelles applications basées sur Moshi. Kyutai se positionne ainsi comme un acteur clé dans l’innovation en intelligence artificielle, en offrant des outils puissants à disposition de tous, tout en continuant d’améliorer les performances et les capacités de son assistant vocal.