Kyutai, le laboratoire de recherche cofondé par le groupe Iliad, a présenté hier son tout premier modèle d’intelligence artificielle (IA) à commande vocale, nommé Moshi. Ce projet, réalisé en seulement six mois par une équipe de huit chercheurs, a été dévoilé lors d’une démonstration publique le mercredi 3 juillet.
Un développement rapide et des ambitions élevées
La création de Moshi représente un petit exploit pour le laboratoire européen fondé par Xavier Niel (Free) et Eric Schmidt (ancien PDG de Google). En un temps record, l’équipe de Kyutai a développé de A à Z une IA capable de communiquer de manière fluide, naturelle et expressive, sans avoir besoin de passer par des étapes intermédiaires de traduction des commandes vocales en texte.
Moshi se distingue par une latence extrêmement faible de 160 ms, proche de celle d’une conversation humaine, ce qui permet des interactions quasi instantanées.
Moshi se démarque non seulement par sa rapidité, mais aussi par ses capacités de reconnaissance et de synthèse vocale. L’IA est capable de reconnaître les émotions de son interlocuteur et d’adapter sa voix pour rendre les conversations plus naturelles et interactives. Ses compétences en matière de synthèse vocale sont particulièrement remarquables, offrant une palette d’intonations variées pour enrichir l’expérience utilisateur.
Accessibilité, sécurité .. mais surtout innovation
L’un des aspects les plus impressionnants de Moshi est sa légèreté, permettant une exécution locale sur un ordinateur ou un smartphone sans nécessiter une connexion internet. Cela garantit une sécurité accrue des données personnelles, un point crucial dans le contexte actuel de protection de la vie privée.
Une ouverture vers la recherche et le développement communautaire
Kyutai entend également jouer un rôle important dans la recherche ouverte en IA. En partageant librement le code et les poids des différents modèles de Moshi, l’entreprise souhaite contribuer à l’évolution de l’ensemble de l’écosystème de l’IA. Cette initiative inédite est destinée à encourager les chercheurs, développeurs et entrepreneurs à explorer et à développer de nouvelles applications basées sur cette technologie.
La démonstration interactive de Moshi, accessible dès aujourd’hui sur le site web de Kyutai, marque une première mondiale pour une IA vocale générative ouverte au public. Lors de la présentation, l’équipe de Kyutai a illustré le potentiel de Moshi en tant que coach personnel, compagnon virtuel et même personnage dans des jeux de rôle, soulignant ainsi la diversité des applications possibles.
Si vous voulez suivre la démonstration en replay, vous pouvez y accéder sur YouTube ici.