Freenews

Moshi : essayez l’assistant vocal de Kyutai !

Moshi est la première intelligence artificielle développée par Kyutai, un laboratoire de recherche fondé par Xavier Niel, Rodolphe Saadé et Eric Schmidt en novembre 2023. Ce projet, on l’a déjà vu et Aude Durand est revenue longuement sur le sujet la semaine passée lors de la présentation des résultats semestriels du Groupe iliad, marque une avancée majeure dans le domaine des IA, car il s’agit du premier modèle capable de répondre à des questions vocales instantanément, imitant la rapidité de réaction humaine. Kyutai a en son temps, ainsi pris de l’avance sur OpenAI, qui a retardé le lancement de son ChatGPT Voice à l’automne.

Moshi. Kyutai

En mai 2024, OpenAI avait dévoilé une version améliorée de son assistant vocal, ChatGPT Voice, alimentée par le modèle GPT-4o, annonçant alors la première IA capable d’interpréter la voix en temps réel. Contrairement aux systèmes existants comme Siri ou Google Assistant, qui convertissent d’abord la voix en texte, ces nouvelles générations d’IA peuvent directement reconnaître les sons et anticiper les paroles, allant même jusqu’à surpasser la vitesse de traitement du cerveau humain.

Toutefois, après plusieurs controverses, y compris des cas d’imitation de voix de célébrités comme Scarlett Johansson, OpenAI a dû reporter le lancement de sa technologie.

Le 3 juillet, Kyutai a pris tout le monde de court en dévoilant Moshi, son propre modèle d’IA vocale, capable lui aussi de traiter les interactions vocales en temps réel grâce à une analyse directe de la voix. Moshi se distingue également par son approche open source et non commerciale et il est actuellement accessible en version de test sur le site de Kyutai, permettant à chacun de découvrir cette innovation.

Comment essayer Moshi dès maintenant ?

Sur son site, Kyutai décrit Moshi comme une « IA conversationnelle expérimentale« . Chaque session de dialogue est limitée à cinq minutes, une restriction liée au fait que Moshi peut parfois divaguer, un comportement attribué au modèle de langage Helium, également développé par le laboratoire.

Cette expérimentation cherche avant tout à explorer les capacités de réponses vocales instantanées, en permettant aux utilisateurs de converser avec Moshi, de lui demander de concevoir des jeux ou même de simuler des émotions. Les premiers essais ont montré que Moshi est extrêmement rapide, ce qui impressionne les utilisateurs.

Il est important de noter que, bien que Moshi affirme être originaire de Paris, il ne communique qu’en anglais pour le moment. Kyutai a décidé de lancer son IA uniquement dans la langue anglaise pour toucher une audience globale dès le départ.

Pour accéder à la démo de Moshi, il suffit de se rendre sur le site de Kyutai, d’y entrer une adresse e-mail et de patienter jusqu’à ce que ce soit son tour. L’interaction se fait via le navigateur web, qui nécessite l’autorisation d’utiliser le microphone de l’utilisateur. Pour l’instant, les démos disponibles fonctionnent en ligne, bien que Kyutai ait également développé une version locale plus légère utilisant un modèle de langage réduit.

Simplicité de l’interface pour une expérience utilisateur souple

Lorsqu’on interagit avec Moshi, l’expérience utilisateur est à la fois intuitive et immersive. Quand Moshi prend la parole, une pastille verte s’illumine sur l’interface pour indiquer qu’il est en train de parler. Ce signal visuel est un moyen simple mais efficace pour les utilisateurs de savoir quand l’intelligence artificielle est active et prête à répondre. En parallèle, lorsqu’un utilisateur s’adresse à Moshi, une onde sonore apparaît à l’écran, indiquant que la voix de l’utilisateur est détectée et en cours de traitement par le système.

Ce retour visuel permet aux utilisateurs de s’assurer que leurs paroles sont bien entendues et interprétées, ce qui renforce la sensation de dialogue naturel avec l’IA.

Cependant, l’interaction ne s’arrête pas là. Il peut arriver que Moshi anticipe ce que son interlocuteur va dire, et l’interrompt parfois pour compléter la phrase. Ce comportement, bien que surprenant au premier abord, reflète une tentative de l’IA de rendre la conversation plus fluide et réactive, imitant les conversations humaines où les interlocuteurs devinent parfois les pensées ou les intentions de l’autre.

En plus de la communication vocale, les réponses de Moshi sont également affichées à l’écran sous forme de texte. Cela offre une dimension supplémentaire à l’expérience utilisateur, permettant non seulement de suivre le dialogue de manière auditive mais aussi visuelle. Cette double approche facilite la compréhension, surtout dans des environnements bruyants ou pour les utilisateurs ayant des difficultés auditives.

Malgré ses avancées technologiques impressionnantes, Moshi n’est pas exempt de petits défauts liés à son manque de maturité. Lors des premiers essais, il a été observé que l’IA pouvait parfois entrer dans des boucles de répétition. Dans ces situations, Moshi énonce les mêmes phrases à plusieurs reprises, souvent sur un ton qui peut paraître légèrement agacé. Ce comportement, bien qu’involontaire rappelle que, malgré ses prouesses, Moshi reste un système en développement, avec ses propres limitations et caprices.

Pour gérer ces situations, Kyutai a prévu une solution simple : se déconnecter de la session en cours et relancer une nouvelle session de Moshi. Cette action réinitialise le modèle, permettant ainsi de repartir sur de bonnes bases et d’éviter les répétitions indésirables. La flexibilité est essentielle pour maintenir une expérience utilisateur positive et pour montrer que Moshi est capable de s’adapter et de s’améliorer au fil des interactions.

En d’autres termes, bien que Moshi soit un produit en évolution, ces caractéristiques et comportements montrent les efforts fournis par Kyutai pour fournir une expérience utilisateur riche et dynamique. L’interface est intuitive et les solutions pragmatiques pour que les petits défauts garantissent à chaque utilisateur une exploration des capacités de cette IA innovante de manière agréable et efficace.

Reste à voir quel usage sera fait par le grand public mais de manière générale Xavier Niel ne se lance pas dans une aventure pour fournir un simple terrain de jeu à ses abonnés, mais plutôt avec une idée concrète derrière la tête.

Quitter la version mobile