Avec Nova Sonic, Amazon a enfin un modèle d’IA pour le traitement vocal
Don't Call Me Baby

Amazon a présenté hier soir un nouveau venu dans sa famille de modèles d’IA générative Nova. Nommé Sonic, il est spécialisé dans le speech-to-speech et se veut idéal pour les bots dédiés à la relation client.
Amazon renforce et complète actuellement sa gamme Nova. On a ainsi vu récemment la version 1.1 de Nova Reel, destinée à la génération de vidéos pouvant aller jusqu’à 2 minutes. Nova Sonic, le nouveau venu, est un modèle destiné à l’audio, plus précisément dans la catégorie speech-to-speech. Il est donc conçu pour donner des réponses vocales à des invites tout aussi vocales.
Destinations chatbots et streaming
Sans surprise, le modèle Sonic est fait avant tout pour les interfaces permettant les discussions à haute voix. C’est la réponse d’Amazon au Voice Mode de ChatGPT et autres technologies équivalentes. L’entreprise sait d’ailleurs qu’elle arrive assez tard sur ce marché. Elle déclenche donc une guerre des prix, avec une tarification agressive, environ 80 % moins chère que l’équivalent dans GPT-4o, en tout cas selon Amazon.
Amazon qualifie son Nova Sonic de modèle vocal « le plus rentable » du marché. Il serait également le plus rapide, avec une latence moyenne perçue de 1,09 seconde, contre 1,18 pour GPT-4o. Ces performances lui ouvrent – comme son concurrent – les portes d’une utilisation en direct sur du streaming.
Capter l’attention l’intention
Et si vous vous en doutiez, Sonic est bien le modèle utilisé par Amazon dans son assistant Alexa+ lancé récemment.
Selon l’entreprise, Sonic est particulièrement doué pour « comprendre » l’intention des utilisateurs. Il examine notamment les pauses et interruptions de l’interlocuteur et tâche de répondre « au moment opportun ». En d’autres termes, Nova Sonic tente de prendre en compte la prosodie et le sentiment, comme on peut le voir dans la démonstration ci-dessous.
Selon Amazon cependant, la plus grande force de Nova Sonic est son agilité au sein d’un environnement hétérogène. Il achemine ainsi les demandes vers différentes API, lui permettant d’aller chercher des informations sur internet, d’analyser des sources de données propriétaires et même d’agir dans d’autres applications.
Permission de marmonner
Sonic serait également doué dans sa gestion des erreurs de reconnaissance vocale. Dans le benchmark Multilingual LibriSpeech, le taux d’erreur rencontré serait de seulement 4,2 % pour l’anglais, le français, l’italien, l’allemand et l’espagnol. Cette précision le rendrait performant dans des situations de faible articulation, d’environnement bruyant ou même de « marmonnement ». Ces performances seraient atteintes grâce à l’union des capacités de compréhension et de génération en un seul modèle.
Nova Sonic est disponible depuis Amazon Bedrock, mais uniquement en anglais pour l’instant. Le modèle sait générer une transcription texte à des fins de développement. La fenêtre de contexte est de 300 000 jetons et une connexion peut durer 8 minutes, à raison de 20 connexions concurrentes par client à la fois. En revanche, cette disponibilité est limitée pour l’instant à l’anglais (accents anglais et américain inclus), et pour la seule région US East.
Enfin, Amazon parle d’IA « responsable », avec des protections incluses pour la modération de contenu et l’ajout de filigranes (watermarks).