Mistral lance sa nouvelle famille Mistral 3 et vante ses petits modèles
Small si beautiful
Après le lancement de nouvelles versions majeures chez pratiquement tous les acteurs de l’IA générative, Mistral dégaine sa famille de modèles ouverts Mistral 3. Bien que celle-ci comprenne un modèle multimodal, ce sont surtout les plus petits qui sont mis en avant.
L’entreprise française n’en démord pas : lancer des modèles géants n’est pas nécessairement ce qu’il y a de mieux pour les entreprises. Elle reste centrée sur sa stratégie de publication de modèles à poids ouvert, dans l’idée que le monde professionnel va s’en emparer, les personnaliser, les distiller ou les entrainer sur ses propres données.
Mistral veut régner sur les modèles ouverts
Dans l’annonce, on remarque tout de suite que les comparaisons se font uniquement avec d’autres modèles ouverts, comme DeepSeek (en version 3.1 ou 3.2 selon les cas, étrangement) ou Kimi-K2. Sans trop de surprises dans le cadre de ce type d’annonce, les modèles Mistral 3 arrivent premiers dans la plupart des benchmarks, toujours à prendre avec des pincettes.
L’entreprise donne quelques informations supplémentaires sur son grand modèle Large 3. Par exemple, qu’il a été entrainé depuis zéro sur une infrastructure comprenant 3 000 GPU H200 de NVIDIA. Il s’agit également du premier modèle de type MoE (mixture-of-experts) de Mistral. Dans une version proposée au format NVFP4 (construite avec llm-compressor), Mistral affirme que son modèle peut fonctionner « efficacement » sur un nœud comportant huit puces A100 ou H100.

Cette approche permet pour rappel de dispatcher les requêtes vers des réseaux plus spécialisés du type de calcul lors de l’évaluation. Le principal avantage est une réduction de la consommation, le modèle n’activant qu’une partie des neurones pour traiter la demande (41 milliards de paramètres actifs sur 675 milliards au total). C’est le modèle présenté comme idéal pour les opérations lourdes, comme le développement et la création de contenus.
Mistral Large 3 se classe actuellement deuxième sur LMArena dans la catégorie des modèles ouverts sans capacités de raisonnement. La société ajoute que le développement de la nouvelle famille s’est fait en partenariat avec NVIDIA, aboutissant notamment à une « inférence efficace » pour TensorRT-LLM et SGLang.
La « petite » famille
Bien que Mistral aborde ses nouveautés du jour avec le modèle Large, ce sont surtout les petits modèles que la société met en avant. La série Ministral 3 comprend ainsi des variantes à 3, 8 et 14 milliards de paramètres, conçues pour l’informatique en périphérie (edge) et le fonctionnement local, toujours sous licence Apache 2.0. Tous ces modèles ont également des variantes de raisonnement, la version 14B atteignant par exemple 85 % sur le test AIME 25. Cette version, la plus volumineuse des trois, peut fonctionner sur une machine embarquant 24 Go de mémoire et un seul GPU.
Mistral semble particulièrement fière de ses petits modèles, assurant qu’ils offrent « le meilleur rapport coût/performance de tous les modèles open source » actuellement. Les versions classiques (sans raisonnement) sont au niveau ou dépassent les modèles concurrents, selon l’entreprise, tout en consommant « souvent » moins de jetons.

En tout, cette famille comprend trois modèles, les trois tailles étant disponibles dans des variantes Base (modèles de fondation pré-entrainés), Instruct (conçus surtout pour les chatbots) et Reasoning. Tous prennent en charge la vision, sont multilingues et fonctionnent avec des fenêtres allant de 128 000 à 256 000 jetons.
Guillaume Lample, fondateur de Mistral, a mis en avant la vision de l’entreprise auprès de plusieurs médias, dont TechCrunch et le Financial Times : « Nos clients sont parfois contents de débuter avec un très grand modèle de langage qu’ils n’ont pas besoin de peaufiner. Mais quand ils le déploient, ils réalisent que c’est cher et lent. Ils viennent alors nous voir pour affiner de petits modèles, afin de gérer leurs cas d’usage. Dans la pratique, la grande majorité des cas d’usage d’entreprises sont des choses que les petits modèles peuvent résoudre, surtout si vous les affinez ».
Comme le rappellent d’ailleurs nos confrères, cette orientation marquée vers les petits modèles capables de fonctionner localement rapproche l’entreprise de « l’IA physique ». Elle travaille par exemple avec Stellantis sur un assistant IA embarqué, avec la société allemande de défense Helsing sur des modèles vision-langage-action pour des drones, ou encore très récemment avec la Home Team Science and Technology Agency (HTX) de Singapour sur des modèles spécialisés pour robots.