It really kicks
Dans la longue quĂȘte des modĂšles dâIA gĂ©nĂ©rative toujours plus puissants, câest au tour de Meta de dĂ©gainer avec la quatriĂšme version de son Llama. Il est dĂ©clinĂ© en trois versions, selon le cas dâusage, et tous sont multimodaux. Alors que Meta se lance pour la premiĂšre fois dans les « mĂ©langes dâexperts », lâEurope continue dâĂȘtre privĂ©e des nouveautĂ©s.
Meta veut frapper fort avec son modĂšle Llama 4. Dans son annonce , publiĂ©e samedi (câest la premiĂšre fois que lâentreprise lance un modĂšle majeur durant le week-end), Meta explique quâil a Ă©tĂ© entrainĂ© sur « de grandes quantitĂ©s de textes, dâimages et de donnĂ©es vidĂ©o non Ă©tiquetĂ©s » et quâil dispose dâune « large comprĂ©hension visuelle ».
Llama 4 est dĂ©clinĂ© en trois versions : Scout, Maverick et Behemot. PrĂ©cisons dâemblĂ©e que si les deux premiers sont disponibles, ils ont Ă©tĂ© distillĂ©s depuis Behemot qui, lui, est toujours en cours dâentrainement.
Des paramĂštres et des experts
Llama 4 Scout est le plus petit modĂšle, avec 16 experts. Ces derniers reprĂ©sentent des sous-sections spĂ©cifiques du modĂšle, conçues pour traiter des tĂąches particuliĂšres. Ils sont la consĂ©quence de lâapproche MoE (Mixture of Experts), utilisĂ©e pour la premiĂšre fois chez Meta. Chaque expert reprĂ©sente un rĂ©seau neuronal pouvant ĂȘtre entrainĂ© sĂ©parĂ©ment, permettant un entrainement global du modĂšle nettement plus rapide, comme lâexpliquait dĂ©jĂ Hugging Face fin 2023 .
En fonction de la tĂąche, câest le modĂšle qui « dĂ©cide » ensuite Ă quel expert envoyer les jetons. ConsĂ©quence, si Llama 4 Scout a 109 milliards de paramĂštres, 17 milliards « seulement » sont actifs en mĂȘme temps.
MĂȘme cas de figure pour Maverick, le modĂšle principal. Cette fois, le nombre de paramĂštres est de 400 milliards, mais le modĂšle dispose de 128 experts, toujours avec la mĂȘme technique. Comme pour Scout, le nombre de paramĂštres actifs est de 17 milliards.
Selon Meta, ces deux modĂšles sont tout simplement les meilleurs modĂšles multimodaux de leur catĂ©gorie respective. Scout fournit ainsi une fenĂȘtre contextuelle de 10 millions de jetons, peut fonctionner sur un seul GPU H100 de NVIDIA et fournit de meilleurs rĂ©sultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 « dans une large gamme de tests de rĂ©fĂ©rence », selon Meta.
Maverick, qui doit devenir le principal modÚle poussé par Meta, est présenté comme surpassant GPT-4o et Gemini 2.0 Flash. Sur LMArena, le modÚle se classe deuxiÚme avec un score de 1417. Point intéressant, Meta évoque directement DeepSeek, car les résultats obtenus par Maverick sont décrits comme « comparables » au dernier modÚle chinois . Selon Meta, Maverick peut fonctionner sur un seul systÚme H100 DGX de NVIDIA.
LâĂ©norme Behemot toujours en formation
Dans la nouvelle trilogie de Meta, Scout et Maverick sont les Ă©tudiants. Lâenseignant se nomme Behemot, Ă partir duquel ils ont Ă©tĂ© distillĂ©s. Le modĂšle porte a priori bien son nom : on ne joue plus du tout dans la mĂȘme cour.
Ce mastodonte, dont lâentrainement est toujours en cours, affiche la bagatelle de 2 000 milliards de paramĂštres. Bien sĂ»r, tous ne fonctionnent pas en mĂȘme temps, mais le modĂšle, dotĂ© de 16 experts, dispose quand mĂȘme 288 milliards de paramĂštres actifs. De fait, il est prĂ©sentĂ© comme le modĂšle « de pointe » pour tout ce qui touche aux mathĂ©matiques, au multilinguisme et aux images. Pour Ă©conomiser les coĂ»ts, la distillation du modĂšle a Ă©tĂ© rĂ©alisĂ©e pendant la phase de prĂ©-entrainement, prĂ©cise Meta.
Ăvidemment, les performances dâun tel modĂšle sont annoncĂ©es comme supĂ©rieures Ă tout ce qui existe. Ou presque. Dans le tableau donnĂ© par Meta, on peut voir que les notes obtenues par son Behemot sont largement supĂ©rieures globalement que les modĂšles concurrents. Mais si Meta a fait combattre son modĂšle face Ă Claude Sonnet 3.7 et GPT-4.5 â qui sont effectivement les derniĂšres versions des modĂšles â lâentreprise a choisi de se limiter Ă Gemini 2.0 Pro, alors que la 2.5 est disponible.
How to train a behemot
Lâentrainement dâun tel modĂšle aurait « constituĂ© un dĂ©fi de taille ». Pendant celui de Maverick, Meta dit sâĂȘtre aperçue de plusieurs problĂšmes, au point de changer toute sa chaine de traitements post-entrainement. Le rĂ©glage fin supervisĂ© (SFT) et lâoptimisation des prĂ©fĂ©rences directes (DPO) ont ainsi Ă©tĂ© allĂ©gĂ©s. 50 % des donnĂ©es jugĂ©es « faciles » ont Ă©tĂ© supprimĂ©es, en se servant dâautres modĂšles Llama comme juges. LâĂ©tape intermĂ©diaire dâapprentissage par renforcement (RL) est restĂ©e entiĂšre, bien quâavec des prompts « plus difficiles ».
Concernant Behemot, Meta a appliquĂ© une version extrĂȘme de cette recette, puisque 95 % des donnĂ©es « faciles » ont Ă©tĂ© Ă©laguĂ©es pour la phase SFT. « Nous avons Ă©galement constatĂ© que lâexĂ©cution dâun SFT lĂ©ger suivi dâun apprentissage par renforcement (RL) Ă grande Ă©chelle produisait des amĂ©liorations encore plus significatives dans les capacitĂ©s de raisonnement et de codage du modĂšle », affirme Meta.
MĂȘme lâĂ©tape dâapprentissage par renforcement a nĂ©cessitĂ© des travaux. Lâentreprise dit avoir dĂ» passer par une refonte de son infrastructure : nouvelle conception de la parallĂ©lisation MoE pour des itĂ©rations plus rapides et un nouveau cadre asynchrone pour lâapprentissage par renforcement. Pour ce dernier, Meta dit avoir dĂ©veloppĂ© un systĂšme dâallocation flexible des modĂšles Ă des GPU distincts. Cette amĂ©lioration aurait « multipliĂ© par 10 lâefficacitĂ© de lâentrainement », comparĂ© Ă lâancienne mĂ©thode qui consistait à « empiler tous les modĂšles en mĂ©moire ».
Meta prĂ©cise enfin que tous les entrainements de Llama 4 ont Ă©tĂ© rĂ©alisĂ©s en prĂ©cision FP8. Dans le cas de Behemot, lâentreprise sâest servie de 32 000 GPU, avec un niveau de performances de 390 TFLOPS par GPU. La rĂ©serve de donnĂ©es, mĂȘme aprĂšs le fameux Ă©lagage, reprĂ©sentait 30 000 milliards de jetons, plus du double de ce qui avait Ă©tĂ© utilisĂ© pour Llama 3.
Des réponses « utiles »
Les trois nouveaux modĂšles annoncĂ©s sont « classiques » : ils nâopĂšrent aucun raisonnement. Les comparaisons sont donc dâautant plus intĂ©ressantes, surtout dans le cas de Behemot sur des domaines comme les mathĂ©matiques et le dĂ©veloppement logiciel. Reste Ă savoir bien sĂ»r le type de coĂ»t quâun modĂšle aussi volumineux peut engendrer. Surtout quand la concurrence, notamment DeepSeek-V3-0324, commence Ă mettre un accent plus prononcĂ© sur lâefficacitĂ©.
Meta, en tout cas, indique avoir tout mis en Ćuvre pour que ses modĂšles fournissent des rĂ©ponses utiles et « factuelles ». Toutes les variantes de Llama 4 auraient Ă©tĂ© rĂ©glĂ©es pour refuser moins souvent de rĂ©pondre Ă des questions plus « litigieuses ». Une prĂ©cision intĂ©ressante, et qui rejoint Anthropic dans sa communication : câĂ©tait lâun des changements mis en avant au lancement de Claude Sonnet 3.7 fin fĂ©vrier . Deux semaines plus tĂŽt, OpenAI annonçait des changements en ce sens dans la maniĂšre dâentrainer ses modĂšles. On pourrait y voir une influence de xAI et de son Grok, qui se veut effrontĂ© dans ses rĂ©ponses.
« Vous pouvez compter sur [Llama 4] pour fournir des rĂ©ponses utiles et factuelles sans porter de jugement. Nous continuons Ă rendre Llama plus rĂ©actif afin quâil rĂ©ponde Ă plus de questions, quâil puisse rĂ©pondre Ă une variĂ©tĂ© de points de vue diffĂ©rents [âŠ] et quâil ne favorise pas certains points de vue par rapport Ă dâautres », a ainsi dĂ©clarĂ© Meta Ă TechCrunch .
Quid de la disponibilité ?
Techniquement, les nouveaux modĂšles Llama 4 Scout et Maverick sont disponibles depuis le site dĂ©diĂ© et Hugging Face . Plus prĂ©cisĂ©ment, ce sont les modĂšles Llama-4-Scout-17B-16E, Llama-4-Scout-17B-16E-Instruct, et Llama 4-Maverick-17B-128E-Instruct-FP8. Ces modĂšles alimentent mĂȘme dĂ©jĂ Meta AI pour WhatsApp, Messenger et Instagram pour tout ce qui touche aux conversations (du moins, sur les conversations non chiffrĂ©es de bout en bout). Les nouveaux modĂšles sont Ă©galement disponibles dans Azure AI Foundry de Microsoft .
Mais en Europe, la situation est plus complexe. La licence associĂ©e aux modĂšles Llama 4 nâexclut pas les utilisateurs finaux. Ces derniers devraient donc avoir les mĂȘmes capacitĂ©s sur Meta AI que dans les autres pays oĂč lâassistant est prĂ©sent. En revanche, les personnes physiques et morales (donc les entreprises) europĂ©ennes nâont pas le droit dâaccĂ©der aux modĂšles.
« En ce qui concerne les modĂšles multimodaux inclus dans Llama 4, les droits accordĂ©s en vertu de la section 1(a) de lâaccord de licence communautaire Llama 4 ne vous sont pas accordĂ©s si vous ĂȘtes une personne physique domiciliĂ©e dans lâUnion europĂ©enne ou une sociĂ©tĂ© dont le siĂšge social se trouve dans lâUnion europĂ©enne. Cette restriction ne sâapplique pas aux utilisateurs finaux dâun produit ou dâun service qui intĂšgre de tels modĂšles multimodaux », indique Meta.
On retrouve une fois de plus les tensions entre Meta et lâEurope, lâentreprise ayant largement critiquĂ© cette derniĂšre pour ses « incertitudes rĂ©glementaires ». Elle a fustigĂ© plus dâune fois le DMA (notamment Ă cause de ses abonnements supprimant la publicitĂ© ), mais sâen est Ă©galement prise Ă lâAI Act, main dans la main avec Spotify . Mais en attendant que la situation se dĂ©tende, malgrĂ© un contexte gĂ©opolitique toujours plus complexe, ni les entreprises ni les chercheurs europĂ©ens ne peuvent officiellement mettre la main dessus.
Ajoutons enfin que, dans le reste du monde, les applications et services tirant parti de Llama 4 devront afficher une mention « Built with Llama ».