Et si votre médecin était (aussi) une IA ?
Une nouvelle étude a fait l‘effet d’une bombe : l’IA surclasserait souvent les médecins. Alors qu’erreurs et examens inutiles coûtent 35 milliards d’euros par an à la France — trois fois le budget de la justice —, l’enjeu de son intégration est considérable. Mais résiste-t-elle à l’épreuve du terrain ?
On parle beaucoup de l’IA médicale comme si elle annonçait une médecine froide, automatisée et déshumanisée, où la présence de l’homme finirait par devenir secondaire. Certains prédisent déjà des consultations pilotées par algorithmes, des diagnostics produits uniquement par des machines, des prescriptions automatisées, et conseillent même aux jeunes de ne plus faire d’études de médecine. Comme si le métier allait disparaître avant qu’ils aient le temps de l’exercer. Cette vision est compréhensible en observant la rapidité des avancées offertes par la révolution proposée par l’IA, mais, à ce jour, elle reste largement du domaine de la science-fiction. Il faut partir du réel.
Et le réel, aujourd’hui, c’est aussi celui des erreurs médicales, des diagnostics retardés, des signaux faibles qui passent sous les radars, des patients atypiques que l’on ne voit pas assez vite. Aux urgences, on estime qu’environ 5 % des passages donnent lieu à au moins une erreur diagnostique. Dans certains dossiers hospitaliers de patients décédés ou transférés en réanimation, une étude publiée dans JAMA Internal Medicine retrouvait ces erreurs dans près d’un quart des cas analysés. Et la France n’est évidemment pas épargnée. Dans un rapport publié le 28 avril 2026 sur la qualité des soins dans les établissements de santé, la Cour des comptes rappelle que 13 millions de patients sont accueillis chaque année dans près de 3 000 établissements, et que les erreurs médicales comme les infections nosocomiales touchent chaque année plusieurs milliers de patients, avec des complications graves et des décès inattendus.
La non-qualité a aussi un coût considérable : plus de 11 milliards d’euros sont consacrés à la réparation des préjudices évitables, 22 milliards pour les soins inutiles ou à faible valeur, et entre 2,2 et 5,2 milliards pour les infections nosocomiales. Le système purement humain sauve énormément de vies, bien sûr. Mais il se trompe aussi, il sous-déclare, il mesure imparfaitement, et il produit parfois des actes inutiles ou insuffisamment pertinents. C’est à partir de ce constat, et non d’un fantasme technologique, qu’il faut discuter de l’IA.
Une étude publiée dans Science vient précisément illustrer la place qu’elle pourrait prendre dans l’aide au diagnostic et dans la pertinence des actes. Les auteurs ont comparé un modèle d’IA avec des médecins sur plusieurs aspects du raisonnement clinique : élaboration du diagnostic différentiel, choix des examens complémentaires, approche probabiliste, stratégie de prise en charge et rédaction de l’argumentaire médical. Le modèle utilisé était o1-preview d’OpenAI, lancé en septembre 2024. Conçu pour « prendre davantage de temps » avant de répondre, il vise à améliorer les performances sur des tâches cognitives complexes.
Ce point est important : il ne s’agit déjà plus du modèle le plus récent. Depuis, OpenAI en a lancé d’autres encore plus performants. Autrement dit, l’étude évalue une génération déjà dépassée (le temps nécessaire à l’analyse des données et de la revue par les pairs), ce qui rend ses résultats encore plus intéressants, mais impose aussi de les réactualiser avec les nouveaux opus.
Le résultat interpelle, et s’avère un peu dérangeant. Car, dans l’ensemble des expériences, l’IA fait mieux que les médecins. Le plus intéressant n’est pas seulement qu’un modèle réussisse des cas cliniques académiques, construits pour tester le raisonnement. Ce type de benchmark a ses limites. On sait qu’une vignette bien écrite, propre, structurée, ressemble parfois plus à un examen qu’à la vraie vie. Ce qui frappe ici, c’est que les auteurs ont aussi testé le modèle sur 76 vrais cas d’urgences, issus du dossier médical d’un grand centre universitaire, à trois moments différents : le tri initial, l’évaluation par le médecin urgentiste, puis l’admission dans un service ou en réanimation. Autrement dit, des données imparfaites, incomplètes, évolutives, comme dans la vraie médecine. Au tri initial, moment où il y a le moins d’informations et parfois le plus d’enjeux, l’IA identifie le bon diagnostic ou un diagnostic très proche dans 67,1 % des cas, contre 55,3 % et 50 % pour les deux médecins référents. Lors de l’évaluation aux urgences, elle atteint 72,4 %, contre 61,8 % et 52,6 %. À l’admission, elle monte à 81,6 %, contre 78,9 % et 69,7 %. L’écart est donc maximal là où la médecine est la plus difficile : quand il faut raisonner vite, avec peu de données, et ne pas rater l’infarctus atypique, le sepsis débutant, l’embolie pulmonaire discrète ou l’accident vasculaire trompeur.
L’étude ne s’arrête d’ailleurs pas au diagnostic. Les auteurs ont aussi évalué la capacité du modèle à proposer le prochain examen pertinent dans des cas clinicopathologiques académiques. Sur 136 d’entre eux, o1-preview a sélectionné l’examen jugé exactement approprié avec une acuité de 87,5 % ; dans 11 % supplémentaires, le choix a été considéré comme utile ; seuls 1,5 % ne l’ont pas été. C’est évidemment encore très éloigné d’une démonstration médico-économique en vie réelle, mais cela ouvre une piste importante : une IA bien intégrée pourrait non seulement mieux diagnostiquer, mais aussi aider à prescrire les examens complémentaires les plus adaptés, en évitant à la fois les oublis dangereux et les actes réflexes peu pertinents.
Il faut bien mesurer ce que cela signifie. Il ne s’agit pas de voir l’IA devenir médecin. Pas davantage de l’envisager en capacité de remplacer la clinique, le toucher, le regard, l’écoute, l’intuition ou la responsabilité. Rien ne peut à ce jour évincer l’œil du maquignon. Mais il faut ouvrir la voie au fait qu’une partie du raisonnement médical, celle qui consiste à organiser des hypothèses, à hiérarchiser des risques, à ne pas se laisser enfermer trop vite dans une première impression, soit désormais accessible à des modèles généralistes avec une performance parfois supérieure à celle de médecins expérimentés.
Il existe toutefois un risque très sérieux dans l’utilisation non réfléchie de l’IA : la perte de compétences humaines. Ce n’est pas une inquiétude de principe. Elle est documentée. Un essai randomisé récent montre que des médecins formés à l’usage de l’IA, exposés à des recommandations erronées de modèle de langage, voyaient leurs scores de raisonnement diagnostique diminuer d’environ 14 % par rapport à ceux recevant des suggestions sans erreur. Le point le plus troublant est que les médecins les plus expérimentés semblaient plus vulnérables à cet effet. Peut-être parce qu’une réponse d’IA bien rédigée, fluide, apparemment experte, active un biais d’autorité. L’expérience protège de beaucoup de choses, mais pas forcément d’un outil qui parle avec assurance et dans lequel on aurait une confiance aveugle.
C’est là que le débat devient intéressant. Refuser l’IA au nom de la préservation des compétences serait probablement une erreur. Mais l’utiliser sans cadre, sans méthode, sans apprentissage de ses pièges, en serait une autre. Si l’IA raisonne toujours avant nous, nous risquons de raisonner moins. Si elle propose trop vite une synthèse, un diagnostic, une conduite à tenir, elle peut réduire l’effort cognitif du médecin. On le sait déjà avec d’autres automatismes : le GPS modifie notre sens de l’orientation, les calculatrices changent notre rapport au calcul, les pilotes automatiques transforment les compétences de conduite. En médecine, cette déperdition serait plus grave, car le raisonnement clinique n’est pas seulement une compétence technique. C’est une responsabilité.
Mais cette crainte ne doit pas servir d’alibi à l’immobilisme. La bonne question n’est pas : IA ou médecin ? Elle n’est pas pertinente et monopolise trop de fantasmes et d’énergie. L’évolution la plus cohérente doit conduire à la constitution d’un binôme formé par un médecin accompagné par l’IA. Il sera presque toujours supérieur à un médecin ou une IA seule, à condition que la collaboration soit bien organisée. L’IA peut devenir un deuxième cerveau, non pas pour décider à la place du clinicien, mais pour augmenter sa vigilance. Elle peut rappeler les diagnostics à ne pas manquer, détecter des incohérences, signaler un retour précoce après une première consultation, repérer une constante qui dérive, une biologie qui ne colle pas, une prescription à risque, une association de symptômes rares mais graves. Elle peut surtout servir de contradicteur structuré : « as-tu pensé à cela ? », « quel diagnostic redoutable expliquerait aussi ce tableau ? », « As-tu pensé à demander cette analyse génétique qui pourrait déboucher sur la prescription de cette molécule à l’essai à Lyon dans une étude de phase 1 dans le cancer du pancréas ? » etc…
Dans cette perspective, l’IA ne serait pas systématiquement présente en consultation, ne devant pas devenir un tiers envahissant dans le colloque singulier. Dans certains cas, elle n’apportera rien, ou presque rien, sinon du bruit. Mais dans les situations complexes, atypiques, aiguës, à haut risque, ou lorsqu’une décision engage fortement le pronostic, elle peut devenir un filet de sécurité, un véritable compagnon expert. C’est probablement cette piste qu’il faut suivre. Non celle de l’usage systématique de l’IA, mais en la rendant disponible, traçable, évaluée, utilisée au bon moment. Une intelligence médicale augmentée, au cas par cas.
Il y a aussi un enjeu économique majeur. Nos systèmes de santé ne souffrent pas seulement d’un manque de moyens, mais aussi d’actes redondants ou demandés par réflexe, d’imageries peu pertinentes, de bilans répétés, mais aussi d’examens indispensables oubliés ou retardés. Une IA bien conçue pourrait aider à améliorer la pertinence des soins. Non en prescrivant plus, mais en prescrivant mieux. Elle pourrait hiérarchiser les examens complémentaires selon leur probabilité d’apporter une information utile, intégrer les résultats déjà disponibles, éviter les duplications, rappeler les recommandations, et alerter quand un test coûteux est peu contributif ou, inversement, quand un examen est nécessaire malgré une présentation trompeuse. Des travaux récents sur le diagnostic séquentiel montrent déjà que des systèmes IA peuvent intégrer la question du coût des examens dans le raisonnement diagnostique, avec des gains potentiels en termes de précision et de prix, selon les configurations testées.
La formation médicale devra nécessairement évoluer et vite. Une règle simple pourrait être proposée : d’abord le raisonnement humain, ensuite la confrontation à l’IA. L’interne, le médecin, l’équipe formulent leurs hypothèses, les diagnostics graves à ne pas manquer, le plan d’examens. Puis l’IA vient challenger ce raisonnement, non le remplacer. C’est très différent d’un usage passif où l’on demande d’emblée à la machine ce qu’il faut penser. Dans le premier cas, elle stimule la compétence. Dans le second, elle risque de l’endormir. Et de déshumaniser la pratique médicale.
Il faudra aussi des essais prospectifs. Pas seulement des benchmarks. De vraies études en conditions de soins, mesurant ce qui compte vraiment : moins d’erreurs diagnostiques, moins de retards, moins d’examens inutiles, moins de coûts évitables, moins de complications, mais aussi le maintien des compétences des médecins, l’acceptabilité par les patients, la définition d’une responsabilité juridique claire et une traçabilité des décisions.
L’avenir raisonnable ne passe pas par le remplacement du médecin par l’IA. Encore moins par des praticiens refusant l’IA par orgueil ou par peur. Mais par une médecine apprenant à travailler en binôme avec cette nouvelle technologie, sans lui abandonner ce qui fait le cœur du métier : regarder, écouter, examiner, décider, expliquer, et répondre de ses choix.
L’article Et si votre médecin était (aussi) une IA ? est apparu en premier sur Les Électrons Libres.