Apple imite les données des utilisateurs pour entrainer ses IA
La différence, pour le meilleur et pour le pire

L’utilité et les performances des services dopés à l’IA d’Apple sont remises en question. La voie d’amélioration des modèles est toute trouvée : leur fournir des données fraiches. Mais les proclamations de l’entreprise sur la vie privée la coincent. Elle explique donc comment elle procède.
L’intelligence artificielle générative chez Apple, ce sont pour l’instant des milliards de dollars et une rentabilité nulle. Non seulement il a fallu s’armer face à la concurrence pour ne pas paraître « has been », mais tout s’est fait dans l’urgence, avec une compatibilité limitée et des résultats moyens. Le bouquet de services Apple Intelligence est globalement peu apprécié, avec en point d’orgue le retard calamiteux du nouveau Siri. Au point qu’aux États-Unis, un recours collectif a été déposé devant un tribunal californien.
On le sait depuis un moment maintenant, l’une des clés des performances des modèles réside dans les données disponibles. Or, l’approche spécifique d’Apple envers la vie privée la laisse le bec dans l’eau. Ce qui n’aurait pu être initialement qu’un argument marketing a aujourd’hui un impact fort, car l’entreprise est attendue au tournant.
Dans un communiqué hier, elle a donc exposé sa solution : la confidentialité différentielle.
Confidentialité différentielle : quésaco ?
« Apple n’utilise pas les données personnelles privées de ses utilisateurs ni leurs interactions lors de l’entraînement de ses modèles de base et, pour le contenu disponible publiquement sur Internet, nous appliquons des filtres pour supprimer les informations personnellement identifiables telles que les numéros de Sécurité sociale et de carte de crédit », explique Apple dans son billet.
Comment améliorer la pertinence de ses suggestions dans ce cas, surtout dans les outils d’écriture ? Avec un mécanisme déjà utilisé par l’entreprise pour ses Genmoji. Chez les personnes ayant autorisé le partage d’informations sur le compte iCloud, les données de ce dernier sont mélangées avec d’autres, synthétiques.



Le mécanisme de base consiste ainsi à ajouter un « bruit » statistique contrôlé aux données collectées localement sur les appareils des utilisateurs participants avant de les agréger sur les serveurs d’Apple. Ce bruit masque les contributions individuelles, rendant mathématiquement très improbable (voire impossible, selon Apple) de remonter à un utilisateur spécifique ou de découvrir des requêtes uniques ou rares. Apple affirme qu’il faut que des centaines d’utilisateurs utilisent un même terme ou schéma de requête (non unique) pour que celui-ci émerge comme une tendance détectable au niveau agrégé.
Une compréhension du « comment »
Apple dit se servir de ce mécanisme pour connaitre les invites (prompt) populaires, car elles permettent à l’entreprise « d’évaluer les modifications et les améliorations apportées à [ses] modèles en fonction des types d’invites les plus représentatifs de l’engagement réel des utilisateurs ».
L’approche d’Apple consiste à décomposer une requête en fragments. Les appareils participants sont ensuite interrogés au hasard pour savoir si ce fragment a déjà été rencontré. Si c’est le cas, ils répondent avec un signal « bruité », sans association avec l’adresse IP ou le compte iCloud.
Ce mécanisme statistique permet à Apple de savoir essentiellement comment sont utilisées ses fonctions et quelles sont les requêtes les plus fréquentes. Cependant, elle n’est pas suffisante pour du texte.
Pour le texte, c’est plus compliqué
Si cette approche a été suffisante en effet pour les Genmoji, il en va autrement des outils textuels, nettement plus complexes. D’autant que savoir « comment » ne répond pas à la question de l’entrainement des LLM.
Apple indique donc créer de vastes collections de phrases et e-mails synthétiques « dont le sujet ou le style est suffisamment similaire au contenu réel pour nous aider à améliorer nos modèles de résumé ». Pour créer ces données, Apple se sert d’un grand modèle de langage.
La suite est plutôt maline. Apple génère des lots de phrases et e-mails synthétiques pour couvrir autant de sujets courants que possible. Ils doivent être « représentatifs », selon l’entreprise. La société fournit le sujet suivant comme exemple : « Aimeriez-vous jouer au tennis demain à 11h30 ». Chaque e-mail produit ensuite une représentation numérique, pour « capturer » les informations clés de chaque message, comme la langue, le sujet et la longueur.

Après quoi, des lots sont envoyés aux appareils dont les utilisateurs ont choisi de participer à l’analyse des données. Là, un processus local compare les données synthétiques aux données réelles de la machine. Au cours d’une intégration, le processus « décide » quelles données sont les plus proches des informations synthétiques. Plus les correspondances sont nombreuses, plus l’approche statistique fonctionne : Apple peut voir les formules les plus utilisées et peut donc les prédire avec efficacité.
L’entreprise ajoute que les données synthétiques peuvent également faire l’objet d’étapes supplémentaires de curation, par exemple en remplaçant « tennis » par « football », pour observer le résultat. Apple insiste dans tous les cas : le contenu réel ne quitte jamais l’appareil, n’est pas associé à l’adresse IP ni au compte iCloud. Les informations transmises à l’entreprise sont là encore bruitées, toujours avec les mêmes techniques de confidentialité différentielle.
Un choix entre précision et vie privée ?
Si on lit entre les lignes, on peut deviner le message marketing derrière les explications de l’entreprise : nous ne serons peut-être jamais aussi performants que la concurrence en matière d’IA, mais au moins la vie privée est protégée. Au moins, comme on peut le lire dans certains recoins du web, Apple n’a pas prévu d’utiliser les données des e-mails pour entrainer ses modèles.
Dans quels cas concrets ces résultats sont-ils ensuite utilisés ? Pour des fonctions désormais classiques comme la reformulation d’un e-mail, le résumé d’un texte, la suggestion de réponses intelligentes, la recherche d’informations contextuelles ou encore la priorisation des notifications. Mais comme on l’a vu au lancement d’Apple Intelligence en Europe, tout ce qui touche à la priorisation ou aux résumés de notification va demander encore du travail. La BBC peut en attester, tant le média britannique a été concerné de près par le problème.
Et le problème ne va sans doute pas être résolu du jour au lendemain. La faille « évidente » de l’approche est qu’elle table sur les personnes ayant activé le partage d’informations sur leurs appareils. La question est posée à la première configuration et est en opt-in. Sur Mac par exemple, elle se retrouve dans Réglages, puis « Confidentialité et sécurité », puis « Analyse et améliorations ». Rien n’est coché par défaut et ces paramètres ont tendance à être oubliés par la suite.
Reste à voir si Apple obtiendra de bons résultats. Jusqu’à présent, l’entrainement sur des données synthétiques exclusivement a été jugé périlleux, avec un risque élevé de développer des hallucinations. Il est probable qu’Apple ait noué des partenariats pour obtenir des données réelles, mais la firme ne s’est jamais exprimée sur ce point.