Climate Crisis On Track To Destroy Capitalism, Warns Top Insurer
Read more of this story at Slashdot.
Read more of this story at Slashdot.
Depuis plus de 15 ans maintenant, les ventirads "dual tower" trônent au sommet des performances de l'air cooling pour CPU. Avec leurs deux zones d'ailettes distinctes, ils permettent également d'envisager l'utilisation d'un ventilateur, de deux ou même de trois pour les plus motivés. Aujourd'hui nou...
Read more of this story at Slashdot.
Read more of this story at Slashdot.
Les câbles sous-marins à fibre optique sont les véritable épines dorsales de l’Internet mondial. Ils permettent de relier des pays et des continents, en complément de la fibre optique sur terre (et en l’air). Sur le papier, la solution semble idéale, mais elle a des contraintes techniques, notamment le besoin de répéteurs à intervalles réguliers.
Dans les précédents articles de notre dossier sur le fonctionnement d’Internet, nous avons pu suivre le voyage d’une requête. Nous sommes partis d’une URL, passée à la moulinette du DNS pour trouver l’adresse IP du serveur, puis nous avons utilisé les routes BGP pour le rejoindre. Un peu de peering et de transit via des points d’échange, éventuellement un « détour » par les CDN pour éviter de faire le tour de la Terre pour pas grand-chose, nous voilà à destination. Sur le papier, cela fonctionne bien. Mais en pratique, comment relie-t-on ce petit monde ?
Dans cette sixième partie, nous allons parler du cœur des réseaux. La principale technologie utilisée pour transporter des données est la fibre optique… mais on va commencer par briser un mythe auquel certains sont peut-être encore attachés : la fibre n’est pas le moyen le plus rapide (au sens de la latence) de transmettre des données.
Vous pensiez que la ASUS GeForce RTX 5080 ROG Astral aurait du mal à être détrônée de la place de plus grosse brique, pardon carte graphique de sa gamme ? Avec ses dimensions de 35,8 cm en longueur, 14,9 cm en hauteur et 7,6 cm en épaisseur, il faut dire qu'elle plaçait la barre très haut ! La carte...
Read more of this story at Slashdot.
Le store d'Epic Games vous offre le jeu Cat Quest II, vous avez jusqu'au 10 avril, 17 heures, pour l'ajouter ici. Un RPG d'action en open-world qui a pour cadre un royaume imaginaire de chats et de chiens. Dans Cat Quest II, vous pouvez jouer seul ou à deux. Accomplissez les quêtes de ce monde magique, terrassez des monstres et récoltez du butin ! […]
Lire la suitePour entrainer et tenir à jour leurs intelligences artificielles, les crawlers des entreprises d’IA parcourent le web en permanence et sont suspectés de ne pas respecter les fameux robots.txt censés permettre leur blocage. Leur activité va jusqu’à mettre en péril des sites web de projets de logiciels libres ou toucher fortement les activités de Wikimédia.
Les entreprises qui ont mis en place des IA génératives comme OpenAI, Meta, Anthropic, Mistral ou encore Amazon, Google et Microsoft ont besoin d’indexer des contenus sur le web en permanence pour entrainer leurs grands modèles de langage (LLM), récupérer les nouvelles informations afin que leurs outils soient capables de répondre aux demandes de leurs utilisateurs.
Mais en venant en permanence sur les sites web, ils ajoutent du trafic important à leur bande passante, au point de saturer certains. La fondation Wikimédia a publié un billet pour expliquer à quel point ces robots ont un impact sur ses projets : « Notre infrastructure est conçue pour supporter des pics soudains de trafic d’origine humaine lors d’événements très intéressants, mais le volume de trafic généré par les robots scrapeurs est sans précédent et présente des risques et des coûts croissants ».
En effet, ces entreprises récupèrent ces contenus à l’aide de « crawlers », des robots d’indexation, ou plutôt ici de récupération de données. OpenAI a officiellement donné le nom de son robot, GPTBot, en aout 2023, suscitant immédiatement la réaction de RSF qui a rapidement invité « tous les médias à configurer leurs sites pour éviter qu’OpenAI ne récupère leur contenu gratuitement ». C’est ce qu’ont fait beaucoup de sites web.
Pour cela, il « suffit » de lister dans le fichier robots.txt de son site les robots dont on ne veut pas. Mais, comme l’ont démontré récemment des chercheuses, certains robots récupèrent des informations de sites qui, pourtant, les ont ajoutés dans leurs listes. De plus, l’outil d’IA générative de Microsoft, Copilot, utilise BingBot, le robot d’indexation du moteur de recherche de l’entreprise. Un site qui voudrait bloquer l’IA de Microsoft ne serait plus indexé dans le moteur de recherche Bing.
Et, comme on l’a vu récemment, certains sites peuvent être visités 2 millions de fois par un bot en un trimestre. Il est déjà difficile pour des infrastructures comme celles de la Fondation Wikimédia de faire face à cet afflux « artificiel » pour gérer sa bande passante, mais ça l’est encore plus pour des projets qui ont moins de moyens.
Plusieurs responsables de projets de logiciels libres se sont plaints du problème, expliquait récemment ArsTechnica. Le développeur Xe Iaso a, par exemple, exprimé son ras-le-bol en janvier face au crawler d’Amazon : « À la personne qui gère AmazonBot, veuillez ajouter git.xeserv.us à votre liste de domaines bloqués. Si vous connaissez quelqu’un chez Amazon, merci de lui transmettre ce message et de lui demander de le transmettre à l’équipe d’AmazonBot » alors qu’il avait radicalement bloqué tous les robots dans son fichier robots.txt.
TheLibre.News a aussi recensé plusieurs infrastructures de logiciels libres touchés par ce problème. Le GitLab des développeurs de KDE a, par exemple, été touché par des crawlers ayant des IP détenues par Alibaba, ce qui l’a rendu temporairement inaccessible. L’un des administrateurs systèmes du projet Pagure de Fedora a, lui aussi, constaté un afflux massif de robots de récupération de données venant du Brésil. Il explique avoir décidé de bloquer temporairement toutes les IP brésiliennes pour en venir à bout tout en sachant bien que ce n’était pas une solution de long terme.
Gergely Orosz, qui publie la newsletter The Pragmatic Engineer, explique sur LinkedIn que le site d’un de ses projets personnels qui déclinait a reçu récemment un trafic important « lorsque le crawler AI de Meta et d’autres bots comme Imagesiftbot ont commencé à crawler le site sans réfléchir : ça a poussé le trafic à plus de 700Go par mois » alors qu’il était aux alentours de 100Go par mois un peu avant.
« Le site est hébergé sur Render où 500Go/mois sont inclus, au-delà c’est 30 $ pour 100Go. Ce mois-ci, je paie donc 90 $ pour l’entrainement de ces LLM », commente-t-il. Et lui aussi pointe que « l’ironie est que les robots – y compris Meta ! – ignorent manifestement le fichier robots.txt du site qui leur dit de « s’il vous plait, restez à l’écart » ».
Drew DeVault, le fondateur de la plateforme d’outils open source Source Hut, a publié un billet de blog le 17 mars dernier demandant aux entreprises d’IA génératives d’ « arrêter d’externaliser [leur] coûts directement sur [lui] ». « Au lieu de travailler sur nos priorités à SourceHut, j’ai passé entre 20 et 100 % de mon temps à atténuer les crawlers LLM hyper-agressifs », s’y lamente-t-il. Il explique que Source Hut subit des « dizaines de brèves pannes par semaine » et qu’il doit chercher tous les jours de nouvelles solutions pour ne pas voir la situation empirer. Le même jour, son entreprise expliquait que des crawlers de LLM continuaient à provoquer un DDoS sur SourceHut.
Elle expliquait avoir décidé de déployer Anubis pour essayer de bloquer les bots des entreprises d’IA. « Ce logiciel présente à certains utilisateurs un défi de preuve de travail qui est résolu par le navigateur de l’utilisateur à l’aide de JavaScript », explique SourceHut. C’est en fait une solution qu’a développé Xe Iaso après avoir publié son raz-le-bol.
D’autres solutions commencent à être développées, notamment en essayant de piéger les IA dans un labyrinthe de liens. Nepenthes, par exemple. Sa documentation explique que le logiciel « fonctionne en générant des séquences infinies de pages, chacune contenant des dizaines de liens, qui retournent simplement dans un piège ». Nepenthes ajoute des petits détails comme un délai ou une fausse apparence de fichiers statiques pour tromper le crawler.
De son côté, Cloudflare a aussi pensé à une solution de labyrinthe, explique-t-elle dans un billet de blog. Celle-ci « utilise du contenu généré par l’IA pour ralentir, embrouiller et gaspiller les ressources des AI Crawlers et d’autres robots qui ne respectent pas les directives « no crawl » ». L’entreprise, connue pour vendre des solutions pour augmenter la sécurité et les performances des sites internet, propose pour le moment à tous ses utilisateurs la possibilité d’activer gratuitement cette fonctionnalité.
Pour entrainer et tenir à jour leurs intelligences artificielles, les crawlers des entreprises d’IA parcourent le web en permanence et sont suspectés de ne pas respecter les fameux robots.txt censés permettre leur blocage. Leur activité va jusqu’à mettre en péril des sites web de projets de logiciels libres ou toucher fortement les activités de Wikimédia.
Les entreprises qui ont mis en place des IA génératives comme OpenAI, Meta, Anthropic, Mistral ou encore Amazon, Google et Microsoft ont besoin d’indexer des contenus sur le web en permanence pour entrainer leurs grands modèles de langage (LLM), récupérer les nouvelles informations afin que leurs outils soient capables de répondre aux demandes de leurs utilisateurs.
Mais en venant en permanence sur les sites web, ils ajoutent du trafic important à leur bande passante, au point de saturer certains. La fondation Wikimédia a publié un billet pour expliquer à quel point ces robots ont un impact sur ses projets : « Notre infrastructure est conçue pour supporter des pics soudains de trafic d’origine humaine lors d’événements très intéressants, mais le volume de trafic généré par les robots scrapeurs est sans précédent et présente des risques et des coûts croissants ».
En effet, ces entreprises récupèrent ces contenus à l’aide de « crawlers », des robots d’indexation, ou plutôt ici de récupération de données. OpenAI a officiellement donné le nom de son robot, GPTBot, en aout 2023, suscitant immédiatement la réaction de RSF qui a rapidement invité « tous les médias à configurer leurs sites pour éviter qu’OpenAI ne récupère leur contenu gratuitement ». C’est ce qu’ont fait beaucoup de sites web.
Pour cela, il « suffit » de lister dans le fichier robots.txt de son site les robots dont on ne veut pas. Mais, comme l’ont démontré récemment des chercheuses, certains robots récupèrent des informations de sites qui, pourtant, les ont ajoutés dans leurs listes. De plus, l’outil d’IA générative de Microsoft, Copilot, utilise BingBot, le robot d’indexation du moteur de recherche de l’entreprise. Un site qui voudrait bloquer l’IA de Microsoft ne serait plus indexé dans le moteur de recherche Bing.
Et, comme on l’a vu récemment, certains sites peuvent être visités 2 millions de fois par un bot en un trimestre. Il est déjà difficile pour des infrastructures comme celles de la Fondation Wikimédia de faire face à cet afflux « artificiel » pour gérer sa bande passante, mais ça l’est encore plus pour des projets qui ont moins de moyens.
Plusieurs responsables de projets de logiciels libres se sont plaints du problème, expliquait récemment ArsTechnica. Le développeur Xe Iaso a, par exemple, exprimé son ras-le-bol en janvier face au crawler d’Amazon : « À la personne qui gère AmazonBot, veuillez ajouter git.xeserv.us à votre liste de domaines bloqués. Si vous connaissez quelqu’un chez Amazon, merci de lui transmettre ce message et de lui demander de le transmettre à l’équipe d’AmazonBot » alors qu’il avait radicalement bloqué tous les robots dans son fichier robots.txt.
TheLibre.News a aussi recensé plusieurs infrastructures de logiciels libres touchés par ce problème. Le GitLab des développeurs de KDE a, par exemple, été touché par des crawlers ayant des IP détenues par Alibaba, ce qui l’a rendu temporairement inaccessible. L’un des administrateurs systèmes du projet Pagure de Fedora a, lui aussi, constaté un afflux massif de robots de récupération de données venant du Brésil. Il explique avoir décidé de bloquer temporairement toutes les IP brésiliennes pour en venir à bout tout en sachant bien que ce n’était pas une solution de long terme.
Gergely Orosz, qui publie la newsletter The Pragmatic Engineer, explique sur LinkedIn que le site d’un de ses projets personnels qui déclinait a reçu récemment un trafic important « lorsque le crawler AI de Meta et d’autres bots comme Imagesiftbot ont commencé à crawler le site sans réfléchir : ça a poussé le trafic à plus de 700Go par mois » alors qu’il était aux alentours de 100Go par mois un peu avant.
« Le site est hébergé sur Render où 500Go/mois sont inclus, au-delà c’est 30 $ pour 100Go. Ce mois-ci, je paie donc 90 $ pour l’entrainement de ces LLM », commente-t-il. Et lui aussi pointe que « l’ironie est que les robots – y compris Meta ! – ignorent manifestement le fichier robots.txt du site qui leur dit de « s’il vous plait, restez à l’écart » ».
Drew DeVault, le fondateur de la plateforme d’outils open source Source Hut, a publié un billet de blog le 17 mars dernier demandant aux entreprises d’IA génératives d’ « arrêter d’externaliser [leur] coûts directement sur [lui] ». « Au lieu de travailler sur nos priorités à SourceHut, j’ai passé entre 20 et 100 % de mon temps à atténuer les crawlers LLM hyper-agressifs », s’y lamente-t-il. Il explique que Source Hut subit des « dizaines de brèves pannes par semaine » et qu’il doit chercher tous les jours de nouvelles solutions pour ne pas voir la situation empirer. Le même jour, son entreprise expliquait que des crawlers de LLM continuaient à provoquer un DDoS sur SourceHut.
Elle expliquait avoir décidé de déployer Anubis pour essayer de bloquer les bots des entreprises d’IA. « Ce logiciel présente à certains utilisateurs un défi de preuve de travail qui est résolu par le navigateur de l’utilisateur à l’aide de JavaScript », explique SourceHut. C’est en fait une solution qu’a développé Xe Iaso après avoir publié son raz-le-bol.
D’autres solutions commencent à être développées, notamment en essayant de piéger les IA dans un labyrinthe de liens. Nepenthes, par exemple. Sa documentation explique que le logiciel « fonctionne en générant des séquences infinies de pages, chacune contenant des dizaines de liens, qui retournent simplement dans un piège ». Nepenthes ajoute des petits détails comme un délai ou une fausse apparence de fichiers statiques pour tromper le crawler.
De son côté, Cloudflare a aussi pensé à une solution de labyrinthe, explique-t-elle dans un billet de blog. Celle-ci « utilise du contenu généré par l’IA pour ralentir, embrouiller et gaspiller les ressources des AI Crawlers et d’autres robots qui ne respectent pas les directives « no crawl » ». L’entreprise, connue pour vendre des solutions pour augmenter la sécurité et les performances des sites internet, propose pour le moment à tous ses utilisateurs la possibilité d’activer gratuitement cette fonctionnalité.
Read more of this story at Slashdot.
Read more of this story at Slashdot.
Évoquant des pressions et concessions en faveur des industriels, Reporters sans frontières estime que « rien de concret n’est fait pour protéger le droit des citoyens à accéder à une information fiable » dans l’AI Act. Une coalition de 38 organisations représentant les ayants droit déplore de son côté qu’il contrevienne « au droit de l’UE et ignore l’intention du législateur européen ».
L’ONG Reporters sans frontières (RSF) vient d’annoncer qu’elle quittait la table des négociations du Code de bonnes pratiques du règlement européen sur l’intelligence artificielle (AI Act). « Après avoir joué, en vain, le jeu de la négociation », elle « dénonce l’absence de garanties sur le droit à l’information et le poids exorbitant de l’industrie dans le processus ».
Au terme de trois mois de négociations « sous la pression croissante des géants technologiques », souligne RSF, le Bureau européen de l’IA a en effet publié ce 11 mars 2025, la troisième version de travail de son Code de bonnes pratiques de l’AI Act.
« Le projet repose sur une liste concise d’engagements de haut niveau et prévoit des mesures plus détaillées pour mettre en œuvre chaque engagement », précise la Commission, qui en propose un résumé dédié et un site web interactif.
Il s’agit de « 2 engagements liés à la transparence et au droit d’auteur » pour tous les fournisseurs de modèles d’IA à usage général, mais « avec des exemptions notables aux obligations de transparence pour les fournisseurs de certains modèles open source conformément à la loi sur la transparence », et de « 16 autres engagements liés à la sûreté et à la sécurité », mais « uniquement pour un petit nombre » de fournisseurs de modèles d’IA classés comme « présentant un risque systémique ».
Le processus de rédaction de ce code s’étalera jusqu’en mai 2025 et implique près de 1000 parties prenantes, dont des représentants des États membres de l’UE et des observateurs européens et internationaux, précise la Commission dans sa FAQ consacrée à la question.
Mais « toutes ne bénéficient cependant pas du même statut », relevait RSF en décembre dernier : les fournisseurs d’IA sont en effet invités à des « ateliers de rédaction » tandis que les autres acteurs, comme les universitaires et organisations de la société civile, « sont uniquement conviés à émettre leur avis sur les versions intermédiaires du texte, et à participer à des groupes de travail – auxquels participent également les fournisseurs d’IA ».
On vous promet qu'il y a bien une sélection de 21 nouveaux jeux en avril sur GeForce NOW. Alors préparez-vous pour ce nouveau mois passionnant de mises à jour GFN Thursday avec un aperçu de ce qui arrive dans le cloud. On commence avec du tout frais puisque 8 titres seront disponibles dès leur sortie, comme The Talos Principle: Reawakened (10 avril), Sunderfolk (23 avril), Clair Obscur: Expedition 33 (23 avril) et bien plus. Mais aussi bientôt le cloud, l'accès anticipé à South of Midnight de Compulsion Games. Soyez parmi les premiers à découvrir ce jeu d'action-aventure très attendu, inspiré par les thèmes du Southern Gothic, sans avoir à attendre les téléchargements ou les mises à jour grâce à GeForce NOW. Incarnez Hazel, une Tisseuse aux pouvoirs magiques, et explorez le mythe du Deep South. Pour finir, la carte populaire Veradnsky revient dans la Saison 3 de Call of Duty: Warzone, reconstruite avec des améliorations visuelles et des optimisations de gameplay. Découvrez-la dans le cloud sans avoir à attendre le téléchargement de patchs. […]
Lire la suiteMDSXXX1 vient de publier un mod de texture HD pour le jeu Max Payne 3, celui-ci est téléchargeable ici et pèse 20 Go. La particularité de ce mod est qu'il n'est pas basé sur l'intelligence artificielle afin de générer un maximum de nouvelles textures, rapidement, MDSXXX1 semble avoir effectué un travail plus classique, ce qui pourrait être gage de qualité, mais cela signifie également que le style artistique initial peut avoir été altéré. Cela nous donne l'envie de nous replonger dans cet épisode, avant les très attendus remake de Max Payne 1 et 2. […]
Lire la suite