Cloudflare va bloquer les crawlers des IA par défaut
Humains, non-humains

La récupération sauvage de contenus en ligne pour entrainer les IA génératives va devenir plus compliquée. Cloudflare a décidé d’activer par défaut ses outils qui permettent de bloquer les bots des IA sur les sites de ses clients. L’entreprise teste en parallèle un programme permettant de les débloquer moyennant finance.
Face au sérieux problème créé par les crawlers d’IA sur l’accès aux sites web, Cloudflare vient d’annoncer qu’elle passait à l’offensive. Après avoir développé des outils pour les bloquer et avoir donné la possibilité de les utiliser gratuitement, l’entreprise passe à la vitesse supérieure en les activant par défaut sur tous les sites qui utilisent ses solutions.
Des sites qui vacillent à cause du trafic généré par les crawlers
Il faut dire que la question devient de plus en plus problématique pour les responsables de sites web. En passant très régulièrement sur les différentes pages à l’affût de la moindre information nouvelle, les crawlers mettent en péril de nombreux sites web, ceux de projets scientifiques, de logiciels libres et ont même de fortes répercussions sur les activités de Wikimédia.
Un trafic artificiel qui prend le pas sur le trafic humain
En plus de l’infrastructure que cette augmentation soudaine de trafic artificiel implique, les outils qui utilisent ces crawlers ont de moins en moins tendance à renvoyer de visiteurs réels aux sites. Le 19 juin, lors d’un événement organisé à Cannes par Axios, le CEO de Cloudflare, Matthew Prince expliquait cette rapide évolution.
Il y a 10 ans, pour un visiteur qui visitait un site depuis le moteur de recherche de Google, les robots de Google parcouraient 2 pages.
Il y a seulement six mois, selon lui, ce ratio était de :
- 1 visiteur pour 6 pages parcourues par les robots de Google
- 1 visiteur pour 250 pages parcourues par les robots d’OpenAI
- 1 visiteur pour 6 000 pages parcourues par les robots d’Anthropic.
Mais, toujours selon Matthew Prince, maintenant ce ratio est passé à :
- 1 visiteur pour 18 pages parcourues chez Google
- 1 visiteur pour 1 500 pages parcourues chez OpenAI
- 1 visiteur pour 60 000 pages parcourues chez Anthropic
Comme il le résume, « les gens ne lisent plus les notes de bas de page ».
Son entreprise a encore fait des mesure la semaine d’après (du 19 au 26 juin). Et ces chiffres ont encore gonflés. Dans un billet de blog publié ce mardi 1er juillet, elle montre que le ratio mesuré pour Anthropic était de 70 900 pages parcourues par les robots d’Anthropic pour un visiteur qui cliquait sur le lien vers l’article original.
Des outils par défaut et une option pour un blocage uniquement sur les pages comportant des pubs
Cloudflare explique dans un autre billet de blog qu’elle fournit maintenant deux outils pour ses clients. Le premier permet de gérer de façon fine la rédaction du fichier robots.txt qui indique aux différents robots s’ils peuvent ou pas parcourir le site et ses différentes sections. C’est une première étape, mais si le respect de ce fichier est une bonne pratique, les responsables de robots sans vergogne peuvent passer outre.
Le deuxième outil proposé par Cloudflare permet de bloquer le parcours du site par tous les robots. L’entreprise propose deux options : soit de bloquer les robots sur toutes les pages, soit de les bloquer seulement sur celles qui contiennent des publicités.

Une arme de négociation pour les éditeurs
Concernant la fiabilité du blocage, « je suis convaincu à 100 % que nous pouvons les empêcher d’accéder au contenu », a affirmé Matthew Prince au New York Times. Ajoutant, « et s’ils n’ont pas accès au contenu, leurs produits seront moins bons ». L’idée étant d’amener les entreprises d’IA génératives à négocier, notamment avec les éditeurs des sites les plus importants.
« Jusqu’à présent, les entreprises d’IA n’avaient pas besoin de payer pour obtenir des licences de contenu, car elles savaient qu’elles pouvaient les prendre sans conséquences », explique à Wired le CEO de The Atlantic. « Désormais, elles devront négocier, et cela deviendra un avantage concurrentiel pour les entreprises d’IA qui parviendront à conclure des accords plus nombreux et de meilleure qualité avec des éditeurs plus nombreux et de meilleure qualité ».