Livres, journaux, manuscrits, cartes, photographies, enregistrements sonores, vidéos… Gallica, la bibliothèque en ligne de la Bibliothèque nationale de France (BFN), est une mine d’or pour les internautes. Mais aussi pour les entreprises d’intelligence artificielle, qui se repaissent de ses 10 millions de documents librement accessibles. Pour les aspirer, afin d’entraîner leurs intelligences artificielles (IA), elles utilisent des « bots », des programmes automatisés chargés de ratisser le Web. Et ceux-ci sont devenus, pour la BNF, d’encombrants visiteurs.
« Le trafic a considérablement augmenté depuis deux ou trois ans », note Isabelle Nyffenegger, directrice générale adjointe de l’institution, chargée des services et réseaux. Et ce n’est pas sans conséquence : « Quand un gros robot passe, cela peut ralentir la performance du site au détriment de nos usagers. Ce qui nous oblige à faire des investissements. »
Wikipedia en fait aussi les frais. En avril, la fondation Wikimedia affirmait que les besoins en bande passante pour accéder aux images avaient augmenté de 50 % depuis janvier 2024. « Une importante partie de notre temps et de nos ressources est consacrée à la gestion du trafic nonh umain, regrette l’organisation. Notre contenu est gratuit, pas notre infrastructure. » Même problème pour le site de tutoriels de réparation iFixit. Son responsable, Kyle Wiens, a pesté, sur le réseau social X, contre les bots d’Anthropic : « Avez-vous vraiment besoin de solliciter nos serveurs un million de fois en 24 heures ? Non seulement vous prenez nos contenus sans payer, mais en plus vous monopolisez nos ressources. »
Il vous reste 77.39% de cet article à lire. La suite est réservée aux abonnés.