Wikimedia фіксує зростання навантаження через ШІ-ботів, які масово завантажують контент

Компанія Wikimedia повідомила про різке зростання споживання трафіку з початку 2024 року. Обсяг завантажень мультимедійного контенту з платформи Wikimedia Commons зріс на 50%. Основною причиною стали автоматизовані системи збору даних, що використовують відкриті ресурси для навчання штучного інтелекту.
За словами представників компанії сервери Wikimedia зазвичай адаптовані до пікового навантаження під час подій, які викликають високий суспільний інтерес. Однак обсяг трафіку, який генерують боти, перевищив очікувані межі й створює загрозу для стабільної роботи платформи.
Проблема ускладнюється тим, що люди переважно звертаються до популярних сторінок, які зберігаються ближче до користувача в кеші, тоді як боти масово завантажують маловідомі сторінки й файли. Це призводить до частішого використання центрального датацентру, що суттєво збільшує витрати на обробку запитів.
Згідно з аналізом Wikimedia, 65% найресурсоємнішого трафіку надходить від ботів, хоча на них припадає лише 35% переглядів сторінок. Команда Site Reliability змушена регулярно блокувати такі запити, щоб уникнути уповільнення доступу для звичайних читачів.
Wikimedia також звертає увагу на ще одну проблему — використання контенту без належного зазначення авторства. Це ускладнює залучення нових учасників до проєкту, який функціонує коштом пожертв. Водночас компанія не очікує, що потік запитів від ШІ-ботів зменшиться найближчим часом.
Джерело: Tech Crunch