ШІ-стартап Perplexity звинувачують у прихованому скануванні сайтів попри заборони

Провайдер хмарної інфраструктури й захисту сайтів Cloudflare повідомив, що стартап Perplexity, який розробляє пошуковий сервіс на базі штучного інтелекту, продовжує збирати дані із сайтів, навіть якщо ті забороняють індексацію через файл robots.txt або фаєрволи.
Звіт Cloudflare показує, що Perplexity обходить обмеження, маскуючи свої вебскрейпери під звичайні браузери (зокрема Chrome на macOS), змінюючи IP-адреси та використовуючи різні автономні системи (ASN), що ускладнює виявлення активності. У тестах Cloudflare бот Perplexity відображав вміст нового сайту навіть за умов явної заборони в robots.txt і на рівні фаєрволу. Компанія також зафіксувала мільйони подібних запитів щодня до десятків тисяч доменів, що вказує на масштабність дій.
Perplexity вже раніше звинувачували в порушенні правил щодо збору даних. У 2024 році низка сайтів повідомляла, що компанія продовжує доступ до контенту попри заборони, пояснюючи це помилками сторонніх краулерів. Після скандалу Perplexity уклала угоди з низкою видавців про розподіл прибутку від реклами, що розміщується поряд із їхнім контентом.
Cloudflare наразі вилучив боти Perplexity зі списку перевірених і впровадила нові інструменти для ідентифікації й блокування так званих «прихованих краулерів».
Джерело: Engadget