Стартап у сфері штучного інтелекту Perplexity займається збором і копіюванням контенту з веб-сайтів, які чітко заявили, що не бажають бути обробленими, про що повідомляє провайдер інтернет-інфраструктури Cloudflare.
Незаконна діяльність Perplexity
У понеділок Cloudflare випустила дослідження, в якому йдеться про порушення з боку Perplexity. Вони зафіксували, що стартап проігнорував блокування і затаїв свої дії зі збору даних. Дослідники компанії звинуватили Perplexity в приховуванні своєї особи під час спроби збору веб-сторінок, намагаючись обійти побажання сайтів.
Продукти штучного інтелекту, подібні до тих, що пропонує Perplexity, залежать від обробки великих обсягів даних з інтернету. Багато стартапів у галузі штучного інтелекту давно скопіювали тексти, зображення та відео з інтернету без дозволу для оптимізації своїх продуктів. Останнім часом веб-сайти намагалися протидіяти цьому, використовуючи стандартний файл Robots.txt, який вказує пошуковим системам та компаніям штучного інтелекту, які сторінки можна індексувати, а які — ні. Ці зусилля поки що принесли змішані результати.
Згідно з Cloudflare, Perplexity свідомо обходить ці блокування, змінюючи свій «user agent» для ботів, тобто сигнал, який ідентифікує відвідувача веб-сайту за типом і версією пристрою, а також змінює свої автономні системи мереж, що вказує на ідентифікацію великих мереж в інтернеті.
“Цю активність було зафіксовано на десятках тисяч доменів і мільйонах запитів на день. Ми змогли ідентифікувати цей краулер, використовуючи поєднання машинного навчання та мережевих сигналів”, — йдеться у публікації Cloudflare.
Представник Perplexity Джессі Двайер спростував публікацію Cloudflare, назвавши її “рекламним матеріалом”, і додав у листі, що скріншоти з поста “свідчать про те, що жоден контент не був доступний”. У наступному листі Двайер стверджував, що бот, згаданий у публікації Cloudflare, “навіть не належить нам”.
Cloudflare повідомила, що вперше виявила цю поведінку після скарг від своїх клієнтів, які зазначали, що Perplexity збирала дані з їхніх сайтів, навіть після того, як вони встановили правила у своєму файлі Robots.txt, щоб спеціально заблокувати відомі боти Perplexity. Після цього Cloudflare провела перевірки й підтвердила, що Perplexity обходить ці блокування.
“Ми спостерігали, що Perplexity використовує не тільки свій заявлений user-agent, але також загальний браузер, спрямований на маскування під Google Chrome на macOS, коли їхній заявлений краулер був заблокований,” — зазначили у Cloudflare.
Компанія також виключила ботів Perplexity зі свого списку перевірених і впровадила нові технології для їх блокування.
Нещодавно Cloudflare висловила публічну позицію проти AI-краулінгу. Минулого місяця Cloudflare оголосила про запуск ринку, який дозволяє власникам і видавцям веб-сайтів стягувати плату з AI-скреперів, які відвідують їхні ресурси. Головний виконавчий директор Cloudflare Меттью Прінс звернув увагу на те, що AI руйнує бізнес-модель інтернету, особливо для видавців. Минулого року Cloudflare також запустила безкоштовний інструмент для запобігання збору даних ботами для навчання AI.