Perplexity звинувачують у зборі даних з сайтів, які чітко забороняють AI-скрапінг

Стартап штучного інтелекту Perplexity збирає та копіює контент з вебсайтів, які чітко заявили, що не хочуть бути частиною таких процесів, згідно з інформацією від компанії Cloudflare, яка забезпечує інфраструктуру для інтернету.

Як діє Perplexity

Cloudflare опублікував дослідження, у якому стверджується, що стартап Perplexity проігнорував блокування та сховав свої дії з краулінгу та копіювання. Великий провайдер інтернет-інфраструктури звинуватив Perplexity у тому, що вони приховують свою особистість під час спроби зібрати дані з вебсторінок, намагаючись обійти побажання сайтів.

Продукти штучного інтелекту, як ті, що пропонує Perplexity, покладаються на збір великих обсягів даних з інтернету. Стартапи в цій сфері вже давно крадуть текст, зображення та відео з мережі без дозволу, щоб їх продукти могли функціонувати. Останнім часом вебсайти намагаються протистояти цьому, використовуючи стандарт Robots.txt, який вказує пошуковим системам та компаніям штучного інтелекту, які сторінки можна індексувати, а які – ні. Однак ці спроби мали змішані результати.

За даними Cloudflare, Perplexity, ймовірно, свідомо обминає ці блокування, змінюючи “user agent” своїх ботів. Це сигнал, що ідентифікує відвідувача сайту за типом пристрою та версією, а також змінюючи свої автономні системи або ASN, що є числом, що ідентифікує великі мережі в інтернеті.

“Цю активність спостерігали на десятках тисяч доменів та мільйонах запитів на день. Ми змогли ідентифікувати цього краулера, використовуючи поєднання машинного навчання та мережевих сигналів,” — йдеться в дописі Cloudflare.

Представник Perplexity Джесси Двайер назвав допис Cloudflare продажним, зазначивши в електронному листі, що скріншоти не показують доступу до контенту. У наступному листі Двайер стверджував, що бот, згаданий у блозі Cloudflare, “навіть не наш”.

Доказова база Cloudflare

Cloudflare вказав, що вперше помітив цю поведінку після скарг своїх клієнтів, які повідомляли, що Perplexity сканував і копіював їхні сайти, навіть після додавання правил на їхньому файлі Robots та для специфічного блокування відомих ботів Perplexity. Після цього Cloudflare провела тести, які підтвердили, що Perplexity справді обминає ці блокування.

“Ми спостерігали, що Perplexity використовує не лише свій заявлений user-agent, але й стандартний браузер, який намагається видати себе за Google Chrome на macOS, коли їхній заявлений краулер був заблокований,” повідомляє Cloudflare.

Компанія також зазначила, що виключила ботів Perplexity з підтвердженого списку та впровадила нові техніки для їх блокування.

Останнім часом Cloudflare зайняла публічну позицію проти краулерів штучного інтелекту. Минулого місяця компанія оголосила про запуск маркетплейсу, який дозволяє власникам вебсайтів стягувати плату з AI-сканерів, що відвідують їхні сайти. Генеральний директор Cloudflare Метью Прінс підкреслив, що штучний інтелект порушує бізнес-модель інтернету, зокрема для видавців. Минулого року Cloudflare також запустила безкоштовний інструмент для запобігання збору даних ботами з вебсайтів для навчання AI.

Новини

Як діє Perplexity

Доказова база Cloudflare

Related Posts