Perplexity звинуватили у зборі даних з вебсайтів, які заборонили використання штучного інтелекту для сканування

Стартап у сфері штучного інтелекту Perplexity займається збором і копіюванням контенту з веб-сайтів, які чітко заявили, що не бажають бути обробленими, про що повідомляє провайдер інтернет-інфраструктури Cloudflare.

Незаконна діяльність Perplexity

У понеділок Cloudflare випустила дослідження, в якому йдеться про порушення з боку Perplexity. Вони зафіксували, що стартап проігнорував блокування і затаїв свої дії зі збору даних. Дослідники компанії звинуватили Perplexity в приховуванні своєї особи під час спроби збору веб-сторінок, намагаючись обійти побажання сайтів.

Продукти штучного інтелекту, подібні до тих, що пропонує Perplexity, залежать від обробки великих обсягів даних з інтернету. Багато стартапів у галузі штучного інтелекту давно скопіювали тексти, зображення та відео з інтернету без дозволу для оптимізації своїх продуктів. Останнім часом веб-сайти намагалися протидіяти цьому, використовуючи стандартний файл Robots.txt, який вказує пошуковим системам та компаніям штучного інтелекту, які сторінки можна індексувати, а які — ні. Ці зусилля поки що принесли змішані результати.

Згідно з Cloudflare, Perplexity свідомо обходить ці блокування, змінюючи свій «user agent» для ботів, тобто сигнал, який ідентифікує відвідувача веб-сайту за типом і версією пристрою, а також змінює свої автономні системи мереж, що вказує на ідентифікацію великих мереж в інтернеті.

“Цю активність було зафіксовано на десятках тисяч доменів і мільйонах запитів на день. Ми змогли ідентифікувати цей краулер, використовуючи поєднання машинного навчання та мережевих сигналів”, — йдеться у публікації Cloudflare.

Представник Perplexity Джессі Двайер спростував публікацію Cloudflare, назвавши її “рекламним матеріалом”, і додав у листі, що скріншоти з поста “свідчать про те, що жоден контент не був доступний”. У наступному листі Двайер стверджував, що бот, згаданий у публікації Cloudflare, “навіть не належить нам”.

Cloudflare повідомила, що вперше виявила цю поведінку після скарг від своїх клієнтів, які зазначали, що Perplexity збирала дані з їхніх сайтів, навіть після того, як вони встановили правила у своєму файлі Robots.txt, щоб спеціально заблокувати відомі боти Perplexity. Після цього Cloudflare провела перевірки й підтвердила, що Perplexity обходить ці блокування.

“Ми спостерігали, що Perplexity використовує не тільки свій заявлений user-agent, але також загальний браузер, спрямований на маскування під Google Chrome на macOS, коли їхній заявлений краулер був заблокований,” — зазначили у Cloudflare.

Компанія також виключила ботів Perplexity зі свого списку перевірених і впровадила нові технології для їх блокування.

Нещодавно Cloudflare висловила публічну позицію проти AI-краулінгу. Минулого місяця Cloudflare оголосила про запуск ринку, який дозволяє власникам і видавцям веб-сайтів стягувати плату з AI-скреперів, які відвідують їхні ресурси. Головний виконавчий директор Cloudflare Меттью Прінс звернув увагу на те, що AI руйнує бізнес-модель інтернету, особливо для видавців. Минулого року Cloudflare також запустила безкоштовний інструмент для запобігання збору даних ботами для навчання AI.

Штучний інтелект

Огляд контрактів залишався повільним та ручним процесом, який створює навантаження для юридичних команд, змушуючи юристів вивчати складну лексику, виявляти ризики та перекладати правові терміни. Насправді, ця проблема настільки поширена, що протягом останніх кількох років японська компанія LegalOn Technologies отримала нагоду впровадити свої рішення в цій сфері. Її програмне забезпечення для…

Незаконна діяльність Perplexity

Related Posts