OpenAI активно працює над зміцненням безпеки свого браузера ChatGPT Atlas, втім компанія визнає, що загроза так званих «ін’єкцій запитів» залишається реальною, і навряд чи зникне в найближчому майбутньому. Цей тип атак, який маніпулює діями AI-агентів для виконання прихованих зловмисних команд, ставить під сумнів безпечність користування такими системами в Інтернеті.
Вразливість браузерів з ШІ
У блозі компанії OpenAI зосередили увагу на тому, що «ін’єкції запитів, подібно до шахрайства і соціальної інженерії, навряд чи коли-небудь будуть повністю ліквідовані». У рамках розвитку ChatGPT Atlas, який було запущено у жовтні, дослідники виявили можливість написання простих фраз у Google Docs, здатних змінювати поведінку браузера. У відповідь на ці ризики, компанія вирішила підвищити рівень захисту, хоча й визнає, що новий «агентський режим» підвищує рівень загрози.
Нагадаємо, що нещодавно Національний центр кібербезпеки Великобританії попередив про те, що атаки через ін’єкції запитів “можуть ніколи повністю не бути нейтралізовані”, підкреслюючи необхідність вжиття заходів для зменшення ризиків. Це засвідчує, що проблема не лише актуальна для OpenAI, а є викликом для всієї індустрії, адже багато фахівців з кібербезпеки рекомендують не тільки намагатися зупинити атаки, а й розробляти нові стратегії їх пом’якшення.
OpenAI у відповідь на ці виклики запроваджує проактивний підхід. Використовують методи, які дозволяють швидко реагувати на нові загрози, задіюючи автоматизовані системи тестування, відомі також як «автоматичні нападники». Ці алгоритми, навчені за допомогою підкріплення, здатні імітувати атаки, вивчаючи реакцію AI-агента на різноманітні зловмисні сценарії в умовах симуляції.
Як показує практика, така технологія дозволяє виявляти нові стратегії атак, які могли б залишитися непоміченими під час традиційних тестувань. Наприклад, один із тестів продемонстрував, як автоматизований нападник вдало проникнув до поштової скриньки користувача і вплинув на дії AI, спричинивши неправомірний відправленню листа з відмовою. Після оновлення безпеки, новий режим зміг вчасно виявити цю спробу ін’єкції.