Група дослідників штучного інтелекту з OpenAI, Google DeepMind, Anthropic та інших компаній і неприбуткових організацій закликає до більш глибокого вивчення методів моніторингу так званих думок моделей міркувань штучного інтелекту у заяві, що була опублікована в вівторок.
Однією з ключових характеристик моделей міркувань штучного інтелекту, таких як o1 від OpenAI і R1 від DeepSeek, є їхні ланцюги міркувань (CoT) — процес, при якому моделі штучного інтелекту розв’язують задачі, схожий на те, як люди використовують блокнот для вирішення складних математичних задач. Моделі міркувань є основною технологією, що живить агентів штучного інтелекту, і автори документу стверджують, що моніторинг CoT може стати основним методом контролю за агентами, оскільки їх використання стає більш поширеним і потужним.
“Моніторинг CoT є цінним доповненням до заходів безпеки для передових ІІ, оскільки пропонує рідкісний погляд на те, як агенти ІІ приймають рішення,” зазначають дослідники у своїй позиційній заяві. “Проте немає жодної гарантії, що теперішній рівень видимості збережеться. Ми закликаємо дослідницьку спільноту та розробників передового ІІ максимально ефективно використовувати моніторинг CoT і вивчити, як його можна зберегти.”
Документ закликає провідних розробників моделей штучного інтелекту дослідити, що робить CoT «моніторованими» — іншими словами, які фактори можуть підвищити або знизити прозорість в тому, як моделі штучного інтелекту насправді приходять до своїх відповідей. Автори заяви стверджують, що моніторинг CoT може стати ключовим методом для розуміння моделей міркувань штучного інтелекту, але застерігають про можливу крихкість цього процесу, закликаючи уникати втручань, які можуть зменшити їх прозорість або надійність.
Автори документа також закликають розробників моделей штучного інтелекту відстежувати моніторинг CoT і дослідити, як цей метод можна буде впровадити як захист у майбутньому.
Серед відомих підписантів даної заяви — керівник досліджень OpenAI Марк Чен, CEO Safe Superintelligence Ілля Сутскевер, лауреат Нобелівської премії Джеффрі Гінтон, співзасновник Google DeepMind Шейн Легг, радник з безпеки xAI Дан Хендрікс, а також співзасновник Thinking Machines Джон Шульман. Серед перших авторів — керівники з Інституту безпеки штучного інтелекту Великобританії та Apollo Research, а також інші підписанти з METR, Amazon, Meta та UC Berkeley.
Цей документ символізує єдність багатьох лідерів індустрії штучного інтелекту в прагненні підвищити рівень досліджень у сфері безпеки штучного інтелекту, в час, коли технологічні компанії змагаються за найкращих фахівців — що призвело до того, що Meta почала запрошувати провідних дослідників з OpenAI, Google DeepMind та Anthropic з багатомільйонними пропозиціями. Дослідники, які займаються створенням агентів штучного інтелекту та моделей міркувань, є особливо затребуваними.
“Зараз ми знаходимося на критичному етапі, коли маємо цю нову технологію ланцюгів міркування. Вона здається корисною, але може зникнути через кілька років, якщо люди не вкладують зусилля в її розвиток,” зазначив Боуен Бейкер, дослідник OpenAI, який працював над документом, в інтерв’ю. “Публікація такої заяви — це, на мою думку, механізм для залучення більшої уваги до цієї теми, перш ніж це станеться.”
OpenAI публічно представила попередній вигляд своєї першої моделі міркувань о1 у вересні 2024 року. З того часу технологічна індустрія швидко випустила конкурентні моделі, які демонструють схожі можливості, деякі з яких від Google DeepMind, xAI і Anthropic показують навіть більш просунуті результати на тестах.
Однак, зараз залишається порівняно мало зрозумілим, як функціонують моделі міркувань штучного інтелекту. Хоча лабораторії з розвитку штучного інтелекту досягли успіхів в покращенні роботи ІІ за останній рік, це не завжди призвело до кращого розуміння того, як вони формують свої відповіді.
Антропік є одним з провідних інститутів у галузі вивчення реальних функціонувань моделей штучного інтелекту — галузі, що називається інтерпретованістю. Раніше цього року, CEO Даріо Амодеї оголосив про зобов’язання розкрити чорну скриньку моделей штучного інтелекту до 2027 року та інвестувати більше в інтерпретованість. Він також закликав OpenAI та Google DeepMind вивчати цю тему активніше.
Ранні дослідження від Anthropic показали, що CoT можуть не бути повністю надійним показником того, як ці моделі приходять до відповідей. Водночас дослідники OpenAI стверджують, що моніторинг CoT колись може стати надійним способом відстеження відповідності та безпеки моделей штучного інтелекту.
Мета таких позиційних документів полягає в тому, щоб привернути увагу до нових напрямків досліджень, таких як моніторинг CoT. Компанії, такі як OpenAI, Google DeepMind і Anthropic, вже займаються цими питаннями, але можливо, що цей документ спонукатиме до більшого фінансування та досліджень у цій сфері.