Команда Google DeepMind представила Genie 3 — нову модель для створення світів, яка може використовуватися для навчання універсальних агентів штучного інтелекту. Ця розробка є важливим кроком до досягнення «штучного загального інтелекту», що є аналогом людського розуму.
Нова модель Genie 3
Поки що Genie 3 знаходиться на стадії дослідження і недоступна для публіки. Вона побудована на основі свого попередника Genie 2, який може генерувати нові середовища для агентів, та нової моделі генерації відео Veo 3, яка, як стверджують, має глибоке розуміння фізики.
Використовуючи простий текстовий запит, Genie 3 може створити кілька хвилин інтерактивних 3D-середовищ з роздільною здатністю 720p на швидкості 24 кадри на секунду — це значний стрибок порівняно з 10–20 секундами, які могла генерувати Genie 2. Модель також має функцію “підказуваних світових подій”, що дозволяє змінювати згенероване середовище за допомогою запиту.
Що важливо, симуляції Genie 3 зберігають фізичну послідовність з часом, оскільки модель пам’ятає, що була згенерована раніше — здатність, яку, як зазначає DeepMind, дослідники не програмували прямо.
Освітні досвіди
За словами Фрухтера, хоча Genie 3 має потенціал для освітніх досвідів, ігор та прототипування креативних концепцій, її справжнє призначення проявиться в навчанні агентів для завдань загального призначення, що є критично важливим для досягнення AGI.
“Ми вважаємо, що моделі світів є ключовими на шляху до AGI, особливо для втілених агентів, де симуляція реальних сценаріїв є особливо складною”, — зазначив Джек Паркер-Холдер, науковець команди відкритості DeepMind.
Genie 3 має на меті усунути це вузьке місце. Як і Veo, вона не спирається на заздалегідь закодований фізичний двигун; замість цього, за словами DeepMind, модель сама навчається, як працює світ — як об’єкти рухаються, падають і взаємодіють, запам’ятовуючи, що було створено, і міркуючи на довгостроковій основі.
На думку компанії, ця пам’ять забезпечує послідовність у симульованих світах Genie 3, що, в свою чергу, дозволяє їй розвивати розуміння фізики, подібно до того, як люди розуміють, що стакан, що балансирує на краю столу, ось-ось впаде, або що їм слід ухилитися, щоб уникнути падаючого об’єкта.
Навчання на власному досвіді
Зокрема, DeepMind стверджує, що модель також має потенціал виштовхнути агентів штучного інтелекту до меж їх можливостей — змушуючи їх навчатися на власному досвіді, подібно до того, як люди вчаться в реальному світі.
Наприклад, DeepMind поділилася тестуванням Genie 3 з нещодавньою версією свого універсального агента Scalable Instructable Multiworld Agent (SIMA), доручивши йому досягти певних цілей. У складських умовах їх попросили виконати завдання, такі як “підходь до яскраво-зеленого сміттєзбирача” або “іди до запакованого червоного навантажувача”.
“У всіх трьох випадках агент SIMA зміг досягти мети”, — зазначив Паркер-Холдер. “Він просто отримує дії від агента. Отже, агент бере ціль, бачить світ, який його оточує, а потім реалізує дії в цьому світі. Genie 3 симулює вперед, і той факт, що він зміг досягти цього, пояснюється тим, що Genie 3 залишається послідовною”.
Обмеження моделі
Однак Genie 3 має свої обмеження. Наприклад, хоча дослідники стверджують, що вона може зрозуміти фізику, демонстрація, яка показувала лижника, що мчить вниз по горі, не відображала, як рухається сніг у зв’язку з лижником.
Крім того, діапазон дій, які може виконати агент, обмежений. Наприклад, підказувані світові події дозволяють вносити великий спектр змін у середовище, проте вони не обов’язково виконуються самим агентом. І все ще існують труднощі у точному моделюванні складних взаємодій між кількома незалежними агентами у спільному середовищі.
Genie 3 також може підтримувати лише кілька хвилин безперервної взаємодії, тоді як для належного навчання було б доцільно проводити години.
Попри це, модель представляє собою вагомий крок вперед у навчанні агентів, які можуть не лише реагувати на вхідні дані, а й потенційно планувати, досліджувати, шукати невизначеність та вдосконалюватися через проби та помилки — це той вид самостійного, втіленого навчання, який, на думку багатьох, є ключовим для руху до загального інтелекту.