Новий виклик у сфері штучного інтелекту оголосив свого першого переможця, встановивши нові стандарти для програмістів, що використовують AI.
У середу о 17:00 за тихоокеанським часом неприбуткова організація Laude Institute оголосила про переможця K Prize — багатоступеневого виклику з програмування на основі штучного інтелекту, започаткованого засновником Databricks і Perplexity Енді Конвінським. Переможцем став бразильський фахівець з формулювання запитів Едуардо Роча де Андраде, який отримає 50 000 доларів призових. Але більш вражаючою, ніж перемога, стала його підсумкова оцінка: він виграв, відповівши правильно лише на 7,5% питань тесту.
“Ми раді, що створили еталон, який насправді складний,” — зазначив Конвінський. “Еталони повинні бути складними, якщо вони мають значення,”— додав він, зазначивши: “Оцінки були б іншими, якби великі лабораторії брали участь зі своїми найпотужнішими моделями. Але це і є суть. K Prize проходить офлайн з обмеженими ресурсами, тому він віддає перевагу меншим і відкритим моделям. Мені це подобається. Це забезпечує рівні умови.”
Конвінський пообіцяв 1 мільйон доларів першій відкритій моделі, яка зможе набрати більше 90% на тесті.
Подібно до відомої системи SWE-Bench, K Prize тестує моделі на основі проблем, відзначених на GitHub, що є перевіркою їхньої здатності вирішувати реальні програмні задачі. Але, на відміну від SWE-Bench, яка базується на фіксованому наборі проблем для навчання моделей, K Prize задумано як “версію SWE-Bench без забруднень,” що використовує тайминг в подачі для захисту від специфічного навчання під еталон. Для першого раунду моделі потрібно було подати до 12 березня. Організатори K Prize створили тест, використовуючи лише проблеми на GitHub, відзначені після цієї дати.
Оцінка 7,5% різко контрастує з оцінками SWE-Bench, який наразі демонструє 75% на своєму легшому “Перевіреному” тесті і 34% на важчому “Повному” тесті. Конвінський досі не впевнений, чи пов’язана ця розбіжність із забрудненням в SWE-Bench, чи просто з труднощами збору нових проблем з GitHub, але він очікує, що проект K Prize незабаром дасть відповідь на це питання.
“З кожним новим раундом ми матимемо краще уявлення,” — сказав він, “адже ми очікуємо, що учасники адаптуються до динаміки змагання кожні кілька місяців.”
Це може здаватись дивним місцем для низького результату, враховуючи широкий спектр інструментів для програмування на основі штучного інтелекту, що вже доступні публічно — але за зростанням легкості в тестах багато критиків вважають проекти на кшталт K Prize необхідним кроком до вирішення проблеми оцінювання AI.
“Я досить оптимістично налаштований стосовно створення нових тестів для існуючих еталонів,” — зазначає дослідник з Принстона Саяш Капур, який висловив схожу ідею у нещодавній статті. “Без таких експериментів ми не можемо дійсно визначити, чи проблема в забрудненні, чи просто в тому, що ми намагаємось досягти лідерства SWE-Bench за допомогою людини в процесі.”
Для Конвінського це не лише кращий еталон, а й відкритий виклик для решти індустрії. “Якщо ви слухаєте всі ці розмови, здається, що ми повинні бачити AI-лікарів, AI-юристів та AI-програмістів, але це просто не так,” — додає він. “Якщо ми не можемо навіть набрати більше 10% на беззабрудненому SWE-Bench, це для мене є реальністю.”