Інструменти кодування на основі штучного інтелекту не завжди пришвидшують роботу розробників, показує дослідження

За останні роки робочі процеси програмістів зазнали змін через появу інструментів на основі штучного інтелекту, таких як Cursor і GitHub Copilot. Ці інструменти обіцяють підвищити продуктивність, автоматично генеруючи код, виправляючи помилки та тестуючи зміни. Вони працюють на основі моделей штучного інтелекту від корпорацій OpenAI, Google DeepMind, Anthropic та xAI, які швидко покращують свої показники в різноманітних тестах програмного забезпечення.

Проте нове дослідження, опубліковане некомерційною організацією METR, ставить під сумнів те, наскільки ефективно сучасні інструменти ШІ підвищують продуктивність досвідчених розробників.

У рамках цього дослідження METR провела випадковий контрольований експеримент, залучивши 16 досвідчених розробників з відкритим кодом, які виконали 246 реальних завдань на великих репозиторіях коду, до яких вони регулярно вносять зміни. Дослідники випадковим чином розподілили приблизно половину завдань як «дозволені для ШІ», надаючи програмістам можливість використовувати сучасні інструменти ШІ, такі як Cursor Pro, а інші завдання обмежували використання ШІ.

Перед виконанням поставлених завдань розробники спрогнозували, що використання інструментів ШІ скоротить час виконання на 24%. Проте це не підтвердилося.

«Дивно, але ми виявили, що використання ШІ насправді збільшує час виконання на 19% — розробники працюють повільніше, коли використовують цю технологію», — зазначили дослідники.

Звертає на себе увагу, що тільки 56% розробників у дослідженні мали досвід використання Cursor, основного інструменту ШІ в експерименті. Хоча майже всі (94%) мали досвід роботи з веб-інструментами LLM у своїх робочих процесах, для деяких це стало першим досвідом використання саме Cursor. Дослідники уточнюють, що програмісти проходили підготовку з використання Cursor перед експериментом.

Тим не менше, результати METR викликають сумніви щодо обіцяного загального підвищення продуктивності, яке мали б забезпечити інструменти ШІ до 2025 року. Відповідно до результатів дослідження, розробники не повинні вважати, що інструменти на основі ШІ − зокрема ті, що прийнято називати «вибірковими кодерами» − одразу прискорять їхній робочий процес.

Дослідники METR вказують на кілька можливих причин, чому ШІ сповільнює розробників, а не прискорює: програмісти витрачають набагато більше часу на формулювання запитів до ШІ та очікування його відповідей, замість безпосереднього кодування. Крім того, ШІ, зазвичай, має проблеми з великими та складними кодовими базами, які були використані в цьому тестуванні.

Автори дослідження обережно ставляться до висновків, зазначаючи, що не вважають, що нинішні системи ШІ неспроможні прискорити роботу багатьох або більшості програмістів. Інші масштабні дослідження показали, що інструменти на основі ШІ дійсно прискорюють робочі процеси програмістів.

Автори також підкреслюють, що прогрес у сфері ШІ за останні роки був значним, і не очікують, що результати залишаться незмінними навіть через три місяці. METR також з’ясував, що інструменти ШІ істотно покращили свою здатність виконувати складні завдання з тривалими термінами в останні роки.

Однак це дослідження є ще одним підтвердженням обережного підходу до обіцяних переваг інструментів на основі ШІ. Інші дослідження вказують на те, що сучасні інструменти ШІ можуть спричиняти помилки та в деяких випадках вводити вразливості в безпеці.

Штучний інтелект

Related Posts