Adobe, відомий розробник програмного забезпечення, активно впроваджує штучний інтелект у свої продукти, однак нещодавно компанія опинилася під прицілом юридичної системи. Позов, поданий від імені письменниці з Орегону, стверджує, що Adobe використовувала піратські книги для навчання одного зі своїх AI-моделей.
Празним позовом, ініційованим Елізабет Лайон, автором декількох посібників з не художнього письма, стверджується, що Adobe без дозволу використала піратські версії численних книг, у тому числі й її власних, для навчання своєї мовної моделі SlimLM.
SlimLM навчали, порушуючи авторські права
Adobe представляє SlimLM як компактну мовну модель, що оптимізована для задач документальної допомоги на мобільних пристроях. Компанія зазначає, що SlimLM була попередньо навчена на наборі даних SlimPajama-627B, який у червні 2023 року був випущений компанією Cerebras. Лайон повідомила, що частина її творів стала предметом використання в попередньому навчанні, про що йдеться в позові.
В документі, опублікованому в ЗМІ, підкреслюється, що роботи Лайон увійшли до обробленого підмножества модифікованого набору даних, на якому базується програма Adobe:
“Набір SlimPajama був створений шляхом копіювання і маніпулювання набором RedPajama (зокрема, копіювання Books3),” зазначено в позові. “Таким чином, оскільки це похідна копія набору даних RedPajama, SlimPajama містить дані з Books3, включаючи авторські права позивача та членів класу.”
“Books3” — це величезна колекція з 191 000 книг, яка стала джерелом правових суперечок для технологічної спільноти. Набір RedPajama також згадувався в кількох інших судових справах. У вересні Apple зіткнулася з позовом, де стверджувалося, що компанія використовувала авторські матеріали для навчання своєї моделі Apple Intelligence, і це викликало обурення через відсутність дозволу та компенсації. Подібна справа в жовтні стосувалася Salesforce, де також стверджувалося, що компанія залучала RedPajama в процесі навчання.
На жаль, такі судові позови стали звичним явищем у технологічній індустрії. Алгоритми штучного інтелекту навчаться на величезних наборах даних, частина яких, за твердженням, містять піратські матеріали. У вересні Anthropic погодилася виплатити 1,5 мільярда доларів ряду авторів, які звинуватили компанію у використанні піратських версій їхніх робіт для навчання свого чат-бота, Клода. Ця справа вважається можливим поворотним пунктом у тривалих юридичних баталіях щодо авторських прав у даних для навчання AI.