Уявіть собі, що ви онлайн купуєте нову пару кросівок для бігу. Якщо кожен продавець описує їх по-своєму — один називає їх «кросівками», інший «тренажерами», а ще хтось «взуттям для спорту» — ви швидко заплутаєтеся в такій різноманітності термінів. На щастя, більшість інтернет-магазинів використовують уніфіковані категорії та фільтри, що дозволяє легко проходити шлях: Жінки > Взуття > Кросівки для бігу — і швидко знаходити те, що вам потрібно.
Tепер уявіть цю проблему у наукових дослідженнях. Замість кросівок мова йде про «оптичну глибину аерозолів» або «температуру поверхні моря». Замість кількох продавців — тисячі науковців, інструментів і постачальників даних. Без спільної мови для опису даних знайти відповідні набори даних Землі було б неможливо, як шукати голку в копиці сіна з зав’язаними очима.
З цією метою NASA створило Глобальний каталог змін (GCMD) — стандартизований словник, що допомагає науковцям позначати свої набори даних послідовно і в пошуковому форматі. Однак у міру розвитку науки зростає й виклик підтримки метаданих в упорядкованому й доступному вигляді.
Для того щоб впоратися з цим викликом, Офіс науки про дані та інформатики NASA (ODSI) у Центрі польотів космічних апаратів імені Маршалла (MSFC) в Хантсвіллі, штат Алабама, розробив Рекомендаційний інструмент ключових слів GCMD (GKR): розумний інструмент, призначений допомагати постачальникам даних та кураторам автоматично призначати правильні ключові слова.
Оновлена модель GKR — це не лише технічне вдосконалення; це значний крок уперед в організації та доступі до наукових знань. Автоматично пропонуючи точні, стандартизовані ключові слова, ця модель знижує навантаження на людей-кураторів, одночасно підтримуючи високу якість метаданих. Це спрощує процес знаходження необхідних наборів даних для дослідників, студентів і широкої публіки.
Вона також відкриває нові можливості. Техніки, використані в GKR, такі як фокусна втрата при класифікації рідкісних міток і адаптація попередньо навчальних трансформерів до спеціалізованих галузей, можуть бути корисними в різних інших сферах науки.
Нова модель GKR вирішує одну з найбільших проблем в інформаційній науці, відому як екстремальна багатокласова класифікація. Це складний термін, але концепція проста: замість передбачення лише однієї мітки модель повинна вибрати багато, іноді десятки, з набору тисяч. Кожен набір даних може вимагати позначення кількома нюансованими дескрипторами, витягнутими зі спеціально контрольованого словника.
Уявіть, що вам потрібно ідентифікувати всіх тварин на фотографії. Якщо там лише собака, це просто. Але якщо перед вами собака, птах, єнот, що ховається за кущем, та єдиноріг, який з’являється лише в 0,1% ваших тренувальних фотознімків, завдання ускладнюється. Саме з цим стикається GKR: позначення складних наборів даних з максимальною точністю, навіть коли прикладів деяких ключових слів обмаль.
І ця проблема тільки зростає. Нова версія GKR тепер враховує понад 3,200 ключових слів, порівняно з приблизно 430 в попередній версії. Це семикратне зростання складності словника та значний стрибок у тому, що модель повинна навчитися і передбачити.
Для того щоб впоратися з цим масштабом, команда GKR не просто додала більше даних; вони створили більш здатну модель з нуля. В основі оновлення лежить INDUS — розвинена мовна модель, навчена на величезному обсязі 66 мільярдів слів, взятих зі наукової літератури різних дисциплін — від геонауки до біологічних наук, астрономії та інших.
«Ми працюємо на межі передових технологій штучного інтелекту та машинного навчання для науки», — сказав Саджіл Аwale, член команди AI ODSI NASA в MSFC. «Ця проблема дуже цікава і складна, оскільки це екстремальна класифікація, де модель повинна відрізняти навіть дуже схожі ключові слова/мітки на основі незначних варіацій контексту. Приємно бачити, як ми використовуємо INDUS для створення цієї моделі GKR, оскільки вона розроблена та навчена для наукових доменів. Є можливості для подальшого вдосконалення INDUS у майбутньому.»
Це означає, що новий GKR не просто здогадує на основі схожості слів; він розуміє контекст, у якому з’являються ключові слова. Це різниця між тим, що модель знає, що «опади» можуть стосуватися погоди, і коли вона означає кліматичну змінну в супутникових даних.
А поки стара модель навчалася лише на 2,000 метаданих, нова версія мала доступ до набагато більшого набору даних — понад 43,000 записів з Розподільчого репозитарію метаданих NASA. Ця більша кількість даних допомагає моделі робити більш точні прогнози.
Спільний репозитарій метаданих є базою даних для таких служб пошуку і виявлення даних:
Однією з найбільших перешкод у завданні є дисбаланс ключових слів. Деякі ключові слова з’являються часто, інші можуть з’являтися лише кілька разів. Традиційні підходи машинного навчання, такі як втрата крос-сентенті (cross-entropy loss), яка спочатку використовувалася для навчання моделі, зазвичай віддають перевагу простим, поширеним міткам і ігнорують рідкісні.
Для вирішення цієї проблеми команда NASA використовує фокусну втрату — стратегію, що зменшує увагу моделі до очевидних прикладів і переводить акцент на складні, недопредставлені випадки.
Результат? Модель, яка демонструє кращі результати в усіх аспектах, особливо з використанням ключових слів, які найбільш важливі для спеціалістів у пошуках нішевих наборів даних.
Остаточно, наука залежить не лише від збору даних, але й від забезпечення можливості їх використання та виявлення. Оновлений інструмент GKR є тихою, але критично важливою частиною цієї місії. Залучаючи потужний штучний інтелект до задачі тегування метаданих, він допомагає забезпечити те, щоб потоки даних спостереження Землі, які надходять з супутників і приладів з усього світу, не губилися в перекладі.
У світі, де дані заповнюють простір, такі інструменти, як GKR, допомагають дослідникам знаходити сигнал серед шуму та перетворювати інформацію на знання.
Окрім активізації GKR, велика мовна модель INDUS також сприяє інноваціям в інших проектах NASA SMD. Наприклад, INDUS підтримує Двигун наукових відкриттів, допомагаючи автоматизувати кураторство метаданих та поліпшити релевантність ранжування результатів пошуку. Різні застосування відображають зростаючу роль INDUS як основного інтелектуального засобу для SMD.
Велика мовна модель INDUS фінансується Офісом головного наукового радника з даних у NASA всередині Наукового місіонного директорату NASA у Вашингтоні. Офіс головного наукового радника з даних сприяє науковим відкриттям через інноваційні застосування та партнерства в галузі науки про дані, передової аналітики та штучного інтелекту.