Skip to content
wel.org.ua
wel.org.ua

  • Новини
  • Криптовалюта
  • Додатки
  • iT
  • Штучний інтелект
  • Статті
wel.org.ua

Розумний Пошук: Штучний Інтелект NASA Спрощує Відшукання Наукових Даних

Розумний пошук: штучний інтелект NASA спрощує відшукання наукових даних

Олена Гаврилюк, 10.07.202515.07.2025

Уявіть собі, що ви онлайн купуєте нову пару кросівок для бігу. Якщо кожен продавець описує їх по-своєму — один називає їх «кросівками», інший «тренажерами», а ще хтось «взуттям для спорту» — ви швидко заплутаєтеся в такій різноманітності термінів. На щастя, більшість інтернет-магазинів використовують уніфіковані категорії та фільтри, що дозволяє легко проходити шлях: Жінки > Взуття > Кросівки для бігу — і швидко знаходити те, що вам потрібно.

Tепер уявіть цю проблему у наукових дослідженнях. Замість кросівок мова йде про «оптичну глибину аерозолів» або «температуру поверхні моря». Замість кількох продавців — тисячі науковців, інструментів і постачальників даних. Без спільної мови для опису даних знайти відповідні набори даних Землі було б неможливо, як шукати голку в копиці сіна з зав’язаними очима.

З цією метою NASA створило Глобальний каталог змін (GCMD) — стандартизований словник, що допомагає науковцям позначати свої набори даних послідовно і в пошуковому форматі. Однак у міру розвитку науки зростає й виклик підтримки метаданих в упорядкованому й доступному вигляді.

Для того щоб впоратися з цим викликом, Офіс науки про дані та інформатики NASA (ODSI) у Центрі польотів космічних апаратів імені Маршалла (MSFC) в Хантсвіллі, штат Алабама, розробив Рекомендаційний інструмент ключових слів GCMD (GKR): розумний інструмент, призначений допомагати постачальникам даних та кураторам автоматично призначати правильні ключові слова.

Оновлена модель GKR — це не лише технічне вдосконалення; це значний крок уперед в організації та доступі до наукових знань. Автоматично пропонуючи точні, стандартизовані ключові слова, ця модель знижує навантаження на людей-кураторів, одночасно підтримуючи високу якість метаданих. Це спрощує процес знаходження необхідних наборів даних для дослідників, студентів і широкої публіки.

Вона також відкриває нові можливості. Техніки, використані в GKR, такі як фокусна втрата при класифікації рідкісних міток і адаптація попередньо навчальних трансформерів до спеціалізованих галузей, можуть бути корисними в різних інших сферах науки.

Нова модель GKR вирішує одну з найбільших проблем в інформаційній науці, відому як екстремальна багатокласова класифікація. Це складний термін, але концепція проста: замість передбачення лише однієї мітки модель повинна вибрати багато, іноді десятки, з набору тисяч. Кожен набір даних може вимагати позначення кількома нюансованими дескрипторами, витягнутими зі спеціально контрольованого словника.

Уявіть, що вам потрібно ідентифікувати всіх тварин на фотографії. Якщо там лише собака, це просто. Але якщо перед вами собака, птах, єнот, що ховається за кущем, та єдиноріг, який з’являється лише в 0,1% ваших тренувальних фотознімків, завдання ускладнюється. Саме з цим стикається GKR: позначення складних наборів даних з максимальною точністю, навіть коли прикладів деяких ключових слів обмаль.

І ця проблема тільки зростає. Нова версія GKR тепер враховує понад 3,200 ключових слів, порівняно з приблизно 430 в попередній версії. Це семикратне зростання складності словника та значний стрибок у тому, що модель повинна навчитися і передбачити.

Для того щоб впоратися з цим масштабом, команда GKR не просто додала більше даних; вони створили більш здатну модель з нуля. В основі оновлення лежить INDUS — розвинена мовна модель, навчена на величезному обсязі 66 мільярдів слів, взятих зі наукової літератури різних дисциплін — від геонауки до біологічних наук, астрономії та інших.

«Ми працюємо на межі передових технологій штучного інтелекту та машинного навчання для науки», — сказав Саджіл Аwale, член команди AI ODSI NASA в MSFC. «Ця проблема дуже цікава і складна, оскільки це екстремальна класифікація, де модель повинна відрізняти навіть дуже схожі ключові слова/мітки на основі незначних варіацій контексту. Приємно бачити, як ми використовуємо INDUS для створення цієї моделі GKR, оскільки вона розроблена та навчена для наукових доменів. Є можливості для подальшого вдосконалення INDUS у майбутньому.»

Це означає, що новий GKR не просто здогадує на основі схожості слів; він розуміє контекст, у якому з’являються ключові слова. Це різниця між тим, що модель знає, що «опади» можуть стосуватися погоди, і коли вона означає кліматичну змінну в супутникових даних.

А поки стара модель навчалася лише на 2,000 метаданих, нова версія мала доступ до набагато більшого набору даних — понад 43,000 записів з Розподільчого репозитарію метаданих NASA. Ця більша кількість даних допомагає моделі робити більш точні прогнози.

Спільний репозитарій метаданих є базою даних для таких служб пошуку і виявлення даних:

Однією з найбільших перешкод у завданні є дисбаланс ключових слів. Деякі ключові слова з’являються часто, інші можуть з’являтися лише кілька разів. Традиційні підходи машинного навчання, такі як втрата крос-сентенті (cross-entropy loss), яка спочатку використовувалася для навчання моделі, зазвичай віддають перевагу простим, поширеним міткам і ігнорують рідкісні.

Для вирішення цієї проблеми команда NASA використовує фокусну втрату — стратегію, що зменшує увагу моделі до очевидних прикладів і переводить акцент на складні, недопредставлені випадки.

Результат? Модель, яка демонструє кращі результати в усіх аспектах, особливо з використанням ключових слів, які найбільш важливі для спеціалістів у пошуках нішевих наборів даних.

Остаточно, наука залежить не лише від збору даних, але й від забезпечення можливості їх використання та виявлення. Оновлений інструмент GKR є тихою, але критично важливою частиною цієї місії. Залучаючи потужний штучний інтелект до задачі тегування метаданих, він допомагає забезпечити те, щоб потоки даних спостереження Землі, які надходять з супутників і приладів з усього світу, не губилися в перекладі.

У світі, де дані заповнюють простір, такі інструменти, як GKR, допомагають дослідникам знаходити сигнал серед шуму та перетворювати інформацію на знання.

Окрім активізації GKR, велика мовна модель INDUS також сприяє інноваціям в інших проектах NASA SMD. Наприклад, INDUS підтримує Двигун наукових відкриттів, допомагаючи автоматизувати кураторство метаданих та поліпшити релевантність ранжування результатів пошуку. Різні застосування відображають зростаючу роль INDUS як основного інтелектуального засобу для SMD.

Велика мовна модель INDUS фінансується Офісом головного наукового радника з даних у NASA всередині Наукового місіонного директорату NASA у Вашингтоні. Офіс головного наукового радника з даних сприяє науковим відкриттям через інноваційні застосування та партнерства в галузі науки про дані, передової аналітики та штучного інтелекту.

Наука та космос

Навигация по записям

Previous post
Next post

Related Posts

Наука та космос NASA Випробовує Новий Контейнер Для Рідкого Водню в Рамках Пілотованих Місій Artemis

NASA випробовує новий контейнер для рідкого водню в рамках пілотованих місій Artemis

06.08.202513.08.2025

Команди готуються до першої пілотованої місії Artemis, яка відправить екіпаж з чотирьох осіб на орбіту Місяця і назад за 10 днів. Інженери програми Exploration Ground Systems NASA протестували нову сферу для рідкого водню, що є одним з кріогенних пального для ракети SLS (Space Launch System). Тестування відбулося на пусковому комплексі…

Read More
Наука та космос Переможець Break the Ice Starpath випробовує робот у термовакуумній камері NASA: нові горизонти технологій

Переможець Break the Ice Starpath випробовує робот у термовакуумній камері NASA

29.11.202501.12.2025

Члени стартапу Starpath, який здобув друге місце в конкурсі NASA «Break the Ice Lunar Challenge», відвідали Центр космічних польотів Маршалла у Хантсвіллі, штат Алабама. Ця поїздка стала частиною призової можливості протестувати свій удосконалений місячний екскаватор у 20-футовій термовакуумній камері центру. Компанія, що базується в Хоторні, Каліфорнія, виборола друге місце на…

Read More
Наука та космос Фахівці NASA Glenn з'єднують свої сили з шанувальниками бейсболу в Омасі

Фахівці NASA Glenn з’єднують свої сили з шанувальниками бейсболу в Омасі

19.07.2025

Щорічно тисячі шанувальників бейсболу подорожують по країні, щоб стежити за змаганнями команд в Омасі, штат Небраска, під час Чемпіонату світу серед чоловічих коледжів у червні. Цього року Центр дослідження Гленна NASA у Клівленді вирішив відзначити ювілей 60-річчя проведення цього заходу в місті, акцентуючи увагу на зв’язках спорту та STEM (наука,…

Read More

Последние записи

  • Клатч Трійки — благодійний турнір за Третій армійський корпус
  • Кампанія на базі S.T.A.L.K.E.R. 2 стала рекордсменом Ukrainian Creative Stories 2026
  • TikTok запускає Campus Hub
  • Конфлікт навколо уразливостей у продуктах Microsoft загострився
  • Що відомо про перші склади збірної України на Esports Nations Cup 2026

Последние коментарии

Нет комментариев для просмотра.

Категории

  • iT
  • Авто
  • Додатки
  • Ігри та кіно
  • Криптовалюта
  • Наука та космос
  • Новини
  • Пристрої
  • Статті
  • Штучний інтелект
©2026 wel.org.ua | WordPress Theme by SuperbThemes