NASA розробила систему штучного інтелекту, призначену для автоматичного виявлення наукових даних.
Агентство NASA, яке займається дослідженнями космосу, презентувало вдосконалену версію інструменту GCMD Keyword Recommender. Цей інструмент, що базується на технологіях штучного інтелекту, автоматизує процес присвоєння ключових слів науковим наборам даних. Основна мета розробки полягає у спрощенні пошуку актуальної інформації серед великих обсягів наукових даних.
Проблема стандартизації наукових даних можна порівняти з ситуацією в онлайн-торгівлі, де різні продавці користуються різними термінами для опису одного й того ж продукту. У науковій сфері замість звичних товарів, таких як кросівки, дослідники стикаються з термінами на кшталт "оптична глибина аерозолю" чи "температура морської поверхні". І замість обмеженої кількості роздрібних торговців, їх оточують тисячі вчених, вимірювальних приладів і постачальників даних.
Щоб впоратися з цією задачею, NASA розробила Глобальний головний каталог змін — стандартизований словник, що дозволяє науковцям систематизувати свої набори даних у зручному для пошуку та зрозумілому форматі. Проте, зі зростанням наукових знань ускладнюється процес організації метаданих і їх подальшого пошуку.
Науковий офіс з даних та інформатики NASA, розташований у Космічному центрі імені Маршалла в Хантсвіллі, штат Алабама, представив вдосконалену версію інструмента GCMD Keyword Recommender. Цей розумний інструмент покликаний автоматично допомагати постачальникам даних та кураторам у виборі відповідних ключових слів.
Оновлена модель GKR вирішує масштабну проблему в інформатиці, відому як екстремальна багатомітна класифікація. Замість прогнозування лише однієї мітки модель повинна вибирати багато, іноді десятки, з набору тисяч варіантів. Кожен набір даних може потребувати позначення кількома нюансованими дескрипторами з контрольованого словника.
Оновлена версія GKR тепер аналізує більше 3200 ключових слів, у порівнянні з близько 430, які були в попередній редакції. Це означає, що складність словникового запасу зросла в сім разів, що суттєво підвищує вимоги до навчання та прогнозування моделі.
Для виконання завдань такого рівня команда GKR не обмежилась просто збільшенням обсягу даних; вони розробили нову, більш досконалу модель з нуля. Основою цього оновлення стала INDUS — інноваційна мовна модель, яка була навчена на 66 мільярдах слів з наукових текстів з різних галузей, таких як геонауки, біологія, астрономія та багато інших.
"Ми знаходимося на передньому краї розвитку сучасного штучного інтелекту та машинного навчання в науковій сфері", -- підкреслив Саджил Авале, член команди NASA ODSI AI. "Ця область є як цікавою, так і складною, оскільки вона представляє собою екстремальну задачу класифікації, де модель повинна вміти розрізняти навіть дуже подібні ключові слова, спираючись на незначні варіації в контексті".
Це свідчить про те, що нова GKR не просто робить припущення на основі схожості слів, а має змогу усвідомлювати контекст, у якому вживаються ключові терміни. Це відрізняє її від моделі, яка знає, що "опади" пов'язані з погодою, і здатна розпізнати, коли цей термін стосується змін клімату в супутникових знімках.
Стара модель була навчена лише на 2000 метаданих, у той час як нова версія отримала доступ до значно більшого набору даних, що містить понад 43 000 записів з Загального репозиторію метаданих NASA. Це розширене охоплення сприяє підвищенню точності прогнозів, які робить модель.
Однією з основних труднощів у цьому процесі є диспропорція між класами. Деякі ключові слова зустрічаються дуже часто, тоді як інші можуть бути представлені лише кількома випадками. Звичні методи машинного навчання, такі як функція втрат перехресної ентропії, котра спочатку застосовується для навчання моделі, мають тенденцію надавати перевагу поширеним і легким для розпізнавання міткам, ігноруючи при цьому рідкісні.
Щоб вирішити цю задачу, команда NASA застосувала концепцію фокальної втрати — метод, який зменшує увагу моделі до простих прикладів, перенаправляючи її на більш складні та рідше представлені ситуації. Це призвело до створення моделі, що демонструє вдосконалені результати в цілому, зокрема у випадках, що містять ключові слова, які є критично важливими для фахівців, які шукають специфічні набори даних.
Наука не лише потребує збору інформації, а й вимагає перетворення цих даних на корисні та зручні для пошуку ресурси. Оновлений інструмент GKR відіграє тиху, але вкрай важливу роль у цій місії. Використовуючи потужний штучний інтелект для позначення метаданих, він сприяє тому, щоб дані про спостереження Землі, які надходять з супутників та різних приладів по всьому світу, не втратилися в процесі обробки.
У сучасному світі, насиченому інформацією, інструменти на кшталт GKR стають невід'ємною допомогою для дослідників, дозволяючи їм виділити суттєве серед безлічі даних та перетворити їх на зрозумілі знання. Окрім GKR, мовна модель INDUS також відіграє важливу роль у різних проектах NASA, зокрема, під час автоматизації збору метаданих та підвищення ефективності пошукових запитів у Science Discovery Engine.