Кабінет Міністрів України оголосив про старт розробки національної мовної моделі. Міністерство цифрової трансформації та компанія Київстар уклали меморандум про співпрацю в цій сфері.

WINWIN AI Center of Excellence при Міністерстві цифрової трансформації та оператор електронних комунікацій України "Київстар" починають розробку національної великої мовної моделі (LLM). Модель використовуватимуть у цифрових державних і бізнес-продуктах зі штучним інтелектом, щоб зробити сервіси зручнішими для людей та допомогти організаціям працювати ефективніше.

Велика мовна модель представляє собою нейронну мережу, що функціонує за аналогією з людським мозком, дозволяючи їй вивчати, аналізувати та створювати текстову інформацію. Ці моделі слугують основою для розробки чат-ботів, штучних інтелектуальних асистентів та інших подібних технологій.

Для чого Україні національна LLM?

Виходячи з мовної моделі, держава розроблятиме штучний інтелект для полегшення життя громадян та оптимізації внутрішніх процесів. Зокрема, Міністерство цифрової трансформації має намір ввести AI-асистента в програмі Дія, інструменти для аналізу законодавчих актів, а також сервіси в Мрії, які допоможуть створювати індивідуальні навчальні траєкторії для учнів. В цілому, у WINWIN AI Center of Excellence при Мінцифрі, що займається розробкою рішень на основі штучного інтелекту для Міністерства, наразі працює більше десяти різних продуктів.

Українська мовна модель (LLM) зможе надавати більш точні відповіді в порівнянні з міжнародними аналогами, оскільки вона буде додатково навчена на специфічних українських даних. Це дозволить їй краще сприймати мовні нюанси, такі як діалекти, терміни та контекст, а також глибше розуміти теми, пов'язані з українською історією, культурою та соціальним досвідом. Таким чином, модель зможе давати коректні відповіді не лише з точки зору мови, але й за змістом.

Національна LLM дозволяє зберігати та обробляти дані на території країни, що є вкрай важливим для забезпечення безпеки в оборонній сфері, державних структурах, медицині та фінансових установах. Ця модель гарантує захист особистої інформації та національної безпеки України під час впровадження штучного інтелекту в різні галузі.

Розробка української LLM є суттєвим кроком до зміцнення позицій України у сфері штучного інтелекту. Як держава, ми зможемо створювати зручні AI-рішення для наших громадян, а також інтегрувати штучний інтелект як помічника у державному управлінні. Цей ШІ буде надійним та безпечним для населення. Завдяки цьому, штучний інтелект займе своє місце в обороні, освіті, науці та інших важливих галузях. Водночас, національна LLM надасть бізнесу можливість розробляти інноваційні продукти, які будуть більш доступними, безпечними і адаптованими до українських реалій. Для реалізації цього масштабного проекту ми об'єднуємо зусилля Міністерства цифрової трансформації з Київстаром. Це яскравий приклад продуктивного партнерства, де провідний бізнес активно залучається до створення рішень на національному рівні, — підкреслив Віце-прем'єр-міністр з інновацій, розвитку освіти, науки та технологій Михайло Федоров, який також є Міністром цифрової трансформації.

Мінцифри координуватиме процес розробки моделі та формуватиме технологічну й етичну візію створення LLM. Зокрема, створить усі ключові структури для якісної розробки моделі -- координаційний комітет й етичний та технічний борди.

Координаційний комітет нестиме відповідальність за формування візії та стратегії розробки. До його складу увійдуть представники Міністерства цифрової трансформації, WINWIN AI Center of Excellence, інших спеціалізованих державних установ, компанії Київстар, а також технічного і етичного дорадчих органів. Етичний орган контролюватиме відповідність моделі чинному законодавству та етичним нормам. Технічний дорадчий орган буде займатися архітектурою та навчанням моделі з використанням даних. Розробкою моделі керуватиме проектний офіс, створений компанією Київстар, яка виступає в ролі операційного виконавця.

Міністерство цифрової трансформації займатиметься збором даних для навчання моделі, залучаючи до цього як державні, так і приватні організації — університети, наукові установи, національні бібліотеки та інтелектуальні фонди. У процесі навчання будуть використані дані з відкритих джерел українською мовою, які будуть зібрані в спеціально створених датасетах. При цьому персональні дані, інформація з реєстрів та будь-які інші чутливі дані не підлягатимуть використанню в етапі попереднього навчання.

Партнерство з Київстаром

Київстар, національний оператор електронних комунікацій, виступає стратегічним партнером держави в реалізації проекту національної LLM. Компанія активно вкладає кошти в інноваційні технології та цифрові послуги, має значний досвід у галузі штучного інтелекту та інтегрує AI-рішення у свою довгострокову технологічну стратегію. Київстар об'єднує мовні моделі з сучасними системами RAG (Retrieval Augmented Generation), впроваджуючи їх у реальні бізнес-процеси, сервісну підтримку та аналіз даних, при цьому дотримуючись високих стандартів безпеки та етичних норм.

Київстар користується прямими каналами міжнародного досвіду завдяки своїй материнській компанії VEON, яка реалізувала успішні AI-проекти в різних країнах. Таким чином, Київстар виступає надійним технологічним партнером на початкових етапах, сприяючи швидкому запуску та розробці LLM, яка буде максимально відповідати мовним та культурним особливостям України.

"Залучення до розробки національної української LLM є логічним кроком для Київстару, який позиціонує себе як технологічний лідер. Наші стратегічні орієнтири повністю співпадають з державними пріоритетами у сфері розвитку штучного інтелекту. У співпраці з Міністерством цифрової трансформації ми прагнемо створити відкриту національну екосистему, де бізнес, державні органи та наукові установи спільно працюватимуть над розвитком української AI-інфраструктури. Це допоможе забезпечити технологічний суверенітет України та підтримати національні цифрові сервіси," -- зазначив генеральний директор Київстару Олександр Комаров.

Економічні та фінансові переваги української мовної моделі

Застосування моделі українською мовою обійдеться українським користувачам дешевше, ніж її англомовні варіанти. Після завершення етапу розробки та тестування ця модель перейде у власність держави. Як тільки LLM буде готова, держава отримає безкоштовний доступ до неї для подальшого використання.

Запуск українськомовної LLM стимулюватиме розвиток нових AI-стартапів, залучатиме міжнародні інвестиції в Україні та сприятиме зростанню ВВП через створення AI-рішень для різних галузей економіки.

Базою для національної моделі стане одне з рішень з відкритим вихідним кодом, без використання бюджетних коштів. Перший варіант моделі має бути реалізований до грудня 2025 року.

До процесу розробки можуть приєднатися лінгвісти, дослідники та спеціалісти в галузі машинного навчання. Якщо ви бажаєте стати учасником проекту, будь ласка, надсилайте свої запити на електронну адресу [email protected].