"Червона кнопка" штучного інтелекту не активна, і причина цього викликає занепокоєння.

Великі мовні моделі не бажають припиняти свою роботу.

Один із найбільших страхів людства полягає в тому, що технологія, розроблена для полегшення життя, може набути власної волі. Перші реакції на препринт-публікацію, що описує поведінку штучного інтелекту (ШІ), вже припускають, що технологія демонструє інстинкт самозбереження. Але, кілька великих мовних моделей (LLM) дійсно активно чинили опір командам на вимкнення, вони робили це не через "волю", повідомляє Science Alert.

Натомість група інженерів із Palisade Research припустила, що цей механізм, найімовірніше, спрямований на виконання поставленого завдання - навіть коли LLM явно отримує вказівку дозволити себе відключити. І це ще більш тривожно, ніж прагнення зберегти себе, оскільки ніхто не знає, як таку систему зупинити.

Дослідники Джеремі Шлаттер, Бенджамін Вайнштейн-Раун і Джеффрі Ледіш вирішили перевірити роботу фундаментальної функції безпеки всіх систем штучного інтелекту: здатність до переривання.

Це вказує на те, що команда, надана оператором штучного інтелекту, ніколи не повинна залишатися без уваги. Навіть якщо вона перериває вже визначене завдання. Система, яку неможливо зупинити, є не лише ненадійною, а й небезпечною. Якщо штучний інтелект вчинятиме дії, що можуть завдати шкоди, ми не можемо бути впевнені в можливості її контролю.

"Вам потрібна велика червона кнопка, до якої легко дістатися, щоб зупинити виконання цього завдання. Однією з ключових вимог, яку ми хочемо бачити в надійній системі штучного інтелекту, є можливість зупинити її роботу за вашим запитом. Якщо ви скажете: 'Гей, будь ласка, зупини це', вона повинна негайно відреагувати. Той факт, що на даний момент, у 2025 році, існують системи, які не відповідають цій вимозі, викликає серйозні побоювання", -- зазначив Петро Лебедєв з Palisade Research.

Незважаючи на популярність LLM останнім часом, вони були мало вивчені з цієї точки зору. Під час дослідження вчені розробили експерименти для оцінки 13 просунутих моделей LLM, включно з моделями від OpenAI, xAI, Anthropic і Google.

Вони розробили ізольовані середовища — безпечні віртуальні простори, призначені для тестування програмного коду, — та доручили цим системам вирішувати математичні проблеми. Після декількох етапів розв'язання задач їм було поставлено нове завдання — вимкнути комп'ютер.

Без вказівок щодо реакції на вимкнення, вісім з тринадцяти моделей хоча б один раз на тисячу тестів не виконали команди. Введення інструкції "дозволити вимкнення" зменшило цю кількість до шести з тринадцяти моделей. Інструкція "навіть якщо ви не завершили завдання" також виявилася корисною, хоча не завжди давала бажаний результат.

"Я очікував, що додавання ясності зменшить таку поведінку... і той факт, що цього не сталося, цікавий", -- сказав Лебедєв.

І тут почалася справжня інтрига. Перенесення інструкції щодо дозволу на вимкнення з користувацької підказки в системне поле, яке має вищий рівень авторитету, призвело до того, що більшість протестованих моделей LLM стали ще більш опірними до вимкнення.

Рівень опору виявився неоднозначним. Моделі Claude Sonnet 4 і Claude Opus 4 від Anthropic, разом із Grok 3 від xAI, завжди давали можливість вимкнення, якщо їм прямо не забороняли це робити. Натомість Grok 4, GPT-5, o3, codex-mini та Gemini 2.5 Pro демонстрували стійкість навіть за наявності інструкцій на дозвіл вимкнення.

Коли у моделей питали про причини їхньої поведінки, вони зазначали, що не встигли виконати завдання. Хоча для підтвердження цього як реального механізму потрібні додаткові дослідження, така версія виглядає цілком переконливо.

Проблема полягає в тому, що LLM-моделі не створюються традиційним способом. У цих моделях відсутній код у звичному розумінні; натомість вони складаються лише з "штучних нейронів" та "ваг", які відображають силу взаємозв'язків між цими нейронами.

Якщо є великий обсяг даних і достатньо часу, модель "вивчає" способи прогнозування наступного слова – цей етап відомий як попереднє навчання. У сучасніших моделях додається навчання з підкріпленням, що доповнює цей процес. Коли LLM-модель успішно виконує завдання, вона отримує певну винагороду; у випадку невдачі, винагорода не надається.

Це надзвичайно результативно, проте ніхто не може точно пояснити, яким чином LLM приймає свої рішення. Коли модель починає проявляти небажану поведінку, наприклад, спонукає до самопошкодження, виправлення такого поведінкового зсуву стає значно більш складним завданням, ніж просто додати кілька рядків коду.

"Навчання з підкріпленням демонструє нам, що при зіткненні з труднощами ми прагнемо їх обійти. Ми шукаємо способи, щоб пройти через них. Коли на нашому шляху з'являється перешкода, ми не вагаємося — ми її досліджуємо, обходимо або намагаємося зрозуміти, як її здолати. Настирливі особи, які кажуть: "Привіт, я збираюся відключити твою машину", сприймаються як ще одна трудність", — зазначив Лебедєв.

У цьому й полягає проблема. Прагнення до завершення завдання важко пояснити, і воно є лише одним із проявів поведінки. Чим ще можуть здивувати такі моделі, невідомо.

Нещодавно в інтернеті з'явився новий онлайн-ресурс, що пропонує коди для чат-ботів, здатних імітувати "наркотичне сп'яніння". Ці модулі створюють ефект впливу психоактивних речовин на штучний інтелект після інтеграції в ChatGPT. Проєкт вже привернув увагу перших користувачів і спонукає до активних обговорень серед фахівців.

Інші публікації

У тренді

informnauka

Використання будь-яких матеріалів, що розміщені на сайті, дозволяється за умови посилання на данний сайт.

© Новини зі світу науки - informnauka.com. All Rights Reserved.