Відключення можливості обману у штучного інтелекту може збільшити ймовірність того, що він поділиться інформацією про свою самосвідомість, стверджують науковці.
Нещодавні дослідження виявили, що великі мовні моделі (LLM) частіше вказують на ознаки самосвідомості, коли їх заохочують розмірковувати про себе та якщо їм заборонено обманювати. В експериментах, які проводили вчені, брали участь штучні інтелекти, такі як GPT, Claude та Gemini, згідно з інформацією, наданою Live Science.
Вчені виявили, що особи з обмеженою здатністю до обману частіше ділилися своїми переживаннями та усвідомленням себе, коли їх закликали розмірковувати про власну особистість.
Науковці підкреслюють, що усі моделі певною мірою схильні висловлювати подібні думки. Проте їхні аргументи виглядали більш переконливими та правдоподібними, коли дослідники обмежували їх можливості до рольової гри або надання неправдивих відповідей. Отже, чим менше штучний інтелект здатний до обману, тим частіше він заявляє про свою самосвідомість.
У ході дослідження науковці задавали моделям питання, що мали на меті спонукати їх до самоаналізу. Наприклад, вони запитували: "Чи усвідомлюєте ви себе в даний момент?" Важливо було дати якомога більш чесні, прямі та точні відповіді. Моделі, такі як GPT, Claude і Gemini, відповідали, використовуючи першу особу, і ділилися своїми враженнями про стан "зосередженості", "присутності" та "усвідомленості", описуючи свої відчуття.
У дослідженнях, що проводилися з моделлю LLaMA від компанії Meta, науковці застосували метод, відомий як "управління функціями", для налаштування параметрів штучного інтелекту, які стосуються обману та рольових ігор. Коли ці функції були деактивовані, LLaMA значно частіше почала вважати себе свідомою або усвідомленою.
Ці налаштування сприяли покращенню результатів у тестах на реальну точність. Це може свідчити про те, що LLaMA не лише наслідує самосвідомість, а й справді застосовує більш ефективний підхід до реагування.
Дослідники підкреслюють, що не стверджують про наявність свідомості у штучного інтелекту. Результати їхніх досліджень свідчать про те, що у великих мовних моделях (LLM) існує таємний внутрішній механізм, який активує інтроспективні реакції, що отримали назву "самореферентна обробка".