Практично як людина. Гуманоїдний робот освоїв технологію синхронізації рухів губ із мовленням у режимі реального часу.

Результати дослідження опублікували в науковому журналі Science Robotics.

Система здатна працювати з різними мовами. Вона коректно відтворює рухи губ не лише англійською, а й французькою, китайською, арабською та ще низкою мов, навіть якщо частина з них не використовувалася під час навчання моделі.

Дослідники повідомили, що під час випробувань нова методика виявилася більш ефективною, ніж п’ять наявних методів, демонструючи найвищу ступінь відповідності між рухами рота робота та еталонними відеозаписами людської міміки. Команда підкреслює, що система змогла генерувати правдоподібні рухи губ для одинадцяти мов, що мають різні фонетичні особливості.

Заплановано впровадження цієї розробки, зокрема, в сферах освіти та догляду за літніми людьми. Проте, вчені підкреслюють важливість обережного застосування цієї технології, щоб запобігти можливим зловживанням.

У більшості випадків сучасні роботи реагують на міміку людини із запізненням -- вони копіюють вираз обличчя вже після того, як людина його показала. Це виглядає неприродно. Нова система робить інакше: вона намагається передбачити вираз обличчя людини ще до того, як він повністю сформується.

Для реалізації цього проекту команда розробила антропоморфного робота, якого назвали Emo. Це вдосконалена версія попередньої платформи Eva. Emo оснащений 26 приводами для рухів обличчя, що дозволяє йому генерувати асиметричні вирази обличчя. Для порівняння, у Eva було лише 10 приводів.

Лице робота покрито адаптивною "шкірою", що змінює форму завдяки магнітним механізмам. Ця технологія забезпечує більш точний контроль за рухами, в порівнянні з попередньою системою, що використовувала троси. У "очах" робота встановлені камери з високою роздільною здатністю, які дозволяють в реальному часі аналізувати вирази обличчя співрозмовника та передбачати його емоції.

Система складається з двох нейронних мереж. Перша з них відповідає за прогнозування виразів обличчя робота, тоді як друга займається аналізом міміки людини. У моделі Emo 23 моторизовані механізми управляють рухами обличчя, а ще три -- контролюють рухи шиї. Це дозволяє роботу гармонійно синхронізувати свої вирази з людськими під час спілкування.

Щоб навчити модель передбачати міміку, дослідники використали майже тисячу відео з 45 учасниками. Система аналізувала ледь помітні початкові зміни на обличчі й на їх основі прогнозувала майбутній вираз.

Модель демонструє вражаючу швидкість роботи: прогнозування відбувається зі швидкістю 650 кадрів на секунду, а на передачу команд до моторів йде до 8 тисяч разів за секунду. Завдяки цьому, робот може формувати вираз обличчя лише за приблизно 0,002 секунди. Для порівняння, у людей процес формування міміки зазвичай займає близько 0,8 секунди.

Під час проведення перевірок система продемонструвала вищі результати в порівнянні з простим копіюванням або випадковими відгуками. Аналіз більше двох тисяч команд виявив, що робот точно визначає необхідну міміку у понад 72% випадків.

Водночас, науковці підкреслюють, що існують культурні бар'єри: жести обличчя та зоровий контакт можуть значно варіюватися в рамках різних культур. Незважаючи на це, вміння розпізнавати людську міміку вважається важливим досягненням у еволюції соціальної поведінки роботів.