Disney показала технологию создания фотореалистичных дипфейков

В видео и статье, представленных на конференции по компьютерной графике на этой неделе, исследователи из крупнейшей в мире киностудии демонстрируют первые фотореалистичные дипфейки с мегапиксельным разрешением. Новая демоверсия технологии смены лиц от Disney Research Studios показывает, насколько близки дипфейки к использованию в высокобюджетных фильмах и сериалах.

Как предполагают исследователи, основным преимуществом системы является мегапиксельное разрешение. До сих пор технология DeepFake фокусировалась на плавной передаче лица, а не на увеличении числа пикселей.

Дипфейки, которые наводнили интернет в последние несколько лет, могут выглядеть впечатляюще на экране телефона, но их недостатки будут гораздо более заметны на большом экране. В качестве примера исследователи Disney отмечают, что видеоролики с максимальным разрешением, которые они могли создать из популярной технологии DeepFakeLab с открытым исходным кодом, имели размер всего 256 x 256 пикселей. Для сравнения, модель Disney Research может воспроизводить видео с разрешением 1024 x 1024 — это значительное увеличение.

Одной из главных проблем создания реалистичных дипфейков является сбор обширной базы данных изображений лица человека — тысячи различных выражений мимики и поз — которые можно вставить в целевое видео. Чем больше база данных и чем выше качество изображений, тем лучше будет выглядеть замена лица. Но изображения обычно берут из источников с ограниченным качеством. Даже видеофайл в 4K может давать изображения лиц с низким разрешением, учитывая, как часто камера может отдаляться и в общем кадре мелькают только маленькие лица. Первый шаг исследователей к созданию действительно убедительных дипфейков — начать с высококачественного источника.

Технология способна менять внешность двух людей, в точности сохраняя мимику изначального лица. Также система автоматически подстраивает контраст и условия освещения на этапе обработки, чтобы актер выглядел так, как будто он действительно присутствовал в тех же условиях, что и сцена. Но функциональность модели Disney довольно условна: если посмотреть видео-результат, можно увидеть, насколько технически ограничен вывод. Система производит дипфейки только хорошо освещенных людей, смотрящих более или менее прямо в камеру. Сложные углы и освещение до сих пор являются минусами этой технологии.

Однако, как отмечают исследователи, технология приближается к созданию достаточно реалистичных дипфейков для коммерческих проектов. Сравнение результатов Disney (столбцы три и четыре) с дипфейками из более ранних моделей показывает явные улучшения.

Сейчас в киноиндустрии для таких целей используют визуальные эффекты. Например, Disney таким образом создавала виртуальные модели умерших актеров Питера Кушинга и Кэрри Фишер для фильмов в серии «Звездные войны». Исследователи отмечают, что визуальные эффекты дорогостоящие, и на их создание уходят месяцы. Технология дипфейков, для сравнения, требует гораздо меньше контроля. Модель может производить видео в считанные часы.

За несколько лет результаты технологии автоматической замены лица на основе нейронной сети превратились из неубедительных подделок в правдоподобные ролики, которые незнающие люди не могут отличить от оригинала. Благодаря новым исследованиям Disney, дипфейки могут стать законными и превратиться в высококачественный инструмент для студий визуальных эффектов, работающих над голливудскими блокбастерами.

Результаты исследования Disney Research Studios показаны в видео ниже. Как отмечают исследователи, эффект лучше виден в движущемся видео, чем в неподвижных изображениях.