Команда разработчиков из Facebook создала новую технологию, которая генерирует высокодетализированные трехмерные модели людей по фотографиям. Компания представила разработку на ежегодной конференции по компьютерному зрению CVPR 2020. Инструмент под названием PIFuHD работает на основе нейронной сети. Алгоритм генерирует детальную трехмерную модель человека вместе с одеждой. Для этого достаточно одной камеры или фотографии.
PIFuHD может использоваться для автоматической оцифровки изображений. Технология востребована в индустрии виртуальной реальности, а также в области медицинской визуализации.
В работе участвовали три сотрудника из Facebook и исследователь из Университета Южной Калифорнии. Команда разработала систему машинного обучения для генерации высокодетализированного трехмерного изображения человека и одежды из одной фотографии в разрешении 1К. Для работы системы не требуется датчик глубины или установка захвата движения.
PIFuHD расшифровывается как функция выравнивания пикселей для 3D-оцифровки человека с высоким разрешением (англ. Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization). Технология сначала переводит изображение в переднюю и заднюю перспективу, а затем выдает трехмерную фигуру в высоком разрешении.
Это не первая работа по созданию трехмерных моделей из 2D-изображений. Алгоритмы такого рода появились в 2018 году благодаря последним достижениям в области компьютерного зрения. Фактически, система, которую демонстрируют Facebook, использует наработки инструмента PIFu. Проект разрабатывался исследователями из различных университетов в Калифорнии в 2019 году.
На современном оборудовании такие системы могут обрабатывать только входные изображения с относительно низким разрешением. Это ограничивает точность и детализацию выходной модели. PIFuHD использует новый подход: входное изображение подается в PIFu для создания базового слоя с «низким уровнем детализации», затем новая отдельная сеть использует полное разрешение для добавления мелких деталей на поверхность модели.
Но поскольку технология находится на стадии демо-версии, есть ряд ограничений. В настоящее время система не может обрабатывать изображения с разрешением более 1K.
Facebook является компанией, которая стоит за брендом продуктов виртуальной реальности Oculus. Компания считается мировым лидером в области машинного обучения. Машинное обучение лежит в основе Oculus Quest и Rift S — обе гарнитуры точно отслеживают действия человека, без использования внешних базовых станций. В Quest машинное обучение даже используется для отслеживания рук пользователя без необходимости использования контроллеров.
Демо-версия инструмента для преобразования изображений в 3D-модели доступна для пользователей Google Colab. Текст работы опубликован на arxiv.org.