Исследовательские лаборатории искусственного интеллекта в Facebook, Nvidia и стартапах, таких как Threedy.ai, в разное время пробовали свои силы в решении проблемы преобразования 2D-изображений в 3D-формы. В новом исследовании, команда из подразделения Microsoft Research подробно описывает систему, которая, как они утверждают, является первой «масштабируемой» техникой обучения для генерации 3D-моделей из 2D-данных.
Исследователи заявляют, что эта система может постоянно учиться создавать более совершенные формы, чем существующие модели, при обучении исключительно на 2D-изображениях. Такой инструмент может быть полезен для разработчиков видеоигр, предприятий электронной коммерции и анимационных студий, которым не хватает средств или опыта для создания 3D-объектов с нуля.
Фото: arxiv.org
В отличие от предыдущих разработок, исследователи стремились воспользоваться преимуществами полнофункциональных промышленных средств визуализации, то есть программного обеспечения, которое создает изображения из представленных данных. С этой целью они обучают производную модель для трехмерных фигур так, что при обработке изображений создаются объекты, соответствующие пропорциям двумерного набора данных.
Производная модель принимает случайный входной вектор (значение, представляющее особенность набора данных) и генерирует непрерывное воксельное (воксел — это объемный пиксель) представление трехмерного объекта. Затем начинается рендеринг (процесс получения изображения) этих вокселей с помощью готовых программ.
Новый нейронный рендеринг напрямую отображает непрерывную сетку вокселей, генерируемую трехмерной производной моделью. Как объясняют исследователи, система обучена сопоставлять результаты рендеринга сторонней программой с учетом 3D-сетки.
Фото: arxiv.org
В экспериментах команда использовала трехмерную сверточную генеративно-состязательную сеть для генератора. Генеративно-состязательная сеть (GAN) представляет собой модель искусственного интеллекта из двух частей, одна из которых генерирует образцы, а другая старается отличить правильные («подлинные») образцы от неправильных. Так как эти сети имеют противоположные цели — создать образцы и отбраковать образцы — они как будто играют против друг друга. Использование этой техники позволяет в частности генерировать фотографии, которые человеческим глазом воспринимаются как натуральные изображения. Исследователи смогли таким образом синтезировать изображения из разных категорий объектов, которые они визуализировали с разных точек зрения в течение всего процесса обучения.
Исследователи говорят, что их подход использует сигналы освещения и затенения от оригинальных изображений, что позволяет системе извлекать более значимую информацию для каждой обучающей выборки и получать лучшие результаты. Команда не собирается останавливаться на этом. В планах перейти к работе, включающей перенос цвета, материала и освещения в свою систему, чтобы расширить ее возможности для работы с более «общими» наборами данных.