Нейросеть воспроизводит движения, а также изменения точки обзора «камеры» и новые объекты, которые возникают с течением времени.
Новая модель от компании NVIDIA разработана на основе архитектуры StyleGAN (нейросеть, которая умеет создавать лица несуществующих людей, была представлена в 2018 году). Она может генерировать полноценные видео с декорациями и объектами, которые появляются в кадре последовательно с течением времени.
По словам авторов, существующие методы создания видео обычно не способны в длительном периоде производить новый контент и сохранять условия окружающей среды, которые ожидают увидеть пользователи в следующем кадре.
Чтобы показать преимущества новой нейросети, разработчики сравнили ее с предыдущими моделям на наборе данных с разрешением 128х128. Небо от MoCoGAN-HD и TATS меняется слишком быстро, а видео DIGAN страдает от повторяющихся паттернов.
Создатели планируют опубликовать код, наборы данных и предварительно обученные модели в августе 2022 года.