Microsoft представила новую модель VASA-1. Она позволяет генерировать реалистичные видео из одной фотографии или изображения человека. Однако Microsoft не намерена выпускать продукт или API с моделью и утверждает, что она будет использоваться для создания виртуальных персонажей.
Microsoft представила новую модель искусственного интеллекта, которая может создавать реалистичные видеоролики из фотографий людей. VASA-1 может генерировать видео из одной фотографии и аудиодорожки речи.
В сообщении на странице анонсов исследований Microsoft подробно рассказала о работе своей модели и подчеркнула ее возможности. Компания утверждает, что VASA-1 может генерировать видео с разрешением 512 x 512p со скоростью до 40 кадров в секунду. Также сообщается, что VASA-1 поддерживает генерацию онлайн-видео с незначительной задержкой при запуске.
Компания заявляет, что в созданных видеороликах будут синхронизированы движения губ, выражения лица и движения головы, чтобы все выглядело естественно.
VASA-1 также предоставляет пользователю детальный контроль над различными аспектами видео, такими как направление основного взгляда, расстояние до головы, смещение эмоций и другие. Эти элементы управления атрибуцией могут помочь точно модифицировать результат в соответствии с текстовыми подсказками.
Кроме того, модель ИИ также может создавать видеоролики с использованием художественных фотографий, звукового сопровождения и неанглоязычной речи. Исследователи Microsoft отмечают, что эти функции отсутствовали в ее данных, намекая на способность к самообучению.
Реалистичная генерация видео реальных людей с помощью моделей искусственного интеллекта впечатляет, но также вызывает вопрос о возможном неэтичном использовании, особенно для создания дипфейков. На основе этого Microsoft не планирует выпускать продукт или API модели VASA-1 и утверждает, что она будет использоваться только для создания виртуальных персонажей.