OpenAI опубликован технический документ о модели Sora. Отчет подробно описывает метод преобразования визуальных данных. Этот подход позволяет масштабировать обучение моделей и проводить качественную оценку возможностей и ограничений.
OpenAI в своем блоге опубликовала исследование, посвященное обучению моделей генерации видеоданных и условного распространения текста на видео.
Описывая Sora, компания указывает на использование архитектуры Transformer для работы с пространственно-временными фрагментами видео и скрытыми кодами изображений. Они также подробно описывают процесс обучения генерации модели в сжатом скрытом пространстве и ее декодера, который преобразует файлы в пиксельное пространство.
Видео из блога OpenAI
В отчете отмечается, что Sora представляет собой диффузионный трансформатор. Он способен генерировать видео различных форматов, включая широкоэкранные видео 1920×1080 пикселей, вертикальные видео 1080×1920 пикселей и все промежуточные варианты. Кроме того, Sora может генерировать изображения до 2048×2048 пикселей.
В отчете также упоминается применение техники повторных субтитров, аналогичной той, которая была представлена в DALL·E330. Сначала обучается модель, способная генерировать описательные подписи, а затем эта модель применяется для создания текстовых подписей ко всем видео в обучающем наборе. Исследователи OpenAI отмечают, что обучение модели работе с описательными подписями к видео значительно повышает точность воспроизведения и качество.
Видео из блога OpenAI
Согласно OpenAI, масштабирование моделей является перспективным направлением для разработки симуляторов миров, а также для создания разнообразных объектов и персонажей, населяющих эти миры.