OpenAI опубликовала технический документ по модели Sora

OpenAI опубликован технический документ о модели Sora. Отчет подробно описывает метод преобразования визуальных данных. Этот подход позволяет масштабировать обучение моделей и проводить качественную оценку возможностей и ограничений.

Sora

OpenAI в своем блоге опубликовала исследование, посвященное обучению моделей генерации видеоданных и условного распространения текста на видео.

Описывая Sora, компания указывает на использование архитектуры Transformer для работы с пространственно-временными фрагментами видео и скрытыми кодами изображений. Они также подробно описывают процесс обучения генерации модели в сжатом скрытом пространстве и ее декодера, который преобразует файлы в пиксельное пространство.

Видео из блога OpenAI

В отчете отмечается, что Sora представляет собой диффузионный трансформатор. Он способен генерировать видео различных форматов, включая широкоэкранные видео 1920×1080 пикселей, вертикальные видео 1080×1920 пикселей и все промежуточные варианты. Кроме того, Sora может генерировать изображения до 2048×2048 пикселей.

В отчете также упоминается применение техники повторных субтитров, аналогичной той, которая была представлена в DALL·E330. Сначала обучается модель, способная генерировать описательные подписи, а затем эта модель применяется для создания текстовых подписей ко всем видео в обучающем наборе. Исследователи OpenAI отмечают, что обучение модели работе с описательными подписями к видео значительно повышает точность воспроизведения и качество.

Видео из блога OpenAI

Согласно OpenAI, масштабирование моделей является перспективным направлением для разработки симуляторов миров, а также для создания разнообразных объектов и персонажей, населяющих эти миры.

Что будем искать? Например,ChatGPT

Мы в социальных сетях