Вышел вышла в свет новая версия генеративной модели от Сбера – Kandinsky 2.2.
Что известно
С момента релиза версии Kandinsky 2.1 прошло 3 месяца. Ключевые нововведения:
- разрешение генераций теперь достигло 1024 px;
- генерировать можно с различным соотношением сторон, а не только делать квадратные изображения;
- изображения стали максимально близки к фотореалистичным;
- у модели появилась возможность изменения частей изображения за счет внедрения механики ControlNet (пока только на основе карты глубины);
- версии 2.1 и 2.2 встроены в самый большой и известный фреймворк генеративных моделей – Diffusers.
В телеграм-боте теперь 6 режимов:
- генерация картинки по тексту
- смешивание двух изображений
- смешивание изображения и текста
- создание вариаций входной картинки
- локальные изменения с помощью ControlNet механики 💥
- создание стикеров и стикерпаков по текстовым запросам 💥
Воспользоваться моделью можно тут:
Почему это важно
По сравнению с версией 2.1 прогресс нереальный. Во-первых, теперь модель обучена на большем наборе данных. Разработчики использовали 1,5 млрд пар «текст-изображение». В первой версии было на 300 млн пар меньше. Благодаря этому нейросеть научилась лучше понимать запросы и выдавать более реалистичные изображения.
Во-вторых, теперь можно задавать соотношения сторон, высоту и ширину, создавать стилизации изображений на основе своих набросков или готовых композиций. Можно генерировать изображения в высоком разрешении до 1024 пикселей. В новую версию нейросети встроили ControlNet — структурный блок управляемых изменений. Он позволяет менять отдельные элементы на созданных изображениях с сохранением исходной композиции. Кроме того, еще теперь в Kandinsky есть возможность генерировать стикеры и стикерпаки.