Вышла обновленная версия нейросети Kandinsky 2.2

Компьютерра 15 июля 2023

На чтение: 2 минуты

Нравится:

Вышел вышла в свет новая версия генеративной модели от Сбера – Kandinsky 2.2.

Что известно

С момента релиза версии Kandinsky 2.1 прошло 3 месяца. Ключевые нововведения:

разрешение генераций теперь достигло 1024 px;
генерировать можно с различным соотношением сторон, а не только делать квадратные изображения;
изображения стали максимально близки к фотореалистичным;
у модели появилась возможность изменения частей изображения за счет внедрения механики ControlNet (пока только на основе карты глубины);
версии 2.1 и 2.2 встроены в самый большой и известный фреймворк генеративных моделей – Diffusers.

В телеграм-боте теперь 6 режимов:

генерация картинки по тексту
смешивание двух изображений
смешивание изображения и текста
создание вариаций входной картинки
локальные изменения с помощью ControlNet механики 💥
создание стикеров и стикерпаков по текстовым запросам 💥

Воспользоваться моделью можно тут:

Почему это важно

По сравнению с версией 2.1 прогресс нереальный. Во-первых, теперь модель обучена на большем наборе данных. Разработчики использовали 1,5 млрд пар «текст-изображение». В первой версии было на 300 млн пар меньше. Благодаря этому нейросеть научилась лучше понимать запросы и выдавать более реалистичные изображения.

Во-вторых, теперь можно задавать соотношения сторон, высоту и ширину, создавать стилизации изображений на основе своих набросков или готовых композиций. Можно генерировать изображения в высоком разрешении до 1024 пикселей. В новую версию нейросети встроили ControlNet — структурный блок управляемых изменений. Он позволяет менять отдельные элементы на созданных изображениях с сохранением исходной композиции. Кроме того, еще теперь в Kandinsky есть возможность генерировать стикеры и стикерпаки.

Подписывайтесь на наш Telegram Подписаться