Вышла обновленная версия нейросети Kandinsky 2.2

Вышел вышла в свет новая версия генеративной модели от Сбера – Kandinsky 2.2.

Что известно

С момента релиза версии Kandinsky 2.1 прошло 3 месяца. Ключевые нововведения:

  • разрешение генераций теперь достигло 1024 px;
  • генерировать можно с различным соотношением сторон, а не только делать квадратные изображения;
  • изображения стали максимально близки к фотореалистичным;
  • у модели появилась возможность изменения частей изображения за счет внедрения механики ControlNet (пока только на основе карты глубины);
  • версии 2.1 и 2.2 встроены в самый большой и известный фреймворк генеративных моделей – Diffusers.

В телеграм-боте теперь 6 режимов:

  • генерация картинки по тексту
  • смешивание двух изображений
  • смешивание изображения и текста
  • создание вариаций входной картинки
  • локальные изменения с помощью ControlNet механики 💥
  • создание стикеров и стикерпаков по текстовым запросам 💥

Воспользоваться моделью можно тут:

Telegram bot

fusionbrain.ai

Diffusers

rudalle.ru

Салют

Почему это важно

По сравнению с версией 2.1 прогресс нереальный. Во-первых, теперь модель обучена на большем наборе данных. Разработчики использовали 1,5 млрд пар «текст-изображение». В первой версии было на 300 млн пар меньше. Благодаря этому нейросеть научилась лучше понимать запросы и выдавать более реалистичные изображения.

Во-вторых, теперь можно задавать соотношения сторон, высоту и ширину, создавать стилизации изображений на основе своих набросков или готовых композиций. Можно генерировать изображения в высоком разрешении до 1024 пикселей. В новую версию нейросети встроили ControlNet — структурный блок управляемых изменений. Он позволяет менять отдельные элементы на созданных изображениях с сохранением исходной композиции. Кроме того, еще теперь в Kandinsky есть возможность генерировать стикеры и стикерпаки.

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях