Нейросети для музыки: подборка генераторов мелодий и песен

«Робот сочинит симфонию?» — спрашивал со скепсисом герой Уилла Смита в фильме «Я, робот» в 2004 году. Сейчас искусственный интеллект активно интегрируется в мир музыки, а нейросетевыми композициями уже никого не удивить. Например, песня «Heart on My Sleeve», сгенерированная с помощью нейросети на основе вокала Дрейка и The Weeknd, претендовала на получение престижной премии «Грэмми». Это настолько взволновало академию звукозаписи, стоящей за премией, что они выпустили новые правила, согласно которым только человек имеет право на высшую награду музыкальной индустрии.

Есть и другие примеры: ирано-британский электронщик Аш Куша создал виртуальную певицу Yona, которая пишет музыку и тексты песен, а затем сама исполняет их. А осенью 2023 года вышел последний сингл The Beatles «Now And Then», где с помощью ИИ «был извлечен голос покойного Джона Леннона». И это точно не последняя реинкарнация известного исполнителя. В ближайшие годы ждем больше подобных новостей.

За последнее время вышло много новых ИИ-сервисов, но в основном упор делали на генерацию картинок и видео. Мир text-to-music менее активен. В статье собрали нейросети для генерации музыки, песен, мелодий, звуков по текстовым промтам, видео и картинкам.

робот, гитара

Нейросети для генерации песен

Suno.ai

Абсолютный лидер в этом рейтинге — Suno.ai. Если не знаете, с чего начать генерацию песен, то это лучший вариант. Третья версия научилась выдавать музыку без вокала и в хорошем качестве, причем до 3 минут. Ее пока тестируют на ограниченной аудитории, но обещают треки длиннее и экспрессивнее, а генерацию более быструю. Из минусов: длины промта не хватает, чтобы детально прописать желаемый стиль.

Попробовать тут.

Riffusion

Еще один генератор песен, который стоит попробовать — Riffusion. Кроме музыки, генерируется видеоряд, так что выдает идеальный контент для рилсов и шортсов. Регистрация через Google –аккаунт, нейросеть работает быстро и бесплатно, выдает и музыку, и вокал. Необходимо прописать текстовый промт и стиль — в ответ выдает 3 варианта. Из минусов: Riffusion генерирует только 12 секунд аудио, но в промте можно прописывать, что это за фрагмент (куплет, припев), а потом собирать все по частям в один трек.

Попробовать тут.

Songr

Songr тоже умеет генерировать и музыку, и вокал, и стихи. Нейросети далеко до хитов, но результат в целом впечатляет. Доступны 4 жанра, голос звучит чисто.

Попробовать тут.

Нейросети для генерации музыки

Stable Audio от Stability AI

Компания-нейрогигант выпустила нейросеть Stable Audio с удобным интерфейсом и множеством возможностей. Генерирует музыку по текстовому промту. В бесплатном тарифе дается до 20 некоммерческих треков в месяц по 45 секунд. Выдает как готовые треки, так и отдельно инструменты или немузыкальные звуковые эффекты.

Попробовать тут.

AudioCraft от Meta*

AudioCraft создает музыку и звуки на основе написанного текста. Состоит из 3 моделей: MusicGen отвечат за мелодии, AudioGen генерирует звуки и эффекты (например, собачий лай или звук капель воды), EnCodec обрабатывает звучание.

Музыкальный конструктор бесплатный и подойдет для любых задачи: от музыки до рекламы и игр. MusicGen обучалась на 20 000 часов музыки. Работает по текстовому промту, приложенному референсу или можно напеть мелодию в микрофон. На выходе выдает аудио продолжительностью в 12 секунд. Из минусов: некоторые звуки получаются слишком искусственными.

Попробовать тут.

MusicLM, MusicFX и AudioLDM от Google

Ранее поисковой гигант Google ананосировал новый экспериментальный ИИ-инструмент MusicLM, который может превращать текстовые запросы в музыку. Нейросеть выдает 2 варианта на выбор (компания заявила, что это помогает улучшить модель). Кстати, ИИ от Google обучен на 280 000 часах мелодий. Попробовать тут, а примеры есть тут.

Кроме того, Google выпустила генератор музыки MusicFX — обновление MusicLM. Попробовать тут.

Еще одна недооцененная музыкальная нейросеть от Google — AudioLDM. Выдает аудио по 5 секунд. Попробовать тут.

Mubert

Mubert генерирует музыку по текстовому промту. Нейросеть создаст подходящий трек продолжительностью до 25 минут. Треки можно скачать в zip-папке: в ней сама мелодия в формате mp3 и руководство об авторских правах Mubert в pdf-файле. При использовании сгенерированной музыки важно добавить к описанию ссылку на Mubert, так как все права принадлежат этой платформе. Чтобы оставить авторское право за собой, оформите премиум подписку.

Попробовать тут.

Musicfy

Создавать музыку можно, просто напевая мотив в микрофон. Работает по аналогии с синтезаторами, где можно было засэмплировать звук, а потом наигрывать мелодию на клавишах этим звуком. Теперь можно обойтись без  этого дорогого девайса.

Достаточно напеть голосом (насвистыванием, постукиванием) звучание мелодии, выбрать инструмент, а нейросеть выдаст партию. Среди минусов: если не попадаете в ноты, то это нейросеть не сможет исправить.

Попробовать тут.

StockmusicGPT

Проблему авторских прав легко решить с сервисом StockmusicGPT. Нейросеть сгенерирует мелодию, которая не требует авторских прав, поэтому ее можно использовать в своем контенте. Можно выбирать жанр, инструменты, стиль, настроение.

Попробовать тут.

Music GenAI Control от Adobe

Adobe представила Project Music GenAI Control — инструмент, который позволяет создавать музыку с помощью текстовых подсказок, регулировать темп, структуру трека и его длину.

Вот что говорят разработчики: «Одна из замечательных особенностей этих новых инструментов заключается в том, что они предназначены не только для создания звука — они выводят его на уровень Photoshop, предоставляя креативщикам такой же глубокий контроль над формой, настройкой и редактированием их аудио. Это своего рода управление музыкой на уровне пикселей».

Пользовательский интерфейс для редактирования сгенерированного звука еще не показали: инструмент находится на ранних стадиях разработки и пока не доступен широкой публике.

Нейросети для генерации звуков по изображениям

Отдельно стоит отметить группу нейросетей, которые генерируют аудио по картинкам и видео:

  • Image to Music V2. Генератор музыки по изображениям, работает в браузере, регистрация не нужна.
  • Image2SFX Comparison. Еще один генератор звуковых эффектов по картинке. Внутри на выбор три модели: MAGNet, AudioLDM-2, и AudioGen.
  • Video to Music. Добавляем видео и генерируем фоновую музыку.
  • Pika Labs. Генератор видео по промтам и картинкам, но разработчики добавили новую функцию — теперь можно создавать видео со звуком: либо нейросеть сама подберет его с учетом контекста, либо пользователь может указать это в промте. Пока доступно только платно в бета-версии.

Почему медленно развиваются нейросети для генерации музыки

Если вас удивляет, что мало новостей про музыкальные нейросети, то давайте посмотрим на статистику: есть 3 доминирующих мировых лейбла (Universal Music Group, Sony Music Entertainment, Warner Music Group.), и им принадлежат около 70% каталога мирового музыкального рынка. Их юристы ждут любой ошибки, а поэтому вспоминаем про многомиллионные штрафы за нарушения авторских прав.

Выпуск нейросетей для генерации музыки дает возможность и простым обывателям почувствовать себя музыкантами. Но все упирается в вопрос авторских прав, задействование музыки для обучения моделей и последующей эксплуатации готовых шедевров.

Meta* — экстремистская и запрещенная в РФ организация.

Что будем искать? Например,ChatGPT

Мы в социальных сетях