MusicLM и AudioLM Инструмент преобразования текста в музыку и аудио от Google

Нейронные сети

MusicLM и AudioLM Инструмент преобразования текста в музыку и аудио от Google | DeepTech

DEEPTECH

July 17, 2023

Введение

MusicLM и AudioLM — это два продукта следующего поколения, разрабатываемые Google. Один из них — преобразование текста в музыку, а другой — преобразование текста в аудио. Исследователи из Google, технологического гиганта, наиболее известного своей поисковой системой, анонсировали новую генеративную модель Google AI под названием MusicLM, также известную как генератор текста в музыку, которая может выполнять генерацию музыки из текстовых описаний, таких как «успокаивающее пианино в сопровождении искаженная скрипка». Это обновление предыдущей модели ИИ, известной как AudioLM. Оно также может преобразовывать напевную мелодию в другой музыкальный стиль и воспроизводить музыку в течение нескольких минут.

Создание реалистичного звука требует моделирования информации, представленной в разных масштабах. Например, так же, как музыка строит сложные музыкальные фразы из отдельных нот, речь объединяет локальные во времени структуры, такие как фонемы или слоги, в слова и предложения. На данный момент MusicLM и AudioLM недоступны для широкой публики, однако в этой статье мы обсудим их два и то, как они работают.

Читайте также: Музыка, сгенерированная искусственным интеллектом из данных аудиоволн

Что такое MusicLM

Исследователи Google создали искусственный интеллект, который может генерировать музыкальные произведения продолжительностью в несколько минут из текстовых подсказок и даже может преобразовывать свистящую или напеваемую мелодию в другие инструменты. Он был обучен с использованием набора данных из более чем 280 000 часов музыки. Этот ИИ известен как MusicLM. Однако MusicLM может ответить на ваши вопросы только в виде музыки. Google MusicLM может моментально создавать музыку на основе текстового запроса. Что еще более интересно, ИИ может даже читать изображения и их описание, чтобы создавать музыку, которая синхронизируется с изображением.

Он может мгновенно создавать музыку в любом жанре, как это может сделать опытный музыкальный продюсер. Однако, в отличие от человека-продюсера, который знаком всего с несколькими инструментами и музыкальными формами, MusicLM от Google может создавать короткую, среднюю и полную музыку практически в любом жанре. Это включает, помимо прочего, расслабляющий джаз, мелодическое техно, белла-чао в форме напевания, форму свистка, форму припева капеллы и создание музыки на основе художественного описания.

MusicLM поддерживает все основные музыкальные жанры со всего мира, в том числе 8-бит, биг-бит, британский инди-рок, фолк, регги, хип-хоп, мотивационную музыку, электронные песни, музыку для спорта, высококачественную музыку, поп-музыку и перуанскую музыку. панк.

Google даже поделился музыкальными фрагментами всех этих жанров, созданными MusicLM, которые даже включают саундтреки из аркадных игр. Хотя он может создавать музыку, как начинающий музыкальный продюсер, он также может создавать связные песни, как и профессионал. Опять же, все, что вам нужно сделать, это указать свои требования в текстовом описании и тип инструмента, чтобы помочь MusicLM создать точный стиль музыки или мелодию, которую вы ищете, и на каком уровне опыта вы хотите создавать музыку. В том же контексте он также может воспроизводить разнообразную музыку, предлагая пользователю множество вариантов.

Примеры впечатляют. Есть 30-секундные фрагменты того, что звучит как настоящие песни, созданные из длинных абзацев описаний, предписывающих жанр, атмосферу и даже конкретные инструменты, а также пятиминутные фрагменты, созданные из одного или двух слов, таких как «мелодичное техно». ” MusicLM может даже имитировать человеческий вокал, и хотя он, кажется, правильно передает тон и общее звучание голосов, в них есть качество, которое определенно не соответствует действительности. Звучит зернисто и не по тону. Во многих случаях тексты бессмысленны, но в таком смысле, что вы не обязательно уловите, если не будете обращать внимания.

Интуитивно понятно, что инструменты искусственного интеллекта, такие как MusicLM, которые могут уменьшить барьер для создания музыки, должны означать большую зарплату для музыкальных платформ. Простота создания музыки будет означать больше создателей музыки. Конечно, чем больше музыки привлекает больше слушателей, тем больше доходов. Это верная логика. Однако это также может оказаться ошибочным мышлением.

Рост инструментов искусственного интеллекта для преобразования текста в музыку может привести к появлению «генеративных алгоритмов рекомендаций». Думайте об этом как о сервисах потоковой передачи музыки, основанных на алгоритмах, которые генерируют музыку на ходу и рекомендуют ее вам на основе ваших интересов, например, TikTok автоматически генерирует и рекомендует вам новые видео на основе ваших интересов.

Это может создать одну прямую проблему — меньше полагаться на традиционную модель потоковой передачи музыки. Тогда сервисы потоковой передачи музыки должны будут адаптироваться или стать менее актуальными. Подобно тому, что в настоящее время делают сайты стоковых изображений в ответ на рост искусства ИИ, платформы потоковой передачи музыки будут лучше защищены, если они возьмут на себя инициативу по размещению этих алгоритмов генеративных рекомендаций на своих платформах.

Читайте также: Переосмысление искусства с помощью генеративного ИИ

Что такое АудиоЛМ

Исследовательская группа Google запустила AudioLM, фреймворк для создания высококачественного звука, сохраняющего неизменность во времени. Для этого он начинается с записи, которая длится всего несколько секунд и способна естественно и логично ее продлить. Создание реалистичного звука требует моделирования информации, представленной в разных масштабах. Например, так же, как музыка строит сложные музыкальные фразы из отдельных нот, речь объединяет локальные во времени структуры, такие как фонемы или слоги, в слова и предложения.

Создание хорошо структурированных и связных звуковых последовательностей во всех этих масштабах является проблемой, которая была решена путем объединения звука с транскрипцией, которая может направлять процесс генерации. Это может быть что угодно, от текста для текста до речи или даже MIDI-файлов для музыки. Основная интуиция, стоящая за AudioLM, заключается в том, чтобы использовать достижения в языковом моделировании для создания звука без обучения на аннотированных данных.

Однако при переносе текста в аудио возникают некоторые проблемы. Два из них перечислены ниже:

Во-первых, нужно смириться с тем фактом, что скорость передачи данных для аудио значительно выше, что приводит к гораздо более длинным последовательностям. Письменное предложение может быть представлено несколькими десятками символов, его звуковой аналог обычно содержит сотни тысяч значений.
Во-вторых, между текстом и звуком существует отношение «один ко многим». Это означает, что одно и то же предложение может быть воспроизведено разными говорящими с разным стилем речи, эмоциональным наполнением и условиями записи.

Самым впечатляющим аспектом AudioLM является то, что он генерирует звук без использования предыдущих расшифровок или аннотаций, несмотря на то, что созданная речь синтаксически и семантически разумна. Кроме того, он сохраняет личность говорящего и просодию до такой степени, что слушатель не может определить, какая часть аудио является подлинной, а какая создана искусственным интеллектом.

Применение искусственного интеллекта поразительно. Он может не только имитировать артикуляцию, высоту тона, тембр и интенсивность, но также может представлять звук дыхания говорящего и составлять понятные фразы. Если это не из студии, а из записи с фоновым шумом, AudioLM имитирует его, чтобы обеспечить непрерывность. Вы можете прослушать аудио на Веб-сайт AudioLM.

МузыкаLM Pytorch

Несмотря на то, что MusicLM еще не доступен для публики, это не мешает некоторым людям пытаться создать его в Pytorch. PyTorch — это платформа машинного обучения, основанная на библиотеке Torch, используемая для таких приложений, как компьютерное зрение и обработка естественного языка, первоначально разработанная Meta AI, а теперь являющаяся частью зонтика Linux Foundation. Это бесплатное программное обеспечение с открытым исходным кодом, выпущенное под модифицированной лицензией BSD.

Код для MusicLM пока неизвестен, однако известен код для AudioLM. Поэтому, чтобы попытаться воспроизвести MusicLM, они используют текстовую версию AudioLM с контрастной обучаемой моделью под названием MuLan. MuLan был первой попыткой нового поколения акустических моделей, которые связывают музыкальный звук напрямую с неограниченными описаниями музыки на естественном языке. MuLan представляет собой двухуровневую совместную модель встраивания аудио-текста, обученную с использованием 44 миллионов музыкальных записей (370 000 часов) и слабо связанных текстовых аннотаций произвольной формы.

Ниже приведен код из проекта, показывающий обучение MuLan:

import torch
from musiclm_pytorch import MuLaN, AudioSpectrogramTransformer, TextTransformer

audio_transformer = AudioSpectrogramTransformer(
    dim = 512,
    depth = 6,
    heads = 8,
    dim_head = 64,
    spec_n_fft = 128,
    spec_win_length = 24,
    spec_aug_stretch_factor = 0.8
)

text_transformer = TextTransformer(
    dim = 512,
    depth = 6,
    heads = 8,
    dim_head = 64
)

mulan = MuLaN(
    audio_transformer = audio_transformer,
    text_transformer = text_transformer
)

# get a ton of <sound, text> pairs and train

wavs = torch.randn(2, 1024)
texts = torch.randint(0, 20000, (2, 256))

loss = mulan(wavs, texts)
loss.backward()

# after much training, you can embed sounds and text into a joint embedding space
# for conditioning the audio LM

embeds = mulan.get_audio_latents(wavs)  # during training

embeds = mulan.get_text_latents(texts)  # during inference

Если вы хотите помочь в создании MusicLM или посмотреть, как далеко продвинулся проект, перейдите к их Гитхаб.

Архитектура MusicLM и AudioLM

На рисунке показана часть процесса MusicLM, который включает SoundStream, w2v-BERT и MuLan.

Рисунок, объясняющий «задачу моделирования иерархической последовательности», которую исследователи используют вместе с AudioLM, еще один проект Google. Источник — Гугл.

Читайте также: 12 приложений и инструментов для создания музыки с помощью искусственного интеллекта

Заключение

Google более осторожен с MusicLM, чем некоторые его конкуренты со своими собственными генераторами музыки, как это было с предыдущими экскурсами в эту форму ИИ. Как они заявили, на данный момент нет планов раскрывать модель. Вам может быть интересно, почему они решили сделать это, когда такие генераторы искусства уже существуют. Ну, есть некоторые риски потенциального незаконного присвоения. Одна из возможностей заключается в том, что он вводит возможность создания авторских прав на музыку. Другая возможность заключается в том, что он может начать разорять авторов песен, поскольку он хорош в создании творческого контента.

Справочник по искусственному интеллекту для музыки: основы, передовые подходы и разработки для творчества

В ходе эксперимента Google обнаружил, что около 1% музыки, сгенерированной системой, было напрямую воспроизведено из обучающего набора данных. Судя по всему Google на данный момент еще не устраивает эта модель. Предполагая, что MusicLM или подобная система однажды станет доступной, кажется неизбежным, что на первый план выйдут серьезные юридические проблемы. Похоже, что на данный момент Google не хочет заниматься этими проблемами и, таким образом, пока держит MusicLM подальше от рук общественности.