Pull to refresh

Comments 15

Что-то выглядит как мусор, может я неудачные песни выбрал послушать, конечно.
Да вроде ниче так, не хуже настоящих, текст даже с каким-то настроением (хотел сказать «смыслом», но его там скорее нет, как и у многих человеческих текстов)
jukebox.openai.com/?song=787739341
и это же только начало!
UFO just landed and posted this here
У меня у одного это всё позорно лагает?
UFO just landed and posted this here

По сравнению с предыдущими моделями по генерации музыки это настоящий прорыв. Понятно, что модель будет ещё улучшаться, но даже такой уровень совсем недавно считался недостижимым.


Если коротко, они музыку автоэнкодером перевели в дискретный набор (около 300 сэмплов в секунду для 2000 вариантов звуков в каждом сэмпле), и генерировали новую песню трансформером в этом дискретном пространстве. А после тем же автоэнкодером перевели в голый wav звук. При этом трансформер обучен по текстовой лирике как по условию.


Это позволило: 1) генерировать музыку и голос певца по тексту песни, который нейросеть раньше не видела, причем с соблюдением жанра и т.д… 2) для текстов песен, которые она видела, получать новое звучание

Соответственно, улучшение каждого из элементов этой модели (автоэнкодера или трансформера, составляющего новую песню), то есть замена этих нейросетей на более крупные, плюс обучение на большем датасете, приведет к генерации музыки вместе с вокалом, неотличимыми от человеческих. Это проблема масштаба. А сама технология, основа, в этой работе создана.

приведет к генерации музыки вместе с вокалом, неотличимыми от человеческих
но это только теория.
На текущий момент оно радует разве что технофилов, остальным оно врядли понравится.

Ну, справедливости ради надо отметить, что эти 1.2 млн песен в большинстве своем полный шлак. Нейросеть обучена на них, а требуем результат в виде шедевра? Надо вводить дополнительный condition по хитам что ли… По какому-нибудь рейтингу. Или предобучать на большом датасете, а дообучать на маленьком наборе хитов.


Но я о другом, те компоненты, что использовались в этой работе, имеют несколько разновидностей со все возрастающей сложностью. Простая замена на более сложные и емкие варианты может дать улучшение качества в несколько раз. Как минимум, можно ожидать, что в следующих версиях звук будет чистый, без шумов. И что голос генерируемого синтетического певца будет неотличим от живого человека.


А для чего-то принципиально лучшего именно в плане создания музыки, чего-то более творческого, возможно потребуется другая архитектура. Тут заранее сложно сказать, справится ли с этой задачей обычный Transformer.


P.S. я несколько месяцев занимался этой темой (в основном, генерацией и распознаванием midi). перепробовав пару десятков разных новейших архитектур, в итоге я стал весьма скептически относиться к возможности создавать музыку на уровне поп-культуры. но после этой работы теперь верю, что это возможно. не сейчас, но уже в ближайшем обозримом будущем.

Интересно, но ничего не понятно, к сожалению

На вход этой нейросети подается любой текст/стихотворение, а она генерирует музыку с голосом певца, который поет этот текст. При этом дополнительно можно указать, в каком жанре должна быть песня и какого известного певца она должна имитировать. К сожалению, поиграться самому вряд ли получится, так как минута песни генерируется примерно 9 часов. Хотя исходники и обученная нейросеть выложена. Но можно посмотреть готовые образцы сгенерированных песен, фильтруя по жанру и исполнителю: https://jukebox.openai.com/


Генерировать несколько минут wav с частотой даже 16 кГц, не говоря про стандартные 44 кГц задача очень сложная. Лучший результат до этого давали различные рекуррентные нейросети, причем чаще всего иерархические для соблюдения крупномасштабной мелодии. Но в этой работе авторы обучили автоэнкодер, у которого на входе wav с одной из 1.2 млн песен, на выходе она же, а по центру очень сжатое дискретное представление. Так они научились конвертировать любую песню в короткую последовательность цифр (см. цветные квадратики на https://openai.com/blog/jukebox/).


А теперь главный трюк: дополнительно они обучили вторую нейросеть на архитектуре Transformer, хорошо зарекомендовавшую себя при работе с текстовыми последовательностями, чтобы каждому квадратику сопоставлять буквы из текста песен (тексты к песням в датасете они выровняли отдельными инструментами заранее). Теперь по любому тексту эта вторая нейросеть может выдавать последовательность цветных квадратиков.


А уже эти квадратики первая сеть может преобразовать обратно в wav звук (музыка + голос, поющий песню), используя их как свой средний слой.


В итоге вы можете сочинить свой текст песни, указать какой жанр хотите получить и наиболее близкого певца/певицу, а нейросеть сгенерирует готовую песню — с музыкой и поющим голосом. Сейчас качество так себе (для непосвященных людей со стороны), но технически это большое достижение. По сравнению с предыдущими моделями.

да, так гораздо понятнее, спасибо)

Честно говоря, у меня такое впечатление, что многие песни на английском языке и так пишут нейросети. Если взять для примера Yellow Submarine — там на ВСЮ песню ОДНА рифма — "green"/"submarine". ("submarine"/"submarine" за рифму не считаем в силу тривиальности). Помню, как я месяцами охреневал, пытаясь советские песни переводить — это ж надо на чужом языке рифмы пытаться найти и смысл при этом не растерять. А сами они такой фигнёй не заморачиваются.

Ну если хотите именно текстов, то это явно не к Битлам. Они в основном известны запоминающимися мелодиями, но в плане лирических текстов и смысла — особо их не ищите, там все очень простенько и наивно, мне поэтому Битлы никогда не заходили. Рекомендую послушать The Doors.
UFO just landed and posted this here
Sign up to leave a comment.

Other news