Cloud4Y 13 мар в 11:27

Midjourney научился генерировать одинаковых персонажей

3 мин

7.4K

Блог компании Cloud4YИскусственный интеллект

Один из главных недостатков генераторов изображений — невозможность создавать одинаковых персонажей в разных позах и локациях. Это сильно ограничивает использование нейросетей в разработке игр, создании комиксов и т.п. И вот Midjourney, наконец, услышал стоны миллионов пользователей и внедрил возможность воссоздавать одинаковых персонажей в новых генерациях.

Большинство нейросетей, создающих изображения по описанию, основаны на «диффузионных моделях», аналогичных или напрямую использующих алгоритмы генерации изображений Stable Diffusion (модель с открытым исходным кодом от Stability AI). Они работают очень грубо: берут текст пользователя и пытаются собрать изображение попиксельно, выбирая элементы, соответствующие введённой подсказке.

Почему одинаковые персонажи так сложны для нейросетей

Как и в случае с большими языковыми моделями (LLM), такими как ChatGPT от OpenAI или новый Command-R от Cohere, проблема всех генераторов изображений заключается в том, что ИИ генерирует что-то новое для каждого отдельного запроса, даже если подсказка повторяется или используются одни и те же ключевые слова.

Это здорово, если вам нужно создать совершенно новые изображения. Но что, если вы создаете раскадровку фильма, игры, графического романа, комикса, в котором один и тот же персонаж должен появляться в разных сценах, обстановке, с разными выражениями лица и реквизитом?

Именно этот сценарий до сих пор было очень сложно реализовать с помощью генеративного ИИ. Midjourney пытается это исправить, представив новый тег «-cref» , который пользователи могут добавлять в конец своих текстовых подсказок. В этом случае Midjourney будет пытаться создавать картинки с одинаковым лицом, телосложением и даже одеждой, беря их из URL-адреса, который пользователь вставляет после указанного тега.

По мере развития и совершенствования этой функции Midjourney может превратиться из классной игрушки или источника идей в более профессиональный инструмент.

Как использовать новую функцию

Тег лучше всего работает с изображениями, ранее созданными в Midjourney. Функция не предназначена для фотографий реальных людей. И, в целом, точность её ограничена, она не способна копировать ямочки на щёках, веснушки или логотипы на футболках.

Рабочий процесс будет заключаться в том, чтобы сначала сгенерировать персонажа, а потом использовать URL-адрес для получения других кадров с ним.

Рассмотрим на примере. Начнём с такой подсказки: «мускулистый лысый мужчина с бусами и повязкой на глазу».

Увеличим изображение, которое нам больше всего понравилось, а затем, удерживая клавишу Ctrl, кликаем по нему и выбираем опцию «Copy link» (копировать ссылку).

Затем мы можем ввести в подсказку новые подробности: «в белом смокинге, стоящий на вилле –cref [URL]» и вставить URL-адрес изображения, которое мы только что сгенерировали. Midjourney попытается сгенерировать того же персонажа, что и раньше, но с новыми деталями.

К сожалению, результат пока далёк от исходного персонажа (и даже от исходной подсказки), но, в целом, обнадёживает.

Кроме того, можно в некоторой степени контролировать «вес» исходного изображения, то есть насколько точно новая картинка воспроизводит оригинал. Для этого нужно добавить после урла тег «-cw» с числом от 1 до 100, например: «–cref [URL] –cw 100». Чем меньше число «cw», тем больше отличий от исходника будет в итоговом изображении. Чем выше число «cw», тем точнее новое изображение будет соответствовать исходной ссылке.

На примере ниже видно, что ввод очень низкого значения «cw 8» позволил получить желаемый белый смокинг. Однако теперь потерялась повязка на глазу.

Ну что ж, нет ничего такого, чего нельзя было бы исправить с помощью “vary region”...

Итак, повязка появилась, но не на том глазу… Но это уже большой прогресс!

Дополнительно Midjourney добавили ещё одну функцию объединения нескольких изображений. Для этого нужно использовать два тега «-cref» рядом с соответствующими URL-адресами. Но эта функция была только-только запущена. Если у вас есть Midjourney, можете сами попробовать.

Ещё раз краткая инструкция по использованию новой фичи:

Введите --cref URL после подсказки, где URL - ссылка на изображение персонажа.
Используйте --cw для изменения «веса» ссылки (допустимы значения от 0 до 100).
Вес 100 ( --cw 100) используется по умолчанию, чтобы точно воспроизвести лицо, волосы и одежду.
При весе 0 ( --cw 0) нейросеть будет фокусироваться только на лице (подходит для смены одежды/прически и т. д.)

Попробуйте!

Теги:

Хабы:

Midjourney научился генерировать одинаковых персонажей

Почему одинаковые персонажи так сложны для нейросетей

Как использовать новую функцию

Другие новости

Информация