dmitrybaltin 5 мар в 22:04

Почему художники не любят нейросети и как это решить

Простой

10 мин

5.6K

Работа с 3D-графикой*Обработка изображений*Графический дизайн*Искусственный интеллект

Мнение

Введение

Взрыв популярности нейросетей вызвал встречную волну хейта со стороны художников. И, вроде, уж прошло некоторое время, и теперь мы видим, что нейросети - это вовсе не волшебство, и вовсе не заменяют художников, а дополняют, и художники по прежнему востребованы. Мы видим, что эта волшебная кнопка не совсем волшебна - она рисует что-то необычное, иногда красивое, но создать при помощи нее образ из своей головы ох как не просто.

Однако неприязнь художников остается значительной, и неверно думать, что это просто боязнь конкуренции, неолуддизм и нежелание развиваться.

В чем причина этой проблемы, надо ли ее решать и как решить. Об этом настоящая статья.

В чем причины конфликта

Основа конфликта - в парадигме txt2img

Обычная схема взаимодействия заказчика и художника такова: сформулировать задачу текстом/голосом, иногда показать какие-то картинки как примеры; и получить потом результат в виде изображения.

Модели txt2img реализуют тот же принцип, но вместо художника-человека - художник AI.

А места для художника-человека здесь нет совсем. По определению. То есть, такой инструмент по определению является инструментом ПРОТИВ художника-человека, я не ДЛЯ него.

И чтобы решить проблему, надо как минимум ставить другую цель - создавать инструменты ДЛЯ художников, а не ПРОТИВ.

Но что это значит?

Художники мыслят образами

В мире живет множество разных людей, внутри устроенных немножко по-разному. И голова художников, кажется, устроена не так, как голова создателей моделей txt2img. Художнику не просто противна мысль, что можно заменить процесс рисования написанием текста и настройкой десятков ползунков - это действительно непонятный ему процесс.

Ну правда, зачем писать все эти слова, если конечный результат - это изображение. Не лучше ли сразу представить это изображение и создать его безо всяких слов.

Модели txt2img всегда рисуют что-то свое

Есть у моделей txt2img и конкретная проблема, которая делает их не слишком полезными для художника. Эти технологии создают что-то очень классное, иногда удивительное, но действительно ли это то, что хотел добиться человек?

Нет, создать образ из своей головы невероятно сложно. Сгенерировав множество итераций, двигая множество ползунков в процессе работы и получив некоторый итоговый результат, ты по сути всегда получаешь результат компромиссный. Да, это не совсем то, что я представлял, но, рисуя кистью, я сделал бы не лучше (или даже гораздо хуже), а времени потратил бы больше. Примерно так рассуждает пользователь модели txt2img.

Настоящему художнику важно создавать именно то, что он представляет - образ из своей головы. И весьма точно. А для этого важно иметь значительный контроль над генерацией, позволяющий автоматизировать рутину, но при этом реализовать в точности свой замысел.

Но почему создают инструменты против художников?

Сейчас доминирует подход <txt 2 что угодно>. Текст первичен.

Но ведь мы знаем, что в течении тысячелетний развивался другой подход к созданию арта - рисование пальцем/палкой/карандашом/кистью. И, этот традиционный подход доказал свою эффективность, формируясь и совершенствуясь в течении этих тысячелетий. Можно наивно полагать, что весь этот накопленный опыт будет разом перечеркнут текстовыми моделями, но ведь никакого строго доказательства для этого нет. Это просто вера.

Если бы нам было действительно свойственно решение всех задач сводить к работе с текстом, у каждого из нас на столе не лежала бы мышь, а достаточно было бы клавиатуры; и вместо тач скринов у телефонов была бы огромная клавиатура, как на старых смартфонах Блэкбери.

Да что говорить, каждый из нас много раз в жизни сталкивался с ситуациями, когда гораздо проще ткнуть пальцем, чем объяснять что-то словами.

Так почему же текст первичен? Почему нам так навязывают эту мысль?

На мой взгляд, это просто веяние времени. Именно текстовые модели очень бурно развивались и добились значительных результатов в силу ряда причин, в основном, технологических - модели для работы с текстом менее ресурсоемкие. Специалисты по текстовым моделям начали заниматься генерацией всего из текста, в том числе изображений, и сейчас, в моменте, этот подход достиг значительных результатов. В результате эти люди весьма влиятельны и хорошо слышны.

Но, кажется, разработчики AI слишком увлеклись идеей создания чего угодно из текста, ведь жестких технологических ограничений для этого уже нет - железо стало мощнее, алгоритмы совершеннее, да и денег на разработку проектов выделяются много. Пора бы перейти к какой-то другой парадигме.

И дело тут не только в недовольстве художников, а в том, что практика применения моделей txt2img показывает их серьезные недостатки.

Большая практическая проблема парадигмы txt2img

Гипотетический апологет подхода txt2img может рассуждать так: "Ну ок, художники пострадали, так пускай они вымрут как класс. И не будет проблемы!"

Но! При всем этом гипотетическом желании этого умозрительного художнико-ненавистника, на практике до полной замены художников нам как до Луны.

Во первых, отметим, что сейчас можно генерировать только 2д, но не видео и не 3д (не меш, нe UV, не текстуру). Никакой нейро-замены профессиональным 3д художникам и видеомейкерам нет вообще.

А появятся ли эффективные модели txt2video и txt-2-3d. Какие есть для этого основания?

Выше я уже упоминал, что на практике подход txt2img требует огромное количество итераций. Да, формально, достаточно написать только один промпт, но нейрохудожники, мы ведь это знаем, поступают иначе - они генерирую огромное количество итераций, сотни и тысячи, чтобы получить всего одну финальную картинку! Такова практика, а не теория.

Hidden text

Даже для того, чтобы сгенерировать иллюстрации для этой статьи мне потребовалось сотни итераций, а ведь это всего лишь небольшая статья, и картинки здесь - просто некоторый фон для разбавления текста, и, конечно, картинки получились весьма компромиссные.

Лишь некоторая часть итераций рисунков к настоящей статье

Множество итераций - это вынужденная мера, это способ заменить убогие возможности контроля простым брудфорсом. ОК, для 2д-изображений это сработало, но в задаче генерации видео и 3д добавляется еще одно измерение, итераций потребуется на порядок больше.

В генерации видео и 3д брутфорс не поможет! И, кажется, это колоссальная проблема.

Для генерации видео и 3д необходимы более продвинутые инструменты контроля над генерацией, и совершенно глупо пытаться их уложить в прокрустово ложе парадигмы <текст 2 что угодно> - это ведь просто искусственное ограничение, взятое с потолка.

А как же свежая Sora от Open AI? Это ведь уже настоящая генерация видео! Да, выглядит круто, и, кажется, это большой прорыв. Но, в практическом смысле, что изменилось? Насколько представленные видеоролики реализуют замысел их создателя? Это точно образ из его головы? Sora закрыта, детали не известны, но, кажется, контроль тут минимален - только промпт. Для профессионального режиссера это по прежнему бесполезно и угрозы для его трудоустройства здесь нет.

Что делать?

Во-первых, констатируем, что задача удешевления стоимости производства контента действительно актуальна. Распространение электронных устройств по всему миру растет, сервисов становится все больше, контента требуется производить все больше, и качество его тоже постоянно растет, потому что аппаратные возможности увеличиваются, а вот количество художников резко не увеличится.

Во-вторых, для решения этой задачи актуально думать не о том, как художников заменить, а о том, как сделать их работу более эффективной, создавая продвинутые инструменты, близкие к их традиционным процессам - рисование пером, а не написание текста.

Основной принцип автоматизации (о чем вам расскажет любой специалист по автоматизации) - надо автоматизировать рутину, а не принятие решений. И в работе художников тоже много рутины. Например, для создания 2д рисунка необходимо выполнить огромное число похожих движений пером, каждое такое движение не является уникальным. Для создания 3д модели требуется правильно создать множество полигонов, используя некоторый набор технически сложных приемов. И т.д. Это сложные задачи, требующие отточенных навыков и работы головой, но эти повторяющиеся действия - это рутина. Это и надо автоматизировать. А не принятие решений.

Возможное решение

Общие принципы

Решения сложных проблем не появляются в одночасье. Это сложный эволюционный процесс. Здесь есть большой простор для размышлений и обсуждений и, вероятно, даже для фундаментальной науки. И на эту тему, наверняка, уже написаны философские эссе.

Но рассуждения не приведут к результату, если не начать действовать. Важно обозначить цель и двигаться в ее направлении, отталкиваясь от возможностей, которые есть уже сегодня.

Итак, Цель: создать нейро-инструменты ДЛЯ художников, а не ПРОТИВ художников, которые сделают их работу более эффективной.

При создании таких инструментов я считаю важным руководствоваться следующими принципами:

Использовать привычные для художников средства для контроля над генерацией - работа не с текстом, а с изображениями, при помощи пера и мыши, а не клавиатуры.
Стараться сохранить за человеком принятие решений, но автоматизировать рутину.
Использовать привычную среду разработки (Photoshop/Blender/Maya и т.д.), а не мессенджеры и веб-приложения. Это упростит работу с инструментом и позволит встроить его в существующий пайплайны разработки.

На мой взгляд, действовать можно уже сегодня, ведь некоторая основа уже существует.

Сейчас я перейду к практике, основанной на применении современных доступных технологий. Такой переход может показаться вам слишком резким спуском с небес на землю. Но, еще раз повторю, я считаю важным действовать, используя доступные возможности, а не просто рассуждать. Только действия, а не рассуждения, способны привести к результату.

Базовые технологии

На сегодня большинство решений txt2img предлагают довольно скромные возможности для управления генерацией при помощи процесса похожего на рисование, а именно:

Режим img2img, который генерирует картинку на базе некоторой входной картинки.
Режим инпаинта, в котором можно выделить область для перерисовки.
Режим скетчирования, где можно кисточкой примерно показать, что требуется нарисовать.

Однако, есть технология, дающая гораздо больше возможностей - это Stable Diffusion + ControlNet.

Да, именно бесплатный Stable Diffusion с расширением ControlNet, в отличие от всех остальных платных решений (даже создающих изображения более высокого качества), дает возможность контроля над генерацией при помощи изображений, так называемых масок, то есть при помощи процесса, традиционного для художников. Именно такой подход действительно критически важен как основа для создания инструментов в помощь художнику, а не против него.

Таким образом, ControlNet - не просто некоторое расширение для нейросети txt2img, но зарождение парадигмы генерации контента, основанной не только на тексте.

Такой подход пока не совершенен и для некоторых художников все еще противоестественен - ведь при работе с Stable Diffusion и ControlNet все равно нужен промпт и надо двигать разные ползунки, потому что Stable Diffusion - это изначально модель txt2img. Но все равно, роль текста и ползунков здесь сильно сокращаются, ведь в большой степени результат определяют именно входные изображения.

С момента появления ControlNet, он уже значительно эволюционировал, постепенно сдвигая все дальше фокус с текстового ввода к работе с изображениями. Например, на так давно появился ControlNet IP-Adapter, позволяющий работать с референсными изображениями значительно эффективнее, чем раньше. Уже сейчас, в современной реализации, IP-Adapter гораздо удобнее текстового промпта - он позволяет более точно указать, какой результат ты хочешь получить. Главный текущий недостаток IP-Adapter - он не в точности повторяет референс, но это все равно уже гораздо лучше промпта!

Это очень важная тенденция, которая, я надеюсь, через некоторое время приведет к появлению очень удобных инструментов для художников, если, конечно, мы будем целенаправленно стремиться их создать.

О значении Stable Diffusion для развития технологий

Здесь не могу не отметить, насколько правильным шагом для развития технологий, было решение Stability AI выложить Stable Diffusion в открытый доступ. Ведь ControlNet не был предусмотрен изначально создателями Stable Diffusion, но он появился в результате того, что множество людей получили доступ к этой технологии, разобрали ее на отдельные кубики, залезли к ним внутрь, изрядно их раскурочили и научились использовать довольно неожиданными способами.

Что касается закрытых решений, таких как DALL·E и Midjourney, то, несмотря на рост качества и резолюшен картинки, они по прежнему не предлагают ничего близко равного по возможностям контроля. Они по прежнему делают инструмент не для художников, а против.

И вот этот факт, активная эволюция открытого Stable Diffusion в сторону управления и игнор этого явления крупными корпорациями, на мой взгляд, является важным подтверждением тезиса: "подход <txt 2 что угодно> вовсе не является единственно правильным". Подход <txt 2 что угодно> родился в головах крупных корпораций и академической среды, то есть относительно небольшой группы людей, немного изолированной от практических задач, но обладающей существенными финансовыми ресурсами. Но как только технология вышла за пределы корпораций и попала в руки людей с их практическими задачами, они начали активно развивать другой подход, больше соответствующий решению своих задач.

Важен User Experience

Наличие базовой технологии, такой как Stable Diffusion+ControlNet необходимо, но не достаточно.

Художникам нужен инструмент, а не технология, и здесь важнейшее значение имеет User Experience. Создание управляющих масок должно выглядеть как привычный процесс работы с 2д/3д редактором, причем в привычной среде, где обычно пользователь и работает. Если художник работает в Photoshop/Maya/Blender, то такой привычной средой является соответственно Photoshop/Maya/Blender, и инструменты должны быть похожи на привычные инструменты этих редакторов. Такой процесс легко встроить в традиционный пайплайн разработки. Постоянный импорт/экспорт файлов между 2д/3д редактором и некоторым веб-сайтом - не лучшая идея в плане UX.

За примерами далеко ходить не надо - взгляните на Adobe Photoshop.

Казалось бы, AI от Adobe появилось значительно позже конкурентов, когда рынок уже был насыщен, и по качеству генерации Adobe уступает OpenAI и Midjourney, а Stable Diffusion значительно сильнее в плане кастомизации, добучения и управления. Более того, продукт Adobe еще и недешев. Однако, его появление сильно перетряхнуло рынок и даже вызвало новую волну популярности Фотошопа и огромный рост капитализации Adobe . И причина - отличный User Experience. Не требуется нигде регистрироваться, не требуется открывать какие-то сайты, ничего не надо импортировать/экспортировать. Все здесь, в привычной среде.

Примеры качественного UI/UX есть и среди Web-based решений, например,

Vizcom https://www.vizcom.ai/ и Krea AI https://www.krea.ai

Однако базовый редактор, на основе которого сделаны эти продукты, вшитый в браузер, все равно на порядок (возможно, несколько) слабее Фотошопа или Криты и работать над сложными проектами без импорта/экспорта вряд ли получится.

Заключение

Итак, для создания инструмента в помощь художникам необходимо два момента:

Наличие базовой технологии, которая позволяет управлять генерацией не при помощи клавиатуры, но мыши и пера. Подобная технология уже существует, и довольно активно развивается - это Stable Diffusion + ControlNet.
Удобный инструмент, использующий возможности базовой технологии, максимально близкий к инструментами и процессам, которые художники и моделеры постоянно используют.

Я решил не просто рассуждать, а действовать и создаю собственный инструмент для нейро-текстурирования NeuralMaster - бесплатный аддон для Блендера. В его разработке стараюсь максимально придерживаться предложенного выше подхода и создавать инструмент для художников, а не против них, насколько это возможно сегодня с применением открытых базовых технологий.

Вот небольшой пример использования инструмента. Здесь использованы традиционные способы работы в 3д редакторе - выделение полигонов, перемещение камеры, рисование масок.

В следующей статья я планирую подробнее остановиться на технических проблемах задачи нейро-текстурирования и возможных способах их решения.

В статье использован нейроарт, созданный при помощи SDXL и SD 1.5.

Теги:

Хабы: