Как стать автором
Обновить
38
0
Михаил Константинов @Dirac

Research Teem Lead at Squad, канал «Мишин Лернинг»

Отправить сообщение
Тогда не совсем понял, что именно Вы вкладываете в понятие ИИ. Данная сеть решает конкретную «интеллектуальную задачу» генерации изображений по текстовому описанию. Это же не general ИИ. Это инструмент для решения «интеллектуальных задач».
К сожалению, слепые от рождения люди не могут решать задачу генерации изображений по текстовому описанию.
В этой работе как раз и используется подобный метод:
Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.
Именно то, что Вы описали:
Вот если бы ИИ сам наиболее осмысленный выбирал, тогда еще можно было бы согласиться.
«Вопрос о том, может ли компьютер думать, не более интересен,
чем вопрос о том, может ли субмарина плавать».
Эдсгер Вибе Дейкстра
Да, только нам не надо для этого изучать миллионы изображений
Скорее всего у нас (у людей) речь идет не о миллионах, а о миллиардах изображений.
Действительно,
Этот шаг с генерацией изображений по тексту очень важен
И эта работа тоже, и, возможно, не просто маленький шаг, а рода технологический прорыв.
И в том числе для сильного ии
Если использовать такую терминологию. Ну и, конечно, важно так же смотреть на жту работу в историческом контексте:
Можно сказать, что уже были все предпосылки к созданию DALL · E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3.
То что сейчас происходит с капчами это невероятно интересная тема. Если инетесно, могу подготовить материал именно по ним: как взламывать капчи и капчи взламывают нейронные сети. Пока скажем так, это настоящая война с нейросетями не на жизнь, а насмерть!
Так пытались уже бороться с продажной девкой империализма… Мне кажется что такое стремительное развитие методов машинного обучения должно мотивировать, воодушевлять и вдохновлять, а не пугать.
Отлично подмечено!

— Can a robot write a symphony? Can a robot turn a canvas into a beautiful masterpiece?
openai.com/blog/jukebox
И мне мы хотелось поиграть с моделью. По поводу качества результатов, у меня нет поводов не доверять ребятам из openai. Они написали, что не делали ручной «cherry picking»:
Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.
То есть, по сути, это и есть cherry picking, но не ручной, а при помощи другой модели. Я считаю, что это вполне честно. Мы же не пишем и не говорим все то, что пришло к нам в голову, а фильтруем и выбираем, что говорить и что писать.
Добрый день! CLIP действительно очень интересная работа. Особенно в контексте этой статьи и подобного нейронного ранжирования. Учту Ваши пожелания)
Прекрасно Вас понимаю. Но пока еще никак, но очень ждем. Боюсь, что далеко не всем дадут возможность «потрогать» и поиграть с моделью в ближайшее время.
Согласен с Вами! Год оказался очень богат на публикации и прорывы во множестве областей. Многие нашли время, занялись любимым делом. Появились интереснейшие статьи и открытия.
Спасибо большое за верное наблюдение и за ссылку на medium, это полезно! Я добавил замечание в статью:
Здесь стоит оговориться, что статья MuZero v1 вышла 19 ноября 2019, а MuZero v2 — 21 февраля 2020, так что можно считать это достижением 2019-2020 годов.

С наступившим Вас 2021 годом!
Согласен, и с каждым новым годом это будущее все более явно становится частью нашего настоящего.
Это было ясно еще много лет назад. Модель на основе только многослойной rnn (lstm) не способна к генерации адекватных текстов. К тому же на уровне только символов (без обучения embedding'у или без уже обученного word2vec), пары слоев явно будет недостаточно для создания нужной глубины абстракции и обучения контексту. На сегодняшний день эта модель слишком проста и конечно не может справиться с этой задачей. Но вот модель bidirectional seq2seq encoder-decoder with attention уже способна к генерации адекватных предложений на основе предыдущих. «Галлюцинировать» на такой модели можно намного качественнее. Но и этого тоже будет недостаточно. Чтобы сохранять глобальный контекст модели желательно иметь доступ к памяти и обучиться записи и считыванию. Такая «Нейронная Машина Тьюринга» уже будет иметь возможность нести и изменять «контекст» от предложения к предложению.
Но пока можете попробовать seq2seq, гарантирую совершенно другой уровень качества. Эту модель использует переводчик от google. Модель seq2seq помогла выйти на совершенной иной уровень машинного перевода. А ведь на уровне декодера — это и есть задача генерации текста.
При должном количестве нейронов в скрытом (в первом и самом ближнем ко входному) слое, и при правильном подборе коэффициентов w в процессе обучения, нейронная сеть способна аппроксимировать любую непрерывную функцию многих переменных с любой желаемой точностью. Эта теорема носит имя Universal Approximation Theorem. Так что можно не волноваться о нелинейных преобразованиях над фичами. Если нелинейные преобразования важны для какой-то задачи, то первые ассоциативные слои возьмут это дело на себя.
Рад что Вы попробовали поиграть с архитектурами. Мне очень нравится библиотека TensorFlow. Я согласен с Вашим наблюдением. Дополнительные нелинейные «фичи», как функции от обычных параметров очень помогают, в двумерном, в трехмерном пространстве параметров, учитывающие квадратические, ну максимум кубические комбинации. Но проблема начнется когда захотим рассмотреть нелинейные комбинации в более высоком пространстве. В примере из X1 и X2 получены комбинации: X12, X12, X1X2. Представьте себе, что будет, если на вход подается картинка размером 128*128 пикселей (16384-хмерное пространство), и мы захотим учитывать нелинейные комбинации, таким способом. Мы столкнемся с комбинаторным взрывом. Именно для того, чтобы избежать его, и создали многослойные нейронные сети, способные строить сложные нелинейные комбинации, при наличии в них достаточного количества скрытых ассоциативных слоев.
Спасибо Вам за подробный комментарий. Согласен с Вами и по поводу того, что нейросети способны решить задачу регрессии, и по поводу важности кросс-валидации. Действительно нейросеть является универсальным аппроксиматором. При должном количестве нейронов в скрытом слое, нейросеть способна аппроксимировать практически любую математическую функцию. Классическим решение для регрессии будет являться использование MSE функции потерь вместо Cross-entropy. Что касается кросс-валидации, то действительно, стоило бы сказать, что необходимо разделить выборку на обучающую и на тестовую несколько раз, каждый раз проводя обучение, с целью анализа качества. При подготовки этой модели я проводил кросс-валидацию. Я думаю добавить этот пункт в статью.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность