Комментарии / Профиль Dirac / Хабр

Как стать автором

Михаил Константинов @Dirac

Research Teem Lead at Squad, канал «Мишин Лернинг»

Профиль Публикации 5Комментарии 90Закладки 14

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 17:23

Тогда не совсем понял, что именно Вы вкладываете в понятие ИИ. Данная сеть решает конкретную «интеллектуальную задачу» генерации изображений по текстовому описанию. Это же не general ИИ. Это инструмент для решения «интеллектуальных задач».

0

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 17:06

К сожалению, слепые от рождения люди не могут решать задачу генерации изображений по текстовому описанию.

+2

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 17:02

В этой работе как раз и используется подобный метод:

Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.

Именно то, что Вы описали:

Вот если бы ИИ сам наиболее осмысленный выбирал, тогда еще можно было бы согласиться.

0

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 16:25

Интересная интерпретация

0

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 16:25

«Вопрос о том, может ли компьютер думать, не более интересен,
чем вопрос о том, может ли субмарина плавать».

Эдсгер Вибе Дейкстра

+1

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 16:16

Да, только нам не надо для этого изучать миллионы изображений

Скорее всего у нас (у людей) речь идет не о миллионах, а о миллиардах изображений.

+1

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 16:14

Действительно,

Этот шаг с генерацией изображений по тексту очень важен

И эта работа тоже, и, возможно, не просто маленький шаг, а рода технологический прорыв.

И в том числе для сильного ии

Если использовать такую терминологию. Ну и, конечно, важно так же смотреть на жту работу в историческом контексте:

Можно сказать, что уже были все предпосылки к созданию DALL · E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3.

0

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 16:07

То что сейчас происходит с капчами это невероятно интересная тема. Если инетесно, могу подготовить материал именно по ним: как взламывать капчи и капчи взламывают нейронные сети. Пока скажем так, это настоящая война с нейросетями не на жизнь, а насмерть!

+2

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 15:01

Так пытались уже бороться с продажной девкой империализма… Мне кажется что такое стремительное развитие методов машинного обучения должно мотивировать, воодушевлять и вдохновлять, а не пугать.

0

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 12:51

Отлично подмечено!

— Can a robot write a symphony? Can a robot turn a canvas into a beautiful masterpiece?
— openai.com/blog/jukebox

0

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 12:49

И мне мы хотелось поиграть с моделью. По поводу качества результатов, у меня нет поводов не доверять ребятам из openai. Они написали, что не делали ручной «cherry picking»:

Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP.

То есть, по сути, это и есть cherry picking, но не ручной, а при помощи другой модели. Я считаю, что это вполне честно. Мы же не пишем и не говорим все то, что пришло к нам в голову, а фильтруем и выбираем, что говорить и что писать.

+2

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 12:43

Добрый день! CLIP действительно очень интересная работа. Особенно в контексте этой статьи и подобного нейронного ранжирования. Учту Ваши пожелания)

0

Посмотреть

DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Dirac 6 янв 2021 в 12:35

Прекрасно Вас понимаю. Но пока еще никак, но очень ждем. Боюсь, что далеко не всем дадут возможность «потрогать» и поиграть с моделью в ближайшее время.

0

Посмотреть

ИИ итоги 2020-го года в мире машинного обучения

Dirac 4 янв 2021 в 19:20

Согласен с Вами! Год оказался очень богат на публикации и прорывы во множестве областей. Многие нашли время, занялись любимым делом. Появились интереснейшие статьи и открытия.

0

Посмотреть

ИИ итоги 2020-го года в мире машинного обучения

Dirac 1 янв 2021 в 23:12

Спасибо большое за верное наблюдение и за ссылку на medium, это полезно! Я добавил замечание в статью:

Здесь стоит оговориться, что статья MuZero v1 вышла 19 ноября 2019, а MuZero v2 — 21 февраля 2020, так что можно считать это достижением 2019-2020 годов.

С наступившим Вас 2021 годом!

+1

Посмотреть

ИИ итоги 2020-го года в мире машинного обучения

Dirac 1 янв 2021 в 20:13

Согласен, и с каждым новым годом это будущее все более явно становится частью нашего настоящего.

0

Посмотреть

RNN: может ли нейронная сеть писать как Лев Толстой? (Спойлер: нет)

Dirac 23 ноя 2017 в 16:27

Это было ясно еще много лет назад. Модель на основе только многослойной rnn (lstm) не способна к генерации адекватных текстов. К тому же на уровне только символов (без обучения embedding'у или без уже обученного word2vec), пары слоев явно будет недостаточно для создания нужной глубины абстракции и обучения контексту. На сегодняшний день эта модель слишком проста и конечно не может справиться с этой задачей. Но вот модель bidirectional seq2seq encoder-decoder with attention уже способна к генерации адекватных предложений на основе предыдущих. «Галлюцинировать» на такой модели можно намного качественнее. Но и этого тоже будет недостаточно. Чтобы сохранять глобальный контекст модели желательно иметь доступ к памяти и обучиться записи и считыванию. Такая «Нейронная Машина Тьюринга» уже будет иметь возможность нести и изменять «контекст» от предложения к предложению.
Но пока можете попробовать seq2seq, гарантирую совершенно другой уровень качества. Эту модель использует переводчик от google. Модель seq2seq помогла выйти на совершенной иной уровень машинного перевода. А ведь на уровне декодера — это и есть задача генерации текста.

0

Посмотреть

Краткий курс машинного обучения или как создать нейронную сеть для решения скоринг задачи

Dirac 31 окт 2017 в 16:30

При должном количестве нейронов в скрытом (в первом и самом ближнем ко входному) слое, и при правильном подборе коэффициентов w в процессе обучения, нейронная сеть способна аппроксимировать любую непрерывную функцию многих переменных с любой желаемой точностью. Эта теорема носит имя Universal Approximation Theorem. Так что можно не волноваться о нелинейных преобразованиях над фичами. Если нелинейные преобразования важны для какой-то задачи, то первые ассоциативные слои возьмут это дело на себя.

0

Посмотреть

Краткий курс машинного обучения или как создать нейронную сеть для решения скоринг задачи

Dirac 27 окт 2017 в 17:05

Рад что Вы попробовали поиграть с архитектурами. Мне очень нравится библиотека TensorFlow. Я согласен с Вашим наблюдением. Дополнительные нелинейные «фичи», как функции от обычных параметров очень помогают, в двумерном, в трехмерном пространстве параметров, учитывающие квадратические, ну максимум кубические комбинации. Но проблема начнется когда захотим рассмотреть нелинейные комбинации в более высоком пространстве. В примере из X₁ и X₂ получены комбинации: X₁², X₁², X₁X₂. Представьте себе, что будет, если на вход подается картинка размером 128*128 пикселей (16384-хмерное пространство), и мы захотим учитывать нелинейные комбинации, таким способом. Мы столкнемся с комбинаторным взрывом. Именно для того, чтобы избежать его, и создали многослойные нейронные сети, способные строить сложные нелинейные комбинации, при наличии в них достаточного количества скрытых ассоциативных слоев.

+2

Посмотреть

Краткий курс машинного обучения или как создать нейронную сеть для решения скоринг задачи

Dirac 26 окт 2017 в 11:57

Спасибо Вам за подробный комментарий. Согласен с Вами и по поводу того, что нейросети способны решить задачу регрессии, и по поводу важности кросс-валидации. Действительно нейросеть является универсальным аппроксиматором. При должном количестве нейронов в скрытом слое, нейросеть способна аппроксимировать практически любую математическую функцию. Классическим решение для регрессии будет являться использование MSE функции потерь вместо Cross-entropy. Что касается кросс-валидации, то действительно, стоило бы сказать, что необходимо разделить выборку на обучающую и на тестовую несколько раз, каждый раз проводя обучение, с целью анализа качества. При подготовки этой модели я проводил кросс-валидацию. Я думаю добавить этот пункт в статью.

0

Посмотреть

4