Как стать автором
Обновить

Стагнация машинного обучения. Многие задачи не будут решены никогда?

Время на прочтение6 мин
Количество просмотров13K
Всего голосов 34: ↑33 и ↓1+32
Комментарии27

Комментарии 27

Два вопроса: «зачем нужны квантовые компьютеры для обычных вычислений», и «зачем нужны нейросети, которые современные компьютеры не могут обеспечить вычислительно» — сливаются в один ответ?
42?

Т.е. оно не работает, не потому что модель кривая и дата-сет неправильно размечен, а потому что мощности не хватает. Ок :)

Оно работает, но не эффективно. Настолько неэффективно что эта неэффективность станет потолком в ближайшем будущем.


Это нормальный эволюционный процесс, когда то память была дорогая, придумали реляционные БД чтобы её использовать эффективно, сейчас вычислительная мощь дорогая, но дешёвая память, стал популярен nosql, чтобы эффективно использовать вычислительную мощность за счёт неэффективного использования памяти.

Учитывая, что на arxiv.org куча статей вида: "Мы тут оттюнили гиперпараметры, добавили слоёв, и тренировали 3 дня, а не 2 как вот в этой работе, и достигли нового рекорда в точности! (0.2% прибавки по сравнению с лучшим опубликованным результатом)" и в статье не указан принцип отбора работ, то вполне возможно, что они в основном измерили тренд в доступных исследователям вычислительных мощностях, в то время как действительно значительные достижения утонули в шуме.

Да. Есть же маленькие эволюционные улучшения в архитектурах сетей и подходах к обучению, которые потихоньку делают их эффективнее и итоговый результат может сильно отличаться.
Например, в AlexNet сравнили разные функции активации и пришли к выводу, что relu ускоряет сходимость раз в 5. Сейчас для сетей пробуют ещё какие-то функции, и те тоже дают прирост.
Или в mobileNet отказались от свёртки 3х3 сразу для всех каналов и разбили на композицию двух слоёв — свёртка 3х3 для каждого канала отдельно и свёртка 1х1 между всеми каналами. Вычислительно это быстрее в несколько раз, а с точки зрения работы нейронной сети оказалось не сильно хуже.
Ещё придумали механизм для attention, развитием которого стали трансформеры. Не удивлюсь, если придумают что-то ещё более эффективное.

Так где-то была статья, что тренд в разработке новых моделей изменился. Раньше гнались за размером и новыми рекордами метрик. Теперь гонятся за эффективностью без падения метрик.

Вы привели примеры улучшений в разы. В таблицах — порядки, по 10-20 порядков. Разы против миллиардов. Ну хорошо, найдут несколько крутых способов оптимизации — ускорят в сто-двести раз. Только нужны-то миллиарды раз.

Нужно принципиально иное решение, иной подход.

Нужно учитывать, что модели в исследованиях обучаются начиная с минимума знаний о внешнем мире: только то, что закодировано в архитектуре сети. То есть, по сравнению с живыми существами, они должны ещё и воссоздать то, что было уже найдено миллионами лет эволюции. Поиск архитектур сетей, которые кодируют больше такой информации (inductive bias) — одно из направлений исследований в области машинного обучения.


В каком-то смысле исследователи сейчас делают работу уже проделанную эволюцией.


Другие подходы, кроме обучения с нуля, конечно нужны и ими занимаются. Lifelong learning в общем, разные виды эпизодической памяти, консолидация знаний сохраненных в эпизодической памяти в частности и т.п.

Ещё несколько лет назад считали астрономическое число возможных ходов в игре Го и авторитетно заявляли, что уж эту-то игру, в отличие от шахмат, компьютер никогда не освоит на достойном уровне. А поди ж ты как оно повернулося… Учитывая экспоненциальный рост технологий, наверно, безапелляционно заявлять «никогда» уже не стоит, чтобы потом стыдно не было. Ну да, на существующих мощностях и алгоритмах упрёмся в некий потолок, а потом что-то принципиально новое появится, какой-нибудь биологический или квантовый ускоритель, и вот опять откроются кажущиеся бесконечными просторы.

В оценке результатов ML важно понимать — хотим ли мы чтобы AI был на уровне людей или лучше чем люди (к примеру — вождение машин). Совсем не исключено, что в играх и люди и учившиеся на их партиях компьютеры находятся в некоем локальном минимуме ;) пространства всех возможных вариантов.

Чисто в научном плане нет смысла искусственно ограничивать возможности AI какими-то нашими хотелками. Надо его улучшать до предела, просто чтобы узнать, где этот предел находится (и есть ли он вообще). А в играх уже давно выяснилось, что обучать компьютер на игре с самим собой значительно более эффективно, чем на человеческих партиях (AlphaGo и OpenAI Five именно так учились и превзошли людей). Это и интуитивно понятно — у людей есть свои стереотипы в играх, которые далеко не всегда будут верны и максимально эффективны, незачем их передавать машине. Если мы действительно играем хорошо, то и машина сможет это обнаружить самостоятельно, а если наш подход ущербен, машина не упрётся в него до того, как нащупает лучшие стратегии.

Ну логично, изобрели МЛП — был ИНС хайп, достигли их предела — он закончился. Недавно изобрели новые архитектуры ИНС — новый хайп, поекспойтили их, насколько они годны, достигли их лимита. Но неизбежно будут найдены новые архитектуры с новыми возможностями, отчасти по ходу развития понимания устройства мозга, ну а потом потенциально их перенос на квантовые копьютеры.
Причин полагать что МУ зашло в тупик нет, кмк. Даже наоборот, так полагать — очень странно.
В химии сейчас тоже набирает популярность Machine Learning. Но я считаю, что это тупиковый путь. Какую-то конечно можно пользу извлечь, но принципиально нового понимания не добиться. Машина ведь оперирует исключительно тем набором параметров, которые заложены и на эврестику (в рамках ML) не способна.

Я не согласен. Вам нужно освоить понятие обобщающей способности (generalization) из ML. Еще нужно снова понять предельные возможности интерполяции, экстраполяции, аппроксимации и в чем разница между ними.)))
Не существует никаких сильных методов, которые делают ВСË из НИЧЕГО как в фильме "Трансцендентность". Это глупость и фантазия.
Все известные науке интеллекты осваивают знания через обучение и никак иначе.

Я, наверное, немного другое имею ввиду. Возьмём какой-нибудь упрощенный пример. Допустим нас интересует электропроводность соединения, а в качестве входных параметров берем состав, температуру плавления и межатомное расстояние. Естественно, что машина будет перебирать именно эти параметры, подгоняя под них весовые коэффициенты. А если, например, в действительности нужно ещё учесть энтальпию образования? Откуда такая информация у машины? Все равно это осмыслить должен человек, прежде чем это появится у машины. Надеется, что машина переберет все мыслимые и немыслимые свойства даже о существовании которых она не подозревает? Безусловно ML полезно, но абсолютизировать его, наверное, не стоит.

А никто не абсолютизирует ML! Человек тоже про энтальпию не догадается, если этого нет в учебниках. Это вы жестко абсолютизирует возможности человека. Извините, но только 40000 лет потребовалось, чтобы человечество научилось эффективно передавать знания из поколения в поколение. И только такое время спустя, а не сразу, как представляете вы, появилось понятие энтальпии.

человек тоже про энтальпию не догадается, если этого нет в учебниках

По вашему выходит, что учебники существовали до человека. Как это ни удивительно, но да, иногда человек может понять то, о чем раньше не догадывались. Очень редко и не на пустом месте, конечно.
а не сразу, как представляете вы

я такого не говорил

А выход за пределы эвристик ML — это тупик. Потому что иные эвристики не работают. Тут уже сложно объяснять почему, избавьтесь хотя бы от одного предрассудка.

Любая модель — это эвристика. При этом, нет правильных моделей, есть более полезные и менее полезные, это зависит от задачи. Почему Вы говорите, что ML — это правильные модели?

Модели, описывающие инопланетные закономерности, неинтересны. Они не работают в нашем мире. И тут важно понять, что такое феномен нашего мира.

Этот комментарий вообще непонятен.
1) причем тут инопланетные закономерности?
2) атомы на других планетах какие-то другие?

Определите для себя сами границу между "инопланетный мир" и "наш мир".


В нашем мире, в частности, если слегка изменить причину, то следствие также несильно изменится. Это феномен, который трудно понять, но все же он естественный!

Это не так.
Даже для математических абстракций, случается, что поведение системы качественно изменяется при бесконечно малом изменении параметров.

А уж реальный мир сплошь и рядом состоит из катастрофических изменений при небольшом изменении параметра. Опустили электроды в жидкость, начинаем потихоньку добавлять напряжение. Тока нет, нет, потом раз, превысили напряжение разложения, на электродах пошел электролиз, ток скакнул на порядки. Титрование: по каплям добавляем реактив, чуть pH перешла границу — индикатор поменял цвет с красного на синий. Почти вся химия — это дискретные переходы. Греем воду — добавляем по сотой градуса — сравнялось давление паров воды с атмосферным — раз и вода закипела. Фотоэффект — увеличиваем энергию фотонов, оп, превысили работу выхода электрона из металла — потек фототок. Есть уж вообще страшные примеры: чистая вода и уксусная кислота — отвратительно проводят ток, смешали — отличный электролит. Такие примеры можно приводить до бесконечности, уж не знаю, в каком мире вы живете.

Реальный мир, наоборот, состоит из значительно преобладающих гладкостей. Нелинейности предсказуемы, точек разрыва первого и второго рода очень мало. Бифуркации (динамические точки разрыва) открыли во второй половине 20-го века… Вот наш мир!

Квантовая механика особенно гладкая… )))

Вы пытаетесь универсализировать интеллект, натравить его на все, что только возможно, но это тупик. Вся ML зиждется на специализации на конкретных закономерностей, присущих нашему макроскопическому миру. Да я, к тому же, не вижу проблем по освоению квантового мира… У него также свойства обычны…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий