AlexSerbul 3 авг 2016 в 20:08

Deep Learning — что же делать, кого бить

3 мин

22K

Блог компании Битрикс24Big Data*Машинное обучение*

+15

Комментарии 52

lizarge 3 авг 2016 в 21:06

О чем ваша статья? я вижу 4 абзаца сумбурного потока сознания, c непорядочными сумбурными ссылками.
Где искать решение проблем, какой подход верный? Может вы предлагаете ссылку на свой git с С++ реализацией медленных Python вставок в готовых реализациях?

Особенно порадовал вывод в секции «Что же делать?» в стиле лабораторной работы, и совет завязывать с танками, пост написан танкистом в завязке?

+11

AlexSerbul 3 авг 2016 в 23:31

О чем статья? О бардаке и перетягивании одеяла :-) Хочется надеяться, что ситуация выровняется в лучшую сторону.

RockPresident 9 авг 2016 в 12:08

Как человеку только начинающему изучать практическую сторону реализации ML алгоритмов, статья несёт очень много информации которую не так легко получить где-то ещё.

Каждый раз когда человек начинает входить в новую сферу со своим набором инструментов, в нём бывает очень сложно разобраться. Иногда эта сложность диктуется самой сложностью предметной области и необходимостью наличиая такого количества разных инструментов. Иногда суть просто в том что есть пара-тройка хороших инструментов, а остальные по сути представляют из себя маркетинг. Иногда бывает так что просто разработчики в этой области вполне конкретно разделились на несколько лагерей основываясь на конкретных несогласиях (в таких случаях хорошо бы в этих несогласиях отлично разобраться, ведь вполне может быть что человек в результате сможет видеть себя только в одном из этих лагерей и ни за что в другом, даже ещё не разобравшись в самой области).

Без таких статей как ваша различать все эти случаи в незнакомой области — не так-то просто или быстро. С подобной точки зрения не так-то часто и пишут. И куча времени может уйти на знакомство со ВСЕМИ инструментами, и потом собственное выстраивание выводов (с каким же работать блин???) которые здесь можно прочитать за 5 минут.

Я к чему, спасибо за статью, полезной информации в ней не то что есть, её МНОГО! И даже ваш стиль с многими точечными упоминаниями даже отдельных алгоритмов, или примеров применения, или даже просто парыми слов о вашей отдельной эмоциональной реакции к конкретным решениям — это очень круто и сюда подходит. Это не структурированная информация или мануал. Это набор маленьких частичек информации, но их очень много. Если не реагировать на то что формат не очень стандартный а просто воспринимать информацию, то тут очень круто. )

AlexSerbul 22 авг 2016 в 17:50

Спасибо! Пишите вопросы, постараюсь подсказать.

Danov 3 авг 2016 в 21:13

Это статья — крик души. Печаль… У других работает, а самому тяжело вникнуть. Прям по классике — «Лисица и Виноград»

AlexSerbul 3 авг 2016 в 23:32

Обижаете. У нас тоже работает и нет проблем с пониманием темы. Проблематика в другом немного, жаль что не удалось ее донести.

Alex_ME 3 авг 2016 в 21:23

постоянно учиться и приобретать смежные знания

Кстати про "учиться":
Часто вижу очень интересные вещи, которые нынче делают с нейронными сетями. Распознавание, сверточные сети, Deep Learning.

Что почитать человеку, знания которого в области ИНС заканчиваются на персептроне? Видел множество статей, уроков, которые обещали объяснить относительно понятно все эти вещи, но они каждый раз оканчивались на описании искусственного нейрона.

alex_justes 3 авг 2016 в 21:26

Начните с курса Machine-learning на coursera. Думаю будет интересно и полезно.

Alex_ME 3 авг 2016 в 21:28

Спасибо.

abby 3 авг 2016 в 22:20

Не думаю, что там то, о чём спрашивалось, потому что в этом курсе как раз на обычном персептроне все и заканчивается, а свёрточных цепей там нет.

AlexSerbul 3 авг 2016 в 23:34

А рекуррентных? :-)

AlexSerbul 3 авг 2016 в 23:33

Этот курс требует от слушателя определенного начального уровня вхождения, причем не маленького. Инженер вряд ли врубится с ходу.

david_mz 4 авг 2016 в 11:56

Так посоветуйте что-нибудь для инженеров.

AlexSerbul 4 авг 2016 в 12:34

http://colah.github.io/ — самое имхо лучшее

dizverst 4 авг 2016 в 12:15

Возможно, заинтересует книжка «Построение систем машинного обучения на языке Python» 2016 года, авторы Луис Педро Коэльо и Вилли Ричарт

KvanTTT 3 авг 2016 в 22:43

Нужно научить нейронок писать хороший код.

AlexSerbul 3 авг 2016 в 23:34

Сомневаюсь что это возможно, хотя… :-)

SKolotienko 4 авг 2016 в 00:12

http://karpathy.github.io/2015/05/21/rnn-effectiveness/ (пролистайте в середину)

AlexSerbul 4 авг 2016 в 00:26

А я такую штуку поднимал и код Битрикс на ней генерил, а также «Войну и мир» и «Преступление и наказание» :-) Проблема пока в том, что какой бы тип ячейки рекуррентной сети вы бы не выбрали (LTSM, GRU, plain RNN), сколько бы слоев не ставили — такие модели хреново пока генерят последовательности на основе созданной языковой модели. Об этой проблемке пишет сотрудник Google Brain Team.

elingur 4 авг 2016 в 12:10

все верно, с языком сети не будут хорошо работать. Ибо нужно сравнивать не «образы слов» (лексики и ее всевозможных грамматических атрибутов), а семантических образов. А для этого пока есть только одно решение — онтологии. Но и оно пока неподъемно в общем случае. Поэтому если и пытаться запихивать язык в нейросети, то не лоб, а каким-то особым извращенным способом (типа через LDA/LSA и подобное).

AlexSerbul 4 авг 2016 в 12:38

А можно же так:
1) Из слов сделать эмбеддинги низкой размерости — т.е. соединить близкие слова по контексту
2) Пропустить набор эмбеддингов через рекуррентную сетку для получения семантического образа фразы
3) Затем сравнить семант. образ фразы (вектор), после линейной трансформации (размерность остается той же), с аналогично пропущенной через рекуррентную нейронку фразой из параллельного корпуса
4) Найти близкие фразы через банальный vector dot

elingur 4 авг 2016 в 12:47

Это понятно. Но тут как бы и нейросети и не нужны. Простые векторные модели это неплохо делают. А графические еще лучше. Т.е. получив «близкие слова», дальше уже масса вариантов их использования. Но вот получить их получается только «под задачу» — зависит от корпуса. А хочется «как в жизни»…

AlexSerbul 4 авг 2016 в 12:49

А как простые векторные модели могут сохранить контекст текста до? Рекуррентные сети — могут.

elingur 4 авг 2016 в 12:56

ну не совсем простые, на каждое слово вектор, т.е. матрицы сравниваются, типа термы-документы, но уже не разряженые.

AlexSerbul 4 авг 2016 в 12:58

А, после SVD которые? Ну там синонимы или близкие слова становятся одной колоночкой. Но контекст именно предложения они хранят как бы статически — т.е. набором слов. Ну можно еще завернуть на них сверточную сеть (фильтры) — но эта будет статика как не крути. А рекуррентные нейронки могут строить внутри себя смысловое представление последовательности предложений, прикольная возможность.

elingur 4 авг 2016 в 13:08

Можно и без SVD, можно и pLSA. А последовательность можно хранить, применив n-gramm, или что-то типа PMI. С предложениями тяжело, конечно, будет. Но их и не нужно. Важны только ключевые термы. То есть, нейросети в чистом виде не очень интересны для языка. Другое дело гибридные, когда какую-нить Байесовскую сеть можно запихнуть для оптимизации результатов CRF. Или CNN для уменьшения размерности параметрического пространства. Мне кажется это перспективнее.

AlexSerbul 4 авг 2016 в 13:43

Спасибо, интересно!

AlexSerbul 4 авг 2016 в 00:27

Но то, что эта штука поражает — это факт.

AStek 4 авг 2016 в 00:33

Пользуясь случаем хочу попросить посоветовать онлайн курсы по математике, где-то институтского уровня но «для чяйников». Желательно такие где можно материалы проходить не по календарю а по наличию времени. Заранее спасибо.

AlexSerbul 4 авг 2016 в 12:39

мне одно время назад хорошо помогли справочники по математике Выгодского

bavaria 4 авг 2016 в 15:26

mathprofi
Немного может не подходить под Ваше описание, но в свое время мне эти материалы помогали, весьма доступно написано.

mbait 4 авг 2016 в 02:20

Просто это сейчас тренд со всеми вытекающими. Отмотайте время на 20 лет назад, и увидите как люди сочинают оды изяществу и эффективности ООП (выражение "design pattern" из нарицательного стало чуть ли не собственным), а про e-commerce говорят, что перевернёт мир, магазины закроются, всё будут покупать только в интернете, тысячи уволенных продавцов выйдут на улицу с факелами и вилами. Возникает over 9000 стартапов, которые пытаются вывести всё и вся в онлайн. Мы все знаем, что потом произошло с теми ребятами в марте 2000. Теперь возращайтесь в наше время, выполняйте подстановку ООП -> ФП и e-commerce -> machine learning — ничего не изменилось. Как только машинное обучение перестанет быть на слуху (а для этого обязательно нужно найти замену), всё встанет на свои места. Но скорее всего третьей волны уже не будет.

Danov 4 авг 2016 в 09:16

Цикл зрелости технологии (Hype cycle) Gartner

AlexSerbul 4 авг 2016 в 12:41

Да, была AI winter, помним, но с 2006 года прорыв же в качестве моделей случился, машинное зрение стало быстрее и лучше работать и заменять людей и не только в этой области

kvark 4 авг 2016 в 02:28

Если хотите красиво и быстро, есть (была?..) ещё такая штука на Rust: http://autumnai.com/

НЛО прилетело и опубликовало эту надпись здесь

AlexSerbul 4 авг 2016 в 12:43

Да смотрел я haskel, как и Scala — глубоко, серьезно, по-совести. И отложил. На python, да, императивном, извращенном, но тем не менее куча библиотек и графики легко рисовать быстро.

tzps 4 авг 2016 в 12:14

Замечу, DeepLearning4j — это не совсем Java. Все что касается интерфейсов — Java 1.7 и Scala. А все что касается тензоров — C++, с OpenMP и CUDA. И не исключено, что в ближайшем будущем OpenCL может появиться.

tzps 4 авг 2016 в 12:19

P.s. Я — один из разработчиков DL4j/ND4j. Буду рад ответить на вопросы, если таковые у кого появятся.

AlexSerbul 4 авг 2016 в 12:48

Добрый день! Хотел спросить как можно просто в DL4j в обучаемом с автоматическим диффиренцированием графе после нейронки и получения на выходе нейронки вектора, выполнить его линейную трансформацию с помощью квадратной матрицы — но так, чтобы веса матрицы обучались.

tzps 4 авг 2016 в 12:55

Начать можно с того, что AD не реализован на данный момент :(

P.s. В планах — есть. Но не приоритетная задача.

AlexSerbul 4 авг 2016 в 13:00

Видимо тогда можно попробовать решить через сукблассирование слоя обычной однослойной сети без сигмоида на выходе.

AlexSerbul 4 авг 2016 в 12:46

Да, согласен, вы правы. Но java как платформа со строгой типизацией, отличным jit и великолепной стандартной библиотекой выглядит привлекательно. А вот Scala, как замена python — вот где она мать ее? :-) Spark просиял, Akka — а дальше что? Где фреймворк машинного обучения на ней?

tzps 4 авг 2016 в 12:50

DL4j совместим с Scala, и прямо сейчас переписываются ND4s (Scala версия ND4j) и аналогичные работы по DL4j Scala ведутся :)
Так что возможно DL4j и станет таким фреймворком. По крайней мере людей использующих Scala я вижу в саппорт чате постоянно.

APXAHGEL 4 авг 2016 в 12:14

Народ, может кто кинуть ссылку на какой-нить туториал по свёрточным нейронным сетям для распознавания картинок (MNIST хотя бы), или поиска объекта на изображении, но обязательно на С++, python ради этого не хочется учить. Прям не могу найти, хоть тема и должна бы быть уже избита.

AlexSerbul 4 авг 2016 в 12:46

http://caffe.berkeleyvision.org/

temp 4 авг 2016 в 13:01

Есть опыт работы с ANN в production системах. Текущий подход, где используется обучение с gradient descent, подходит для определенного типа задач. Идея в том, чтобы прогнать множество итераций с обучающим набором, чтобы получить достаточный уровень ошибки. В итоге получим распознавание паттернов, для определенного типа задач. Но проблема в добавлении новых знаний в существующую сеть. Неэффективно прогонять многие итерации обучения, чтобы добавить крупицу нового знания. Пока пытаются решить проблему one shot learning костылями типа Neural Turing Machine, но имхо это забивание гвоздей микроскопом. Более интересно совместить вероятностные подходы с ANN, например с Gaussian Processes и Deep Reinforcement Learning. Это уже применяется в робототехнике, но есть нюансы работы с широкими слоями ANN. Вообще, если следить за темой, то основные идеи меняются не быстро. С другой стороны, на хайпе нейросетей сейчас каждый ученый и его тетя пишут научные статьи, создавая илюзию стремительно меняющейся области. Особенно преуспели в том деле китайские товарищи, выдавая тонны г*вно статей на гора.

AlexSerbul 4 авг 2016 в 13:05

Спасибо, интересно!

Vanger13 4 авг 2016 в 14:23

Очень забавный тайминг у статьи :) Как раз пытаюсь подружить как-нибудь Caffe с JVM, причем нужно только «feed forward» — классификация без обучения. И очень желательно дергать её не напрямую а её питоновскую обвязку. Кто-нибудь извращался? :\

AlexSerbul 4 авг 2016 в 14:25

Нет, не пробовали. Удачи Вам! :-)

AlexSerbul 4 авг 2016 в 14:25

Нет, не пробовали. Удачи Вам! :-)

zim32 20 мар 2018 в 22:49

Работает не трогай. Вы код ядра линукс видели? А mysql? Индустрия слишком молодая. Технический долг отдадут когда закрепятся на рынке

Зарегистрируйтесь на Хабре, чтобы оставить комментарий