madrugado 10 апр 2018 в 14:00

Применение сверточных нейронных сетей для задач NLP

9 мин

60K

Блог компании Open Data SciencePython*Data Mining*Машинное обучение*Natural Language Processing*

+67

Комментарии 29

zodiak 10 апр 2018 в 15:13

Но авторы вышеупомянутой работы [1] смогли решить эту проблему. Так что теперь и это ограничение снято.

Расскажите как, если не сложно.

madrugado 10 апр 2018 в 15:49

Это уже довольно сложный материал, и я не стал его включать в основную статью.

Чтобы ответить вам на вопрос, нужно рассказать несколько дополнительных вещей:

1) Residual connection — это способ проброса гридиентов в глубину, напрямую, когда мы «добавляем ко входу», то есть вход остается неизменным, а наш смысловой блок просто делает какую-то добавку. В сверточных нейронных сетях (типа ResNet) принято делать именно блоки, из которых строится сеть, а не отдельные сверточные слои.

2) Cвертка 1x1 — это специальный вид свертки, кторый интегрирует все каналы в одно значение, оставляя размер матрицы неизменным. Здесь он используется в качестве обработки входа, чтобы можно было совместить разное число каналов на входе и выходе residual-блока.

Авторы в своей сети используют так называемые fully-convolutional сети, т.е. размер матрицы, с которой они работают остается постоянным. Используя трюк с 1x1-conv и residual connection, они добиваются большой глубины, не теряя возможности варьировать обработку по ширине. Тут важно отметить, что они строят сеть так, чтобы нигде не делают изменения ширины матрицы, именно это позвояет им работать с матрицами переменной ширины.

ivodopyanov 10 апр 2018 в 15:19

Самое вкусное, что было в области применения CNN к NLP — это seq2seq и ASR на сверточных сетях от Facebook.

madrugado 10 апр 2018 в 15:56

Это довольно сложные модели их не так просто рассказать людям, не знакомым с областью. Хотя я согласен, что они очень интересны.

Относительно convolutional seq2seq я бы еще добавил, что lua Torch имплементация устарела, лучше использовать PyTorch: github.com/facebookresearch/fairseq-py

Относительно ASR мое мнение, что даже интереснее TTS в виде более раннего WaveNet от DeepMind. Но тогда надо было бы рассказывать про padding, dilated convolutions и прочие более сложные вещи, которые для вводной статьи слишком сложны.

sebres 10 апр 2018 в 16:26

Статья замечательная, чего мне не хватило, это собственно…
ссылки на оригинал.
Укажите пожалуйста, что это, хоть и обрезаный (с отступлениями, вытяжками со стороны и т.д.), но всё же перевод… А то не красиво как-то выходит.

sshmakov 10 апр 2018 в 17:26

Вот еще одна ссылка на оргинал (предыдущая мне недоступна).

-2

sebres 10 апр 2018 в 17:40

Ну это как раз малая часть (и Denny Britz на её первоначальный вариант от 2014 года ссылается)…
Из статьи же Брица, той что на WildML за 2015 год, практически 70-80% (если не больше).

предыдущая мне недоступна

А WildML нынче в реестре? Поискал в блэклисте — говорит вроде нет… Если все же — сочувствую...

sshmakov 10 апр 2018 в 23:47

Да, прошу прощения, спутал, не та статья.

madrugado 10 апр 2018 в 17:35

это не перевод, я ее читал, когда писал, по картинкам у нас частичное пересечение (хотя картинки стенфордские), в остальном статьи разные

sebres 10 апр 2018 в 17:52

Вы серьёзно?.. Ну-ну.

When we hear about Convolutional Neural Network (CNNs), we typically think of Computer Vision. CNNs were responsible for major breakthroughs in Image Classification and are the core of most Computer Vision systems today…

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений...

И т.д. и т.п.
Вы правда думаете, что изменением пары фраз и заместив 20-30% можно "обмануть" человека бегло читающего по английски?

Молодой человек, это называется — плагиат.
Но хоть мораль — дело общественное, совесть всё таки — дело каждого.
Так что я вам ничего доказывать не собираюсь, оставайтесь при своем мнении.

madrugado 10 апр 2018 в 18:01

коллега, вы ведете себя некорректно, докажите с цифрами, что это плагиат, по совпадению одного предложения вы делаете далеко идущий вывод

-4

mephistopheies 10 апр 2018 в 18:49

паренек, иди почитай что такое плагиат и критерии плагиата, потом можем обсудить тут все формально, а пока сплошные набросы без какой либо конкретики, уровень церковно-приходской школы

-6

slonopotamus 10 апр 2018 в 22:17

Чего это без конкретики? Приведен вполне конкретный пример.

mephistopheies 11 апр 2018 в 08:22

с вашей то кармой на этом сайте лучше вообще не участвовать в серьезных дискуссиях

-10

khdavid 11 апр 2018 в 11:18

Ребят, а что такое NLP? Мне на ум сразу приходит нейро-лингвистическое программирование. Читаю статью, в введении ничего не написано, потом сразу к математике. В общем, не смог дочитать.

madrugado 11 апр 2018 в 11:31

как-то я забыл, что существуют люди, которые не в нашей области :)
NLP — это Natural Language Processing, обработка естественного языка, если по-русски

добавил пояснение в начало

khdavid 11 апр 2018 в 11:35

спасибо

НЛО прилетело и опубликовало эту надпись здесь

svboobnov 11 апр 2018 в 14:02

В этих наших интернетах опять кто-то неправ. Посмотрите на пару обычных соображений:

Если нейросети применяют, значит, они выгоднее, чем разработанные вручную алгоритмы.
Если вакансии на должности программиста-аналитика или data-scientist'а появляются, значит, ML используется в бизнесе.
Ну, и система автоматического «развода лохов» (поиск заёмщиков, классификация потребителей рекламы) работает без перерывов, без выходных и никогда не уйдёт в декрет.

yorko 11 апр 2018 в 18:33

svboobnov лучше просто игнорить :)

svboobnov 12 апр 2018 в 12:26

Пожалуй, это действительно тролль. Но, есть шанс того, что человек просто не понимает чего-то, да и тем, кто не знаком с ML, пригодится общая информация о.

svboobnov 11 апр 2018 в 13:54

Спасибо! Статья понравилась. Пояснения кратки и ясны, легче будет разобраться мне, как неспециалисту.

iamtodor 15 апр 2018 в 21:54

Опечатка: смешение

madrugado 17 апр 2018 в 16:44

это не опечатка, это существительное того же корня, что и глагол «смешивать»

Nashev 17 апр 2018 в 16:07

А можно чуть подробнее, что делает embedding?

И было б клёво в статье пояснение про суть one-hot к первому упоминанию перенести, а то пришлось сначала гуглить, а потом тут у второго упоминания увидел.

madrugado 17 апр 2018 в 16:43

про эмбеддинги есть целая отдельная статья: habrahabr.ru/company/ods/blog/329410
здесь я решил не загромождать не совсем релевантными пояснениями

Nashev 17 апр 2018 в 17:14

Почитал. Там про word2vec и аналоги, а здесь строчка

model.add(Embedding(input_dim=max_words, output_dim=128, input_length=max_len))

и пояснение

Первым слоем у нас идет Embedding, который переводит целые числа (на самом деле one-hot вектора, в которых место единицы соответствует номеру слова в словаре) в плотные вектора. В нашем примере размер embedding-пространства (длина вектора) составляет 128, количество слов в словаре max_words, и количество слов в последовательности — max_len, как мы уже знаем из кода выше.

что-то как-то они у меня друг с другом не сходятся ((

madrugado 18 апр 2018 в 11:39

Здесь эмбеддинги включены в состав сети и тренируются вместе со всеми остальными весами, сам принцип получается тот же самый — слову сосоставляется вектор, которые тренируется в процессе обучения решению основной задачи; также стоит отметить, что эмбеддинг-матрица этого слоя может быть инициализирована эмбеддингами из word2vec.

Пример кода из одного проекта:

K.set_value(model.get_layer('word_emb').embeddings,
                    emb_reader.get_emb_matrix_given_vocab(vocab, K.get_value(model.get_layer('word_emb').embeddings)))

Дополнительно, можно еще «заморозить» веса этого слоя, чтобы эмбеддинги «не портились» в процессе тренировки (то есть они не будут тренироваться, но тем не менее останутся частью нашей сети):

model.get_layer('word_emb').trainable = False

nikolay_karelin 18 апр 2018 в 13:11

Здесь и имеется в виду word2vec иле его родственники, с размерностью одного вектора output_dim=128.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий