salaxieb Aug 13 2020 at 22:08

Обзор методов создания эмбедингов предложений, Часть2

20 min

5.9K

Python*Data Mining*Natural Language Processing*

Comments 7

vsns Aug 14 2020 at 20:08

Хорошая статья, спасибо. Если вдруг не попадалось: www.aclweb.org/anthology/R19-1115.pdf

salaxieb Aug 15 2020 at 15:37

Да, действительно не попадалось. Собираю идеи для продолжения: Word Mover’s Distance, Doc2vec, Smooth Inverse Frequency with GloVe и, возможно, можно дополнить контекстными эмбедингами токенов из BERT.

vsns Aug 17 2020 at 15:58

Да, можно еще sBert (https://arxiv.org/abs/1908.10084) и BERTScore ( arxiv.org/abs/1904.09675 ) добавить. вообще, конечно, их расплодилось… слишком уж неочевидно :)

buriy Aug 18 2020 at 22:23

Я думаю, много моделей тут недоучились и поэтому показали слабые результаты.

salaxieb Aug 20 2020 at 10:12

Как минимум каждая обучалась 20 эпох, и останавливалась только если результат становился хуже, а для финального графика брался только лучший результат. Да и можно увидеть по результатам, что до обучения результат лучше, чем после.

buriy Aug 24 2020 at 13:11

Я знаю модели, которые учатся по 900 эпох. И вопрос правильного выбора гиперпараметров ещё есть.

averkij Sep 2 2020 at 12:16

Еще есть предобученные модели от UKPLab — sentence-transformers с их мультиязыковыми моделями на 13 и на 100 языков. Есть USE от гугла и новейший LaBSE на 109 языков от них же. Немного написал про них тут https://habr.com/ru/post/517226/. Соль в том, что они выровненные и можно в них подавать предложения на разных языках без указания самого языка.

Show the best of all time