Pull to refresh

Comments 5

Очень интересно, спасибо!

Про Теорему 1 (я, кстати, ужасно рад, что оказывается на хабре таки включили MathJax, но ЯННП как его включить в коментах, — попробую по-старинке, но, боюсь, не зайдёт).

Формула $ \upsilon_w \approx A \mathbb{E}[\frac{1}{n}\sum_{w_i\in s}\upsilon_{w_i}|w \in s] $, если я правильно понял, выражает эмбеддинг слова w приблизительно как линейное отображение мат.ожидания (по всем окнам) среднего значения эмбеддингов всех слов в окне, содержащем это слово. Правильно ли я понимаю, что подразумевается, что в вычислении среднего искомый эмбеддинг \upsilon_w не включается? Т.е. среднее всех эмбеддингов, кроме искомого?
А вообще, всё выглядит довольно логично. Механизм dot-product attention, представленный год спустя в Трансформерах, тоже, по видимому, основывается на свойстве эмбеддингов, что смыслы спрятаны в пространстве эмбеддингов как-то очень близко-локально. Что и позволяет их находить «вблизи» запроса (в терминах «Attention is all you need»).
Правильно ли я понимаю, что подразумевается, что в вычислении среднего искомый эмбеддинг \upsilon_w не включается?
Вообще, в статье самой это не указывается, но по логике, искомый эмбеддинг включаться не должен.
А вопрос о том, как связаны статические эмбеддинги с теми, что производятся на основании трансформеров — действительно интересен. Ведь получается, что матрица A из теоремы 1, как раз делает качественно похожие вещи, что делают модели на трансформерах. Но это только качественно.
Правильно ли я понимаю, что подразумевается, что в вычислении среднего искомый эмбеддинг \upsilon_w не включается?

Вообще, в статье самой это не указывается, но по логике, искомый эмбеддинг включаться не должен.
А вопрос о том, как связаны статические эмбеддинги с теми, что производятся на основании трансформеров — действительно интересен. Ведь получается, что матрица A из теоремы 1, как раз делает качественно похожие вещи, что делают модели на трансформерах. Но это только качественно.

Sign up to leave a comment.

Articles