Pull to refresh

Comments 2

Большое спасибо за перевод! Оригинальная статья — важная работа, а на русском читать удобнее.
1. А где про сам процесс обучения? Заметил, что на хабре большинство статьей про RNN содержит просто структуру и архитектуру LSTM/GRU и т.д. Но упускается сам процесс обучения или только мельком упоминается, т.е. Backprogatation through times, там ведь немало нюансов…

2. «К счастью, LSTM не знает таких проблем!». Согласен, что LSTM помогает решить эту проблему. Но не окончательно, все же vanishing/exploiding gradient присутствует и в LSTM. В качестве примера:
https://arxiv.org/pdf/1506.00019.pdf
Да и в целом, в сети множество обсуждений по этому поводу. Плюс, было бы полезно проиллюстрировать наглядно проблему vanishing/exploiding gradient и как LSTM ее решает.
Only those users with full accounts are able to leave comments. Log in, please.

Information

Founded
Location
Россия
Website
wunderfund.io
Employees
11–30 employees
Registered