Как стать автором
Обновить

Комментарии 4

Большое спасибо за перевод! Оригинальная статья — важная работа, а на русском читать удобнее.
1. А где про сам процесс обучения? Заметил, что на хабре большинство статьей про RNN содержит просто структуру и архитектуру LSTM/GRU и т.д. Но упускается сам процесс обучения или только мельком упоминается, т.е. Backprogatation through times, там ведь немало нюансов…

2. «К счастью, LSTM не знает таких проблем!». Согласен, что LSTM помогает решить эту проблему. Но не окончательно, все же vanishing/exploiding gradient присутствует и в LSTM. В качестве примера:
https://arxiv.org/pdf/1506.00019.pdf
Да и в целом, в сети множество обсуждений по этому поводу. Плюс, было бы полезно проиллюстрировать наглядно проблему vanishing/exploiding gradient и как LSTM ее решает.

А где про сам процесс обучения?

Описать нейронки всегда интереснее и легче чем объяснить как обучить всякие экзотические схемы, особенно обратным распространением. Легче просто довериться генетическому алгоритму и не париться таким вопросом, параметры сами выставятся как надо. Хотя надо ещё придумать что именно копировать в таких нейронах при кроссинговере, но скорее всего все параметры и саму память нейрона

ты скорость обучения при помощи ГА и обратного распространения ошибки сравнивал? Попробуй поищи. У ГА должно быть медленнее на несколько порядков. Можно пробовать объединять оба подхода (все равно проиграем по времени, но можем выиграть в точности).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий