Pull to refresh

Comments 5

В 700 КиБ можно уложить 100% словаря. Так что размер получившейся сети относительно словаря таки имеет значение для оценки качества обучения. (Сеть просто запомнила словарь, возможно, а не вывела его закономерности.)
Чтобы проверить выводимость закономерностей словарных и генерируемых слов без ограничения размеров нейросети, можно обучать её на 10 000 блоков из API (миллион тестовых слов, среди которых будет примерно половина словаря). Проверять на других блоках, не менее 50 000 — 100 000 (10 миллионов тестовых слов, среди которых будет почти полный словарь). Повторить несколько раз на разных обучающих выборках, чтобы убедиться в отсутствии локальных статистических артефактов.
100% словаря можно в 500кб ужать вообще-то.
Прикольно, спасибо за пост! Можно попробовать сжимать сеть через deep compression https://arxiv.org/abs/1510.00149. А ещё можно генерироваться очень много негативных примеров, и проддерживать нужную пропорцию per-batch
Sign up to leave a comment.

Articles