Comments 5
В 700 КиБ можно уложить 100% словаря. Так что размер получившейся сети относительно словаря таки имеет значение для оценки качества обучения. (Сеть просто запомнила словарь, возможно, а не вывела его закономерности.)
Чтобы проверить выводимость закономерностей словарных и генерируемых слов без ограничения размеров нейросети, можно обучать её на 10 000 блоков из API (миллион тестовых слов, среди которых будет примерно половина словаря). Проверять на других блоках, не менее 50 000 — 100 000 (10 миллионов тестовых слов, среди которых будет почти полный словарь). Повторить несколько раз на разных обучающих выборках, чтобы убедиться в отсутствии локальных статистических артефактов.
Прикольно, спасибо за пост! Можно попробовать сжимать сеть через deep compression https://arxiv.org/abs/1510.00149. А ещё можно генерироваться очень много негативных примеров, и проддерживать нужную пропорцию per-batch
Only those users with full accounts are able to leave comments. Log in, please.