Pull to refresh

Comments 3

Отличный туториал, спасибо, а вы в итоге использовали этот подход в продакшене?

В процессе, вот-вот включим обученную таким образом модель.
В оригинальной статье наилучшие результаты классификации на SST-2 получаются при a=0, когда модель учится только подражать, не учитывая реальные лейблы.

Странно, никогда не получалось обучить хорошо сетку с дистилляцией только на лейблах учителя. Обычно выходило хорошо, когда градиенты от учителя и от GT имеют примерно один порядок (куда ближе к a=0.5, как вышло у вас).
Правда я гонял дистилляцию на CNN и совсем других задачах, но сути это по идее менять не должно.

Sign up to leave a comment.