Pull to refresh

Comments 5

Други , спасибо за обзор. Однако все же Ваша модель это расширение контекста модели e5. Что есть клон, просто с выше контекстом. Насчет метрик, оч сильно упали други. Мы научились не проседать. Метод можно почитать тут https://t.me/dealerAI/318. Ну и как говорят в комьюнити, почти все энкодеры в топ5 энкодечки обходят ada2 на short text. Замерьте на long и удивитесь.

Спасибо за отзыв, Александр. С вашей работой, конечно, знакомы. Про метрики могу ответить, что просадка у нас наблюдается именно в STS сравнительно с оригиналом e5, по остальным метрикам нет существенных потерь. Мы подошли к работе с metric learning с e5 на скорую руку, например, мы фактически не делали отдельного negative mining и температуру в InfoNCE выбрали выше чем берут обыно, ну и наконец не выбирали соотвествующие датасеты вроде NLI. Тут дело в том, что проект весьма экспериментальный и новый для нас, скорее с целью доказать, что клонировавние вполне осуществимо. Так что о потере в STS мы конечно жалеем, но теперь гораздо лучше понимаем как его существено улучшить в дальнейших итерациях. Спасибо за проявленый интерес и освещение нашей работы!

Ждем новых экспов и конечно, подобно MTS AI и их longformer, комьюнити ждет колаб. Берегитесь сета cultural X его нужно чистить. Успехов!

А что можно использовать вместо cultural X?

Спасибо за статью, очень интересный и полезный опыт

Sign up to leave a comment.