Pull to refresh

Comments 13

Текст местами не вычитан…
Или его ваша модель писала?

С хоккеистами не понял. Конечно, вратарь играл лучше — безупречно же, ни одной шайбы не пропустил значит, а значит наши не смогли реализовать преимущество

В этом примере правильный ответ, что вывод неверен. Логика такая: из того, что у наших было преимущество, не следует, что они играли лучше.

У меня логика такая: из того, что вратарь был безупречен, а наших лишь преимущество какое-то, следует, что вратарь играл лучше, идеально, лучше просто некуда. А наши хуже, потому что иначе бы сказали, что и те, и другие играли безупречно. По-моему, информации достаточно, чтобы сделать такой вывод. Как и в "по итогам советско-американских соревнований советская команда заняла почётное второе место, а американская — предпоследнее" достаточно информации чтобы понять, что амерканцы выиграли, а наши проиграли.

По-моему, сопоставлять игру команды из 5 + 1 человек с одной стороны — и одного игрока с максимально специфической функцией (вратарь) с другой сторон — в принципе неправильно. Это не очень сопоставимые сущности, они разноуровневые. Так что мне больше по душе вариант ответа из поста: «вопрос поставлен некорректно»
Показательно, что самый огромный провал у машин в RuCoS (где common sense intelligence нужен), судя по лидерборду. Все в зоне 0.25 — 0.375. Но это прям реальный челлендж: я заглянул в json с вопросами и пришлось почесать репу, чтобы заполнить placeholder-ы… Иногда даже кажется, что есть неоднозначные места. Интересно, каков тут коэффициент согласия, когда вы мучаете на RuCoS людей :)

А вообще — очень крутая инициатива, спасибо за работу и за суперский бенчмарк!
Да, это правда! Это датасет, в котором, пожалуй, смаый большой разрыв у уровня человека и модели — люди с ним справляются достаточно хорошо.
Мы брали в датасет задания, на которых все разметчики уверены, оверлап 3 человека.
Успехов в дальнейших разработках. Думаю, Вы на правильном пути
Есть ли планы по версионированию бенчмарка? Ведь всегда есть что улучшать.
Кажется, отсутствие версионирования в GLUE привело к тому, что разъяснение о битых строчках в QQP пришлось включать в FAQ, а некоторые результаты QNLI теперь считаются недействительными из-за уточнений описания задания.

Да! Определённо есть. Некоторые датасеты вырастут в объёме, могут добавиться новые.


В английском GLUE так получилось, что задания были решены так быстро, что проще было сразу выпустить новый проект с приставкой "super".

UFO just landed and posted this here
Это называется суммаризация. Подход нормальный, только трудно оценить, см метрики BLeu и Rouge
UFO just landed and posted this here
Sign up to leave a comment.