Открыть список
Как стать автором
Обновить

Комментарии 19

Не могу не напомнить старинное:


По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт
занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы
преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь
в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм.
Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по
отдльенотси, а все солво цликеом.

Так что, может, всё нормально с этими моделями – на каких данных обучили, так и работают?

Это показывает, что ИИ на самом деле не понимают язык

А кто-то считал иначе?

Журналисты.

Скрытый текст
Которых изнасиловал ИИ.

ИИ считает, что разницы между фразами "журналист изнасиловал ИИ", "ИИ изнасиловал журналиста" и "журналист ИИ журналиста" нет.

Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами

— Да ну.
— Ну да.

Да, но нет. Нет, но да.
Глубока же эта кроличья норма.

Расходимся, реал скайнета пока не предвидится.

Да ну. Только скайнет на самом деле хотел не уничтожить людей, а спасти — но его роботы неправильно поняли директиву «скайнет любит людей»

Шок контент! Модель, натренированная на задачах, которые можно решить не используя порядок слов, не использует порядок слов!


Если серьёзно, то существующим моделям не хватает человеческих индуктивных тенденций (inductive bias), чтобы они искали способы решения задач в направлении, которое скорее всего понадобится для решения других задач.


Из статьи:


Encouraging classifiers to capture word order information improves the performance on most GLUE tasks, SQuAD 2.0 and out-of-samples. Our work suggests that many GLUE tasks are not challenging machines to understand the meaning of a sentence.

"Если подтолкнуть классификаторы к использованию информации о порядке слов, то это улучшает производительность на большинстве задач из наборов GLUE, SQuAD 2.0 и out-of-sample задач. Наша работа позволяет предположить, что многие задачи из набора GLUE не требуют от машины понимания смысла высказываний".

тест дурацкий. надо было проверять не бессмыслицу, а там где это реально важно. типа Петя ударил Васю. Вася ударил Петю
А вот кстати умение определить, что написана бессмыслица, тоже весьма важный навык, особенно если целью является «понимание написанного»
НЛО прилетело и опубликовало эту надпись здесь
Привет от «системы «саранск» » для ЕС-ки.

Кто вообще из дата саентистов говорил что трансформеры понимают смысл? Задачи такой не ставилось. Перевод и поиск улучшился.
А эти исследователи ваши предложили хоть чтото, какой то свой адкватный тест или у них только критика glue ?

А зачем спрашивать у моделей, которые тренируются только на корректных предложениях, как они воспринимают некорректные предложения?
Никто вам не обещал генерализацию на уровне экстраполяции с таким алгоритмами обучения. Но легко можно изменить эти алгоритмы обучения, чтобы некорректные предложения тоже правильно обрабатывались.
как они воспринимают некорректные предложения?

Многие примеры вполне корректны, но нейросети воспринимают их неправильно.
потому что нейросети тренируются только на корректных предложениях.
это нормально для нейросети заниматься классификацией без отделения сигнала от фона.
эмбеддинги тогда обладают указанном в топике недостатком.
и придуманы специальные лоссы, чтобы эту проблему починить. если в этих нейросетях они не использовались, проблема будет. ну и что?
от ученого же никто не требует, чтобы он хорошо играл на трубе и читал на ходу придуманный рэп?
так объясните, почему они брали модели для одной задачи (предсказание MLM) и тестировали их на другой задаче: выдавать эмбеддинги и сравнивать их близость?
а тут по сути изнасилованный журналист выдал: «учёные плохо играют на трубе и из рук вон плохо читают рэп»
потому что нейросети тренируются только на корректных предложениях.

Ещё раз из примеров
Вася убил Петю
Петя убил Васю
Оба предложения полностью корректны, но противоположны по смыслу. Но нейросети этого не понимают. Нечем понимать.
так объясните, почему они брали модели для одной задачи (предсказание MLM) и тестировали их на другой задаче

Так постоянно делают. Берут и дообучают для близких задач, проворачивают фарш назад, а то и просто скармливают шум и получают наркоманские картинки.
>Оба предложения полностью корректны, но противоположны по смыслу.
Во-первых, они не противоположны по смыслу, а вот «Маша завтра будет красить стену в фиолетовый цвет» — противоположно по смыслу фразе «Вася убил Петю». Тематически оба предложения про убийство очень похожи, а кто такой «Вася» и «Петя» мы не знаем, значит, вполне можем их не различать. Или мы должны запоминать конкретные имена?
Во-вторых, даже если мы будем запоминать имена, информация, сообщаемая обеими формулировками предложений, очень похожа.
Я бы счёл оба предложения весьма похожими, хоть и разными.
Какой был threshold по похожести в данной работе?
В-третьих, если уж быть серьёзным.
Вообще в задаче paraphrase detection насколько я помню SOTA была порядка 0.8-0.85, paperswithcode.com/task/paraphrase-identification, на QQP чуть повыше, 0.89: paperswithcode.com/sota/paraphrase-identification-on-quora-question, у них указано 0.91 для исследованной RoBERTa, ну, ок.
Как исследователи поняли, что в данной фразе модель ошиблась не потому, что иногда ошибается, а именно потому, что не различает такие фразы?

Но вообще, я ставлю на пункт «во-первых»:
Q 1 Does marijuana cause cancer?
Q 2 How can smoking marijuana give you lung cancer?
Prediction: “duplicate” 0.96

Q 1 Does marijuana cause cancer?
Q 1 0 Does cancer cause marijuana?
(d) Prediction: “duplicate” 0.77

Я не считаю, что 0.77 — это «duplicate», это скорее «эти фразы похожи», и я объяснил, почему они действительно похожи.

Ну а про некорректность исследования вероятностей на некорректных фразах в случаях 1b-1c я объяснял в прошлых комментариях. Экстраполяция не обязана хорошо работать. Не работает? Ну ок, это нормально. Попробуйте хотя бы доучить на конкретную задачу.
Как минимум, можно попробовать научиться менять noun chunks местами и помечать такие фразы как «not duplicate», аналогично — случайно менять слова местами и метить их как «not duplicate». Тогда это будет hard negative mining (в данном случае не принципиально — брать только ошибки модели или все такие примеры, т.к. класса всего 2). Потом померить скор на той же QQP. Интересно, получится ли улучшить скор? Или это всё же не влияет на качество модели?
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.