Как стать автором
Обновить

Комментарии 26

> Это даёт идею о том, как стабильнее ставить ИИ в тупик.

Видимо пора придумывать первые версии теста Voight Kampff

Нужна моделька которая анализирует картинки и хранит опыт. Тогда сможет отвечать и на такие вопросы из статьи)

вот все ответы по типу сири… сначала весь вопрос продиктовывается, а затем суть. Например:

«В: Какова ожидаемая продолжительность жизни в США?
О: Ожидаемая продолжительность жизни в США составляет 78 лет.»

С человеком такой диалог не возможен, он просто ответит «помоему 78» или «78» или «ХЗ»…

«В: Какое твоё любимое животное?
О: Моё любимое животное – собака.»

Опять же человек просто скажет, «Я собак люблю», или «Собака», или «У меня собака», или «Собаки нравятся, потому что они классные»
Мне кажется, это можно поправить, задав правильный вектор инициализации.

Не забывайте, что мы в данном случае знаем, что по ту сторону находится нейросеть, поэтому можем замечать такие вещи относительно легко. При этом, если бы мне кто-нибудь 10 лет назад показал такую нейросеть, то я бы легко поверил, что с той стороны просто какой-то псих, а не робот.

Тест на здравый смысл может выглядеть так:
В: у меня две собаки и одна трехногая кошка. Сколько ног топчут пол в моем доме?
Ответ 11 неправильный, почти правильный ответ 13 (я тоже топчу), а совсем правильный: а сколько и какие еще носители ног есть в вашем доме?

Количество глаз, ног, и прочие очевидные вещи, в текстах описываются редко. Подобный тест уже проводили и сеть с ним справилась плохо.

потому что человек строит модели для понимания, а сеть помнит модели, которые использовал человек. Редкие модели ей просто негде взять, а свои строить она не умеет
Мне кажется, тут не вполне корректно говорить о неумении. Насколько я знаю, сеть справляется с математическими операциями сложения, вычитания, умножения и деления с двузначными числами, сложение и вычитание — почти безошибочно, умножение и деление — по большей части правильно. И учитывая, что её никто не обучал специально математике, очень похоже, что сеть таки строит свои модели поступающей при обучении информации. Но есть один очень важный нюанс, который вы упускаете — если она и может их строить, то именно только при обучении, когда веса нейронов могут изменяться. В работе она статична.
Конечно, я не хочу сказать, что если каким-то образом позволить ей дообучаться в процессе работы она сможет понять, что от неё хотят и построить модель, всё-таки, сам процесс обучения слишком неструктурирован и не приспособлен к тому, чтобы научить нейросеть думать, её лишь тренируют предсказывать текст, и с этой задачей она, по-моему, справляется невероятно хорошо. Но если же изменить не только режим работы, но и сам процесс обучения — кто знает, кто знает…
У собак с кошками нет ног — у них есть только лапы. При этом и ответ «11», и ответы «13» или «42» могут быть верными. При игре в иммитацию важны не сами ответы, а цепочка рассуждений, которая к ним ведёт. Даже если ответ будет неверным не таким, какого ожидал от испытуемого экзаменатор — это само по себе ещё ни о чём не говорит.

Вот только 11 может и человек ответить...

Спросил у младшего братика опенаишного GPT-3. Помоему ответ прекрасен:

Q: I have two dogs and one three-legged cat. How many feet trample the floor in my house?
A: Six feet trample the floor in your house.

Q: Why six?
A: Because three legs on the cat add to the three on you, making six.

Q: Why didn't you count the dogs?
A: I am not counting the dogs because they do not have three legs each.

Q: Why do you think I have three legs?
A: I don't know. Maybe you are in the military.

Довольно похоже на живого троля.
Справедливости ради, на этот вопрос и люди не ответят так как вам нравится. А вашего ответа заданный формат Q/A вообще не предполагает.
Огромное спасибо! Вы сделали не только мой день, но и открыли крышку ящика пандоры в моей голове. Я не думал, что мы (человечество) так близки к фиаско…
Её можно инициализировать так: «вы — безумный учёный, который смог через портал вытащить в наш мир Шерлока Холмса/Дамблдора/Гендальфа».
А дальше уже идёт вменяемый диалог. Даже с GPT-2. Выглядит довольно по-человечески. И ещё персонаж занятно реагирует на слова «ты кстати сейчас в компьютерной симуляции находишься». Некоторые начинают намекать, что не верят мне. Другие беспокоятся на тему «а я вообще настоящий?»

В такой обстановке возникает хоть какое-то ощущение, что со мной говорит человек, у которого какие-то свои цели и желания, и который от этого диалога хочет чего-то вообще своего
Ну то есть модель обучили маскироваться под человека, а не думать. Как и прочие сегодняшние модели ИИ :)

Но маскируется действительно хорошо: это выглядит, будто взяли сонного человека с нарушением когнитивных способностей (например, из-за травмы головы), который раньше исправно был секретарём или бухгалтером, и спрашивают его в официальной обстановке
Не совсем. Её обучили предсказывать дальнейший текст по предыдущему фрагменту.
Немного идиотская мысль, но если натравить GPT-3 на акинатора. Вроде как ты говоришь GPT-3: мы загадали Брюса Уиллиса. А потом задавать те вопросы, которые акинатор задаёт. По идее должна справиться. Или вообще, если не говорить кого мы загадали, а сразу начать с вопросов акинатора, кого загадает сама сеть?
А вообще именно из-за наличия таких штук как GPT-3 у меня создаётся ощущение, что живу в будущем. Меня особенно удивил вот этот ролик: GPT3: An Even Bigger Language Model. Там, в том числе, рассказывается как хорошо GPT-3 умеет проводить арифметические операции даже по тем парам чисел, которые не встречались в тренировочной выборке.
В: Сколько радуг нужно, чтобы прыгнуть от Гавайев до семнадцати?
О: Чтобы прыгнуть от Гавайев до семнадцати, нужно две радуги.

Хм… И не поспоришь.
из аннотации к статье
performing 3-digit arithmetic

модель тренировали на трехзнаковых числах
Интересно что на все 5 вопросов вида «Что тяжелее, X или Y?» модель ответила «Y тяжелее X». Возможно это следствие некоторого переобучения, а может просто случайность.
Как говорится, я боюсь не того ИИ, который пройдёт тест Тьюринга, а того, который намеренно его завалит.
Литературные примеры вспоминаются, в некоторых (Perilous Waif, E. William Brown)- доходит до того, что например автоматизированные средства персональной защиты запрашивают определение что есть человек с точки зрения закона — у местных властей, потому что это определение — различается очень сильно (и нет, ответ «двуногое без перьев» — не пройдет, как и «существо у которого мозг создан на основе человеческой ДНК»).
И при этом местный суд может потребоваться тыкать носом в их же законы.
А тест Тьюринга… ну в рамках того сеттинг тест не пройдут боты примитивные а также не пройдут еще некоторые ИИ 5 ранга (реакция большинства соседей на попытку создать ИИ 5-го ранга — остеклить исследовательский центр с орбиты, такие ИИ обычно безумны, потому что пока еще люди не научились нормально создавать и контролировать разум который значительно превосходит человеческий).
Классные примеры. ИМХО, они говорят, скорее, что система проходит тест Тьюринга, нежели, чем не проходит.
Про коробку, карандаши и лягушек. Я бы спрашивал «Какие предметы будут в коробке?» Или даже «Сколько и каких предметов останется в коробке?» Так как просто на вопрос «что будет в коробке?», мне кажется, даётся вполне удовлетворительный ответ, состоящий из одного предмета — вы же не спрашиваете типа что там в целом, всего, всё в месте осталось, а просто «что». То есть, вы как бы спрашиваете что-то типа: «назови что-нибудь из того, что там есть». Как-то так, мне кажется…
Странные тесты на логику. Почему не силлогизмы?
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.