stanislav_as Feb 20 2019 at 14:19

Чем завершился 3-ий Тест Тьюринга: статистика, интересные диалоги и общее впечатление

5 min

9.1K

Наносемантика corporate blogProgramming*HackathonMachine learning*Artificial Intelligence

Comments 24

amarao Feb 20 2019 at 14:27

Выглядит как профанация. В контексте лимита на 12 фраз, боту надо всего лишь добавить заминки, чтобы дотянуть до финала без осмысленного общения.

stanislav_as Feb 20 2019 at 14:37

Был временной лимит на диалог. Неоконченные диалоги не учитывались.

UnhappyPanda Feb 20 2019 at 14:52

Теперь тест Трьюринга заключается в том, чтобы отличить человека, который притворяется роботом, от настоящего робота?

stanislav_as Feb 20 2019 at 14:55

Да, в рамках конкретно этого зимнего конкурса мы с организаторами конференции остановились на таких условиях. Так ещё никто не делал, и в итоге оказалось довольно интересно и участникам, и волонтёрам.

UnhappyPanda Feb 20 2019 at 14:59

Так а смысл-то этого упражнения вообще в чем? Тест Тьюринга должен отвечать на вопрос «достаточно ли эволюционировал робот», а не «достаточно ли деградировал человек».

+10

Ashmanov Feb 20 2019 at 19:28

Нет, по задумке Тьюринга его тест должен отвечать на вопрос «хорошо ли робот притворился человеком», а про эволюцию там ни слова нет.
Если к моменту создания очередного бота люди уже достаточно деградировали, то и тест будет пройден.

xitt Feb 20 2019 at 20:11

=> А если к моменту создания очередного бота люди вымрут от деградации, то и любые ответы сгодятся. Где-то тут прорыв в граничных условиях.

Ashmanov Feb 20 2019 at 20:28

Скорее в логике.
На какие же вопросы будут эти ответы, если люди вымерли?
И кто тогда будет создавать очередного бота?

xitt Feb 21 2019 at 06:17

Любые вопросы. Боты будут создавать ботов. Да и какая разница кто? Об этом в тесте ни слова нет.

Ashmanov Feb 21 2019 at 08:08

Ну, в тесте есть положение (он из этого и состоит), что человек должен оценивать разговор бота — похож ли он на человеческий.
А если люди вымрут, то Тест Тьюринга теряет смысл. А скорее, теряет смысл планета Земля, потому что смысл на ней генерируют и потребляют только люди. Ну, ещё немного подземные рептилоиды, конечно.

xitt Feb 21 2019 at 14:53

Ох в какие вы дебри лезете. А если на тот момент смысл будут потреблять не только люди? А если люди деградируют до уровня червей, то не теряет, по вашей логике. Это все же люди, и они потребляют смысл.

xitt Feb 21 2019 at 18:28

Я просто к тому, что тест про эволюцию роботов — справедливое замечание. Люди, конечно, могут подделываться под роботов, но тест не о том. Любой тест имеет границы применимости, в том числе когда о них даже не упоминается. Никому не приходит в голову тестировать самолет под водой например. Так и тут, незачем тестировать насколько люди деградировали, создатель теста подразумевал что люди не деградируют (в обозримом промежутке времени), а роботы эволюционируют (в том же промежутке). Да, об этом возможно нет ни слова в описании теста. Про аэроплан под водой или в космосе тоже нет слова в тестах на летные качества.

Slav2 Feb 22 2019 at 16:06

А еще можно спросить у волонтеров какой по их мнению процент проверяющих были ботами :)

sshmakov Feb 21 2019 at 06:09

Я делал, разбор тут. И думаю, что я далеко не первый, так как на нынешнем этапе развития ИИ чтобы человека спутать с ботом, человек должен притворяться ботом.

saboteur_kiev Feb 20 2019 at 20:16

IMHO Натуральный бред, а не тест.
Можно написать 100 строк с готовыми ответами, сделать десяток if-else, и на данной выборке из 12 фраз, думаю за человека можно будет принять даже более 50%.

Такой «тьюринг тест» мой бот на psys.exe, который успешно мимикрировал под человека примерно по 20-30 минут чата на BBS еще в начале 90-х, прошел, думаю, на 90%.

stanislav_as Feb 21 2019 at 00:00

Жив ваш бот у вас ещё? Интересно пообщаться.

-1

saboteur_kiev Feb 21 2019 at 14:47

BBS не поднят и модема дома нет.
Но вы можете посмотреть вот тут: archives.thebbs.org/ra75c.htm

Как минимум есть два варианта, правда оба с английским словарным запасом:
archives.thebbs.org/chat_doors_and_utils/psys.zip
archives.thebbs.org/chat_doors_and_utils/pgsysp.zip

Описание:
Psys is a `semi-intelligent' SysOp emulation.
Psys takes advantage of the unique aspect of SysOp chat mode that the user cannot tell who is actually typing on the SysOp side. Users are typically unable to tell the difference between Psys and the real SysOp for at least a few minutes. This comes in handy in several

Отдельный момент заключен в том, что psys работает в старом telnet-режиме, когда каждое нажатие клавиши сразу передается собеседнику. Таким образом видно «почерк» оппонента. Psys активно этим пользуется — совершает опечатки, которые затем исправляет. Замедляется или ускоряется, имитируя ручной ввод. Это в то время было вообще бомба.

stanislav_as Feb 22 2019 at 16:06

Спасибо, интересно. Не думали оживить его в Телеграме?

saboteur_kiev Feb 22 2019 at 19:44

Это ж не моя программа. Я был школьником, у меня была BBS, я написал русскоязычный LANG файл и посматривал потом логи, кто общался с моим виртуальным сисопом.
Рекорд — около 40 минут разговора. Но нужно учитывать, что эти разговоры были ночью, и по ту сторону был не исследователь а не очень опытный пользователь компьютера не очень сознательного возраста.

Я просто к тому, что по приведенным в статье примерам (12 фраз на разговор) совершенно не нужна какая-то нейросеть, ибо банальным if/else можно за пару часов накидать бота, который с вероятностью больше, чем 50% будет принят за человека.
Хотелось бы видеть в таком громко озвученном мероприятии более серьезную проверку и более интересные результаты, чтобы хоть как-то оценить работу команд.

yurash Feb 21 2019 at 12:44

мне кажется, или действительно авторы постера вдохновились классическим плакатом «Болтать — врагу помогать»?

nafnaf21 Feb 22 2019 at 16:06

есть такое произведение «Только человек» автор Плант Брайан, надо найти робота из 7 участников.

euhenio Feb 21 2019 at 21:06

Это мой чатбот Волчица, который победил, выше дана ссылка на пообщаться chatbot.konvr.ru

Однако, хотелось бы больше данных про эффективность ботов.
Мне дали такие данные
===
Статистика распределилась следующим образом:
56% Бот
29% Человек
15% Незавершенных диалогов (если собеседник перестал писать по какой-либо причине)
===
33% получится, если не учитывать незавершенные диалоги.

Однако!
Хотелось бы видеть аналогичные данные про остальных ботов.
Они были хуже, но насколько?
Как же так — мои 33% опубликовали, а другие цифры? ЖДЕМ!

У меня было всего 62 диалога, а всего в конкурсе диалогов 640… Ничо си временно отстранили )
Но все хорошо, что хорошо кончается )

Тут www.facebook.com/eugene.trofimenko/posts/1953153544811206 выложено несколько диалогов, еще есть в ФБ постах позже

sshmakov Feb 22 2019 at 22:51

Там один из комментаторов подвёл итог:

Oleg Kolyamkin Хотели научить ботов говорить как люди, а научили людей говорить как боты.

euhenio Feb 21 2019 at 21:53

==Любопытно, что ботам удалось притвориться человеком в 58% случаев==
-может, ошибка?
если это среднебольничное, то как это может быть больше, чем мои 33%?