Pull to refresh

Comments 24

Выглядит как профанация. В контексте лимита на 12 фраз, боту надо всего лишь добавить заминки, чтобы дотянуть до финала без осмысленного общения.
Был временной лимит на диалог. Неоконченные диалоги не учитывались.
Теперь тест Трьюринга заключается в том, чтобы отличить человека, который притворяется роботом, от настоящего робота?
Да, в рамках конкретно этого зимнего конкурса мы с организаторами конференции остановились на таких условиях. Так ещё никто не делал, и в итоге оказалось довольно интересно и участникам, и волонтёрам.
Так а смысл-то этого упражнения вообще в чем? Тест Тьюринга должен отвечать на вопрос «достаточно ли эволюционировал робот», а не «достаточно ли деградировал человек».
Нет, по задумке Тьюринга его тест должен отвечать на вопрос «хорошо ли робот притворился человеком», а про эволюцию там ни слова нет.
Если к моменту создания очередного бота люди уже достаточно деградировали, то и тест будет пройден.
=> А если к моменту создания очередного бота люди вымрут от деградации, то и любые ответы сгодятся. Где-то тут прорыв в граничных условиях.
Скорее в логике.
На какие же вопросы будут эти ответы, если люди вымерли?
И кто тогда будет создавать очередного бота?
Любые вопросы. Боты будут создавать ботов. Да и какая разница кто? Об этом в тесте ни слова нет.
Ну, в тесте есть положение (он из этого и состоит), что человек должен оценивать разговор бота — похож ли он на человеческий.
А если люди вымрут, то Тест Тьюринга теряет смысл. А скорее, теряет смысл планета Земля, потому что смысл на ней генерируют и потребляют только люди. Ну, ещё немного подземные рептилоиды, конечно.
Ох в какие вы дебри лезете. А если на тот момент смысл будут потреблять не только люди? А если люди деградируют до уровня червей, то не теряет, по вашей логике. Это все же люди, и они потребляют смысл.
Я просто к тому, что тест про эволюцию роботов — справедливое замечание. Люди, конечно, могут подделываться под роботов, но тест не о том. Любой тест имеет границы применимости, в том числе когда о них даже не упоминается. Никому не приходит в голову тестировать самолет под водой например. Так и тут, незачем тестировать насколько люди деградировали, создатель теста подразумевал что люди не деградируют (в обозримом промежутке времени), а роботы эволюционируют (в том же промежутке). Да, об этом возможно нет ни слова в описании теста. Про аэроплан под водой или в космосе тоже нет слова в тестах на летные качества.
А еще можно спросить у волонтеров какой по их мнению процент проверяющих были ботами :)
Я делал, разбор тут. И думаю, что я далеко не первый, так как на нынешнем этапе развития ИИ чтобы человека спутать с ботом, человек должен притворяться ботом.
IMHO Натуральный бред, а не тест.
Можно написать 100 строк с готовыми ответами, сделать десяток if-else, и на данной выборке из 12 фраз, думаю за человека можно будет принять даже более 50%.

Такой «тьюринг тест» мой бот на psys.exe, который успешно мимикрировал под человека примерно по 20-30 минут чата на BBS еще в начале 90-х, прошел, думаю, на 90%.
Жив ваш бот у вас ещё? Интересно пообщаться.
BBS не поднят и модема дома нет.
Но вы можете посмотреть вот тут: archives.thebbs.org/ra75c.htm

Как минимум есть два варианта, правда оба с английским словарным запасом:
archives.thebbs.org/chat_doors_and_utils/psys.zip
archives.thebbs.org/chat_doors_and_utils/pgsysp.zip

Описание:
Psys is a `semi-intelligent' SysOp emulation.
Psys takes advantage of the unique aspect of SysOp chat mode that the user cannot tell who is actually typing on the SysOp side. Users are typically unable to tell the difference between Psys and the real SysOp for at least a few minutes. This comes in handy in several

Отдельный момент заключен в том, что psys работает в старом telnet-режиме, когда каждое нажатие клавиши сразу передается собеседнику. Таким образом видно «почерк» оппонента. Psys активно этим пользуется — совершает опечатки, которые затем исправляет. Замедляется или ускоряется, имитируя ручной ввод. Это в то время было вообще бомба.
Спасибо, интересно. Не думали оживить его в Телеграме?
Это ж не моя программа. Я был школьником, у меня была BBS, я написал русскоязычный LANG файл и посматривал потом логи, кто общался с моим виртуальным сисопом.
Рекорд — около 40 минут разговора. Но нужно учитывать, что эти разговоры были ночью, и по ту сторону был не исследователь а не очень опытный пользователь компьютера не очень сознательного возраста.

Я просто к тому, что по приведенным в статье примерам (12 фраз на разговор) совершенно не нужна какая-то нейросеть, ибо банальным if/else можно за пару часов накидать бота, который с вероятностью больше, чем 50% будет принят за человека.
Хотелось бы видеть в таком громко озвученном мероприятии более серьезную проверку и более интересные результаты, чтобы хоть как-то оценить работу команд.
мне кажется, или действительно авторы постера вдохновились классическим плакатом «Болтать — врагу помогать»?
image
есть такое произведение «Только человек» автор Плант Брайан, надо найти робота из 7 участников.
Это мой чатбот Волчица, который победил, выше дана ссылка на пообщаться chatbot.konvr.ru

Однако, хотелось бы больше данных про эффективность ботов.
Мне дали такие данные
===
Статистика распределилась следующим образом:
56% Бот
29% Человек
15% Незавершенных диалогов (если собеседник перестал писать по какой-либо причине)
===
33% получится, если не учитывать незавершенные диалоги.

Однако!
Хотелось бы видеть аналогичные данные про остальных ботов.
Они были хуже, но насколько?
Как же так — мои 33% опубликовали, а другие цифры? ЖДЕМ!

У меня было всего 62 диалога, а всего в конкурсе диалогов 640… Ничо си временно отстранили )
Но все хорошо, что хорошо кончается )

Тут www.facebook.com/eugene.trofimenko/posts/1953153544811206 выложено несколько диалогов, еще есть в ФБ постах позже
Там один из комментаторов подвёл итог:
Oleg Kolyamkin Хотели научить ботов говорить как люди, а научили людей говорить как боты.
==Любопытно, что ботам удалось притвориться человеком в 58% случаев==
-может, ошибка?
если это среднебольничное, то как это может быть больше, чем мои 33%?
Sign up to leave a comment.