Создатель бота «Евгений Густман» Владимир Веселов ответил «научной общественности»

Компьютерной программе «Евгений Густман», созданной группой разработчиков под руководством российского программиста Владимира Веселова, удалось «прикинуться человеком» и пройти тест Тьюринга. Новость об этом облетела мировые СМИ на прошлой неделе. Но далеко не все позитивно встретили известие о преодолении важной вехи: некоторые журналисты и представители научного сообщества скептически отозвались о достижении «одесского мальчика», роль которого исполняла программа.

Снимок экрана домашней страницы чатбота "Евгений Густман".

О том, как проходило испытание чатбота «Евгений Густман», Sk.ru подробно рассказывал со слов непосредственного участника этого события. Команда ученых-организаторов теста под руководством профессора Кевина Варвика и его ассистента Хумы Шан собрала судей (30 человек, поделенных на 4 смены) и «скрытых людей», которые должны были вести диалог с пятью чатботами, которые общались на английском языке. Программа, созданная Владимиром Веселовым и его коллегами, смогла ввести в заблуждение ровно треть всех судей — то есть, преодолеть тот самый 30% барьер, установленный математиком Аланом Тьюрингом более полувека назад.

Сенсационные заголовки в СМИ быстро сменились рассуждениями, касающимися, прежде всего, условий теста. В частности, автор Financial Times Изабелла Каминска (Izabella Kaminska) в своей заметке указала на имеющиеся разночтения. Формально успех бота «Евгений Густман» не может говорить о прогрессе в создании искусственного интеллекта, уверена автор. Все зависит от конкретной интерпретации идей Тьюринга.

«С одной стороны, Тьюринг указал, что программа должна быть в состоянии одурачить среднего собеседника. Но профессор Имперского колледжа Лондона Мюррей Шанахан (Murray Shanahan) считает, что небольшого числа судей, участвующих в тесте, недостаточно, чтобы в совокупности представить этого самого «средний собеседника», — написала Изабелла Каминска.

Вопрос: почему боту «Евгений Густман» удалось пройти тест при равных со всеми условиях с лучшим результатом? «Он всего лишь пытался имитировать 13-летнего украинского мальчика. Это само по себе дало программе преимущество – судьи могли списать неуклюжие ответы и языковые ошибки на неопытность подростка», — рассуждает автор FT.

Сам факт того, что чатбот может обмануть профессиональное жюри, впечатляет, признает автор заметки. «Но считать это серьезным прорывом — значит не понимать первоначального намерения Тьюринга: отслеживать процесс эволюции компьютеров в мыслящие машины, способные создавать свои идеи помимо тех, которые были в них вложены. Кроме того, тут не учитываются достижения ранних чатботов и программ, которые добивались подобных успехов».

Владимир Веселов в интервью Sk.ru ответил на изложенные в заметке автора FT рассуждения.

«Непонятны сомнения автора по поводу теста Тьюринга. Почему 30 судей — недостаточно? Сам Тьюринг по этому поводу ничего не говорил. С точки зрения статистики эксперимента, 30 — вполне достаточно. Почему робот не может изображать 13-летнего мальчика? Тьюринг про это тоже не писал. Ну как мы могли бы описать американца или англичанина, если мы там не жили, не работали. Главное — создать целостный характер, чтобы все фразы поддерживали образ. А для этого нужно кропотливо работать, тестировать, смотреть логи робота», — пояснил программист.

В качестве примера еще одного впечатляющего, но тоже неоднозначного достижения развития «интеллекта» в машинах в FT приводится победа IBM Watson в игре Jeopardy!

«Watson — это, конечно, замечательный проект, но никакого отношения к тесту Тьюринга он не имеет, — ответил Владимир Веселов. — Вообще, меня смущают эксперименты, которые организуются и проводятся только для одного участника. К сожалению, то, что сейчас происходит с наукой, больше напоминает шоу. В этом плане тесты Лобнера и Тьюринга хороши тем, что каждый может принять в них участие: правила определены заранее и для всех одинаковы».

Что касается негативных отзывов о способностях «Евгения Густмана», то к ним Евгений Веселов относится спокойно. «Думаю, «научная общественность» возмущена, потому что небольшая группа разработчиков просто проявила больше старания и таланта в написании базы знаний, чем солидные компании и «правильные» академики. А затем, в свободное от основной работы время, смотрела логи общения с пользователем и исправляла ошибки в этой базе знаний».

Впрочем, никто не говорит, что можно останавливаться на достигнутом. Владимир Веселов поделился своими мыслями о том, что необходимо делать для развития возможностей диалога человеком-машина:

— Для создания человеко-подобного диалога нужны не только программисты и ученые, но и писатели, и психологи.
— Нужно трудиться больше, повысить планку для прохождения теста Тьюринга, хотя формально, это будет уже не тест Тьюринга, а его модификация
— Есть много исследований по поводу представления знаний, извлечения их из текстов, чатов, и прочего. Можно создать говорящий справочник. Но задача агрегирования такой информации, формирования мнений, суждений, «осмысления» информации и формирования фраз, построения диалога — такая задача еще не решена.
— Молодое поколение программистов в России нужно мотивировать и «продвигать». Поэтому нужно проводить больше открытых конкурсов и соревнований.

Так что, есть куда двигаться.

наука it mainpost ru статья Тест Тьюринга