Российский разработчик виртуальных «собеседников», управляемых искусственным интеллектом, приступил к тестированию голосовых «помощников», которые могут прийти на смену операторам кол-центров. 

На сайтах крупных банков, операторов связи, строительных компаний и прочих организаций, оказывающих услуги множеству людей, все чаще можно увидеть «виртуальных консультантов». Они первыми встречают клиентов, пытаются понять их запросы, помогают решить проблемы. В компании «Наносемантика», разрабатывающей таких консультантов, их называют «инфами». 

«Наносемантика» развивает технологии и онлайн-сервисы, в основе которых лежит прямой диалог машины с человеком. На сегодняшний день инфы могут полностью обрабатывать около 60% запросов пользователей — это случаи, когда весь цикл от вопроса до решения проходит без участия консультанта-человека. Инфы «умны» и универсальны, что позволяет им справляться с проблемами пользователей практически любой сложности. Они также умеют распознавать ситуации, в которых не могут решить вопрос самостоятельно — в таком случае инф предлагает пользователю переключиться на оператора. 

Роботы-консультанты заменят операторов кол-центров. Рис: nanosemantics.ru

За перепиской между пользователем и инфом скрывается длинная цепочка взаимодействий. Сначала пользователь вводит реплику в специальное окно на сайте — виджет. Тот «упаковывает» реплику, прикрепляет к ней служебные данные и отправляет веб-сервису по особому протоколу, который защищен от потерь и утечек информации. Веб-сервис обрабатывает реплику — для того чтобы инф правильно отвечал на вопросы, из нее выделяется ее смысл. Затем веб-сервис составляет ответную реплику — по результатам смыслового анализа синтезируется наиболее подходящий ответ на основе шаблонов, заложенных в базе знаний инфа. Ответ также может содержать разнообразные данные, извлеченные из внутренних систем компании и других внешних источников. После этого веб-сервис передает ответную реплику и, наконец, виджет показывает ответ пользователю и переходит в режим ожидания новых реплик. На деле все это занимает доли секунды, как при самой обычной переписке в мессенджере между людьми.

Текстовые «виртуальные консультанты» уже стали чем-то привычным. Решения «Наносемантики» используют крупные банки, операторы, связи, ритейлеры и прочие заказчики. Теперь же разработчики решили расширить горизонты и выйти в новый сегмент — голосовых помощников.  

В августе «Наносемантика» начала тестирование своего первого голосового инфа, в котором разработки компании объединились с технологией распознавания речи Yandex SpeechKit. «Мы начали эксперименты с голосом довольно давно. К примеру, для нашей партнерской компании мы сделали движок, на котором работает их «домашний помощник-собеседник» — робот Lexy. Он воспринимает голосовые запросы пользователя. Сейчас же мы делаем корпоративное решение, которое позволяет реализовать такого «собеседника» в телефонном разговоре. Мы стали работать с «Яндексом» — они предоставили нам свой распознаватель речи, который показывает очень неплохие результаты. Хотя, конечно, нашим командам приходится тесно сотрудничать для улучшения качества распознавания запросов», — рассказал Sk.ru директор по технологиям «Лаборатории Наносемантика» Кирилл Зоркий.

Компания выпустила демо-версию продукта, которая эмулирует прием сообщения о страховом случае, ДТП. «Мы пытаемся зайти на страховой рынок с новым продуктом, потому что на сайте или в мобильных приложениях, где применимы текстовые «помощники», их клиенты очень редко с ними взаимодействуют, а вот инфы, которые могли бы принимать звонки от клиентов при страховых случаях и достаточно корректно отвечать, должны быть довольно востребованными. Во всяком случае, наше собственное исследование рынка показало, что такой продукт будет пользоваться спросом», — пояснила Sk.ru руководитель корпоративных продуктов «Лаборатории Наносемантика» Анна Зубкова.

С технической точки зрения работа текстового и голосового инфов различаются не сильно, объясняют в компании. «Наносемантика» работает со смыслами, и голос — просто еще один канал получения текста. Хотя, конечно,  у этого канала есть некоторое своеобразие, ведь люди говорят не так, как пишут. Соответственно, при разработке инфа необходимо учитывать этот момент.  

«К настоящему времени не создано ни одной совершенной системы распознавания голоса. Все они допускают большое количество ошибок. И нам приходится работать с их исправлением. Ошибки, которые допускают люди, когда пишут — опечатки, случайные замены слов автоисправлением, очень отличаются от ошибок, возникающих в результате особенностей произношения,  усугубляющихся несовершенством систем распознавания голоса», — рассказал Кирилл Зоркий

Пока «Наносемантика» тестирует свое решение и приглашает независимых людей — им предлагают набирать тестовый номер телефона и сообщить о ДТП. Одна из страховых организаций высказала серьезный интерес к этому решению, и в ближайшее время планируется начать тестовое внедрение. Каждый желающий может поучаствовать в тестировании, обратившись в «Наносемантику».

В идеале, для пользователя не будет никакой разницы, с кем он разговаривает — с живым оператором или инфом. Операторы кол-центров общаются с клиентами по определенным скриптам, и роботы могут выполнять точно такие же действия в такой же последовательности. Живой человек понимает свободную речь клиента. Робот — тоже может ее понять. 

«Особенность нашей технологии в том, что подстраиваться под робота, выстраивать речь определенным образом ненужно, как не надо нажимать «1, 2, 3, решетку», выслушивать очередную запись IVR (Interactive Voice Response — система предварительно записанных голосовых сообщений, Sk.ru). Клиент просто разговаривает о своей проблеме», — пояснила Анна Зубкова. 

Робот может принять столько обращений, сколько есть доступных телефонных каналов, подключенных к кол-центру. Это техническое ограничение гораздо проще и дешевле преодолеть, чем нанимать новых людей. Робота достаточно обучить один раз, тогда как каждого сотрудника кол-центра приходится обучать отдельно. Не нужно даже записывать и хранить звук, потому что разговоры в текстовом виде сохраняются автоматически, а это — существенная экономия на хранении данных. Устраняется и так называемый «человеческий фактор» — все разговоры ведутся в предсказуемом ключе. Не нужно думать о возможности нарушения скрипта оператором. 

В мире есть попытки создать подобные автоматические системы обработки голосовых запросов. Например, в России «голосовой консультант» работает в компании «Аэрофлот», в США — в компании Apple. Но пока они способны обрабатывать только узкоспециализированные запросы. 

В целом же, рынок подобных решений огромен. «Представьте себе любую компанию, у которой есть сотни тысяч розничных клиентов. В первую очередь, в инфах, в том числе и голосовых, заинтересованы именно они, — говорит Анна Зубкова. — Но средний и малый бизнес тоже найдет для себя возможность использования таких продуктов — эти решение станут доступными, распространяясь по модели подписки, уже к конце осени этого года. «Наносеманика» планирует запуск SaaS решения, ориентированного в начале на интернет-магазины. Это позволит небольшим предприятиям сократить число наемных работников, уменьшить потери заказов, увеличить их количество. Этот сервис должен стать большим подспорьем для предпринимателей». 

По мнению руководителя Робототехнического центра «Сколково» Альберта Ефимова, профессии, которые, по сути, играют роль человек-машинных интерфейсов  —  например, профессия оператора контактного центра — когда-нибудь исчезнут. Это произойдет вследствие создания систем искусственного интеллекта, способного общаться с человеком так, что последний не сможет отличить, с кем реально ведет диалог — с машиной или человеком. «Как любит повторять основатель компании Netscape Марк Андриссен, «Software eats the world». В целом, сейчас уже можно сказать, что если некую деятельность человека можно заменить программным обеспечением, то это — рано или поздно — будет заменено программным обеспечением, — уверен Альберт Ефимов. — Команда «Наносемантики» работает на переднем крае создания систем, ведущих естественный диалог с человеком на основе машинного обучения, став лидером в данном сегменте — количество уже внедренных решений компании достигает нескольких десятков. С учетом того, что русский язык — десятый по распространенности на Земле, то это, безусловно, многомиллиардный рынок».

Голосовой консультант «Наносемантики» работает из «облака», то есть, клиентам не требуется закупать дополнительное «железо» или ставить софт. Разработчики прогнозируют, что на «включение» роботов-консультантов в работу крупного заказчика будет требоваться два-три месяца. Это время нужно для формирования базы знаний для той области, в которой работает заказчик: робот «учится» понимать запросы клиентов и отвечать им именно так, как те ожидают услышать.