Команда сколковской компании «ЦРТ-инновации» заняла третье место на крупнейшей мировой конференции по речевым технологиям INTERSPEECH в Хайдерабаде, где были представлены результаты международного конкурса по распознаванию речи the 5th CHiME Speech Separation and Recognition Challenge (CHiME-5).

«Как у других научных челленджей, задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. В этом году мы как раз решали самую сложную из них, — рассказывает директор НИД ЦРТ Кирилл Левин. — По итогам участники выступают на конференции с докладами по своим решениям. Так что это не только шанс поломать голову и похвастаться результатом, но и обменяться опытом с коллегами и вместе с ними приблизиться к решению задачи, над которой человечество бьется уже много лет».

Команда компании «ЦРТ-инновации», призер конференции в Хайдерабаде. Фото: «ЦРТ-инновации»

Резидент Фонда «Сколково» «ЦРТ-инновации» (Группа компаний ЦРТ) — научно-исследовательская компания, разработчик передовых решений на основе собственных технологий в области биометрии по лицу и голосу, распознавания речи, искусственного интеллекта, машинного обучения и анализа больших данных.

Каждый год организаторы конференции предлагают участникам разные задания. Распознавание речи с близко расположенных микрофонов, таких, как гарнитура или телефон, уже показывает хорошие результаты — IT-гиганты отчитываются о достижении «человеческого» уровня точности. При этом распознавание с дальней и средней дистанции (больше 1 метра) пока дает гораздо больше ошибок. Поэтому в нынешнем году конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Сложность распознавания в таких условиях вызвана тем, что одновременно говорит до четырех человек, а также реверберация и интенсивный шум – звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.

Цель участников — создать систему распознавания, которая прослушает записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда Группы ЦРТ смогла улучшить показатели базовой системы, предоставленной организаторами, и повысить точность распознавания с 26.7% до 44.5%. Для этого был создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных спикеров, определяющий моменты наложения речи, реализующий нейробимформинг (эффект направленного микрофона) и непосредственно распознающий речь.

«Когда мы научимся качественно распознавать речь разных спикеров, еще и перебиваемую шумами, речевые технологии выйдут на новый уровень. А голосовые ассистенты и умные колонки выйдут из разряда инновационных игрушек и станут нашими повседневными помощниками», — комментирует Кирилл Левин.

В этом году в конкурсе участвовали научные команды со всего мира, среди которых технологические компании ASUS, Hitachi, Lenovo, Toshiba и крупные университеты - лидеры в области речевых технологий: Рейнско-Вестфальский технический университет Аахена, Университет Падерборна, Университет Джонса Хопкинса.

Победителем стала совместная команда китайской компании iFlytek, крупнейшего разработчика систем синтеза и распознавания китайской речи, и Научно-Технического университета Китайской академии наук.