О том, почему в области компьютерного анализа наступило время оптимистов и как работает алгоритм определения лиц по фотографии, отделу науки «Газеты.Ru» рассказал Александр Ханин — генеральный директор компании «VisionLabs» — резидента Фонда «Сколково», — реализующей совместный с Facebook проект по доработке машинного обучения. 


Александр Ханин в Гиперкубе Сколково. 

 

— Почему вы решили заниматься разработками именно в области компьютерного зрения? 

— Будучи студентом МГТУ им. Баумана, я заинтересовался вопросом, почему роботы не могут видеть. Я начал читать литературу по этой теме, общаться с экспертами по поводу компьютерного зрения. Мне было любопытно, почему вся робототехника была уже изобретена, но при этом мозгов у роботов не было. Роботы не могли видеть окружающий мир, понимать его. Я понял, что компьютерное зрение — это многообещающая сфера.

— Расскажите, пожалуйста, о вашем первом проекте. 

— Мы начинали свой путь с распознавания автомобильных номеров. Это были технологии попроще, но тоже интересные и хорошо коммерциализируемые. Мы сделали прошивку, которая может работать внутри компактных устройств — я говорю об интеллекте и способности распознавать номера.

Благодаря нашей технологии камеры стоимостью в 5 тыс. рублей превратились в камеры стоимостью в 50-60 тыс. рублей. 

Эта прошивка «заставляла» шлагбаум открываться, если фамилия автовладельца была в списке. Наш проект использовался в некоторых коттеджных поселках, на платных парковках. Этой технологией пользуются сейчас некоторые аэропорты. Наш алгоритм «добрый» — он не штрафует людей, не наказывает никого, а просто упрощает пропуск на территорию. Таких систем на самом деле много. Но когда мы начинали, она была уникальной. У меня даже на подземном паркинге в доме стоит такая система — я подъезжаю, и камера сама открывает ворота.

— Что было дальше?

— Вскоре мы осознали, что рынок распознавания номеров ограничен. Одновременно с этим мы выиграли российский конкурс «Intel» и получили награду — поездку в Калифорнию, в университет Беркли.

Там нашей команде хорошо «промыли мозги» и сказали, как нужно действовать, чтобы прийти к тому направлению, которое будет наиболее перспективным и обеспечит заработный рост. В тот момент у нас была хорошая компетенция, но не было понимания, каким должен быть наш продукт.

Именно в Калифорнии мы поняли, что нашим продуктом будет система распознавания лиц клиентов. Мы решили, что лица будут распознавать любые камеры — даже самые бюджетные. 

— Каковы цели такого распознавания? 

— Приятно, когда вы приходите в ресторан и вас узнают в лицо. Приятно, когда по лицу вы получаете доступ в закрытое помещение. Наши конкуренты на тот момент были сфокусированы на сфере безопасности — как поймать террориста, как найти преступника по фотороботам… В сфере безопасности обычно не экономят на оборудовании, поэтому все привыкли, что камеры там очень дорогостоящие.

Когда мы общались с нашими будущими заказчиками — банками, отелями, сетевыми магазинами, нам дали понять, что если камера дороже ста рублей — это дорогая камера.

Поэтому мы осознали, что должны работать с любым, даже с самым убогим оборудованием. Также мы решили, что камерами должен уметь пользоваться любой сотрудник, даже со средним образованием.

Мы взяли общеизвестный детектор лиц – сейчас он есть в любом фотоаппарате и телефоне. Проект по «нахождению» лица может, в принципе, сейчас любой школьник выполнить…

— Как именно робот «находит лицо»?

— Объясню простым языком: фотография представляет собой набор яркостей. Для того, чтобы найти лицо, нужно посмотреть на перепады яркости. Нос, рот, глаза — это все перепады яркости. Собирается некий шаблон (маска), который проходит по всей картинке — и регистрируются отклики. Если то, что система видит на картинке, совпадает с шаблоном — значит, лицо найдено.

Наш алгоритм распознавания лиц более совершенный — он основан на сверточных нейронных сетях. Ведь лица могут быть разного размера в кадре и в разном фокусе.

Наша задача — привести лицо к стандартному размеру. Маленькие лица надо увеличить, слишком большие — уменьшить. 

Когда у нас лицо нормировано, мы можем оценить его параметры. Если фотография проходит контроль и качество на соответствие нашим условиям, значит, она пропускается дальше.

— А если нет?

— Если нет — мы говорим, что это лицо непригодно для распознавания. Но если лицо все-таки пригодно для распознавания, то мы применяем к этой картинке так называемые сверточные нейронные сети. Нейронная сеть — это набор математических преобразований – матричных умножений, понижения размерностей, нелинейностей… Каждое вырезанное лицо подвергается обработке. На выходе дается описание фотографии, дескриптор, который при сравнении с другими дескрипторами того же человека выяснит, что степень схожести высокая. Если разная — то результат сравнения будет разным. То есть у заказчиков есть как минимум одна фотография для распознавания.

А вообще, обычно у заказчиков есть база лиц — например, сотрудников, которым можно входить в систему. Либо тех, кто брал раньше кредиты в банке. Наш алгоритм натренирован на огромной базе фотографий наших партнеров и заказчиков.

— На «Facebook» действует такая же система?

— На «Facebook» такая же технология, как у нас — только совершенней. Там тоже используются нейронные сети. На «Facebook» каждый день миллионы людей отмечает на фотографиях своих супругов, друзей, одногруппников. И у сайта есть уже возможность распознавать лица на фотографиях автоматически. Вы загружаете фото, и «Facebook» спрашивает: «Это вы? Это ваши друзья?».

— Бывает, что ваши технологии допускают ошибки?

— Они практически никогда не ошибаются. Сейчас машина превосходит человека по скорости и возможностям распознавания лиц. 

Роботы могут распознавать несколько десятков миллионов лиц в секунду!

— Одним из самых важных применений компьютерного зрения является обработка изображений в медицине. Хотели бы вы в будущем работать в этой сфере?

— В этой сфере работает достаточно много научных групп. Рынок там действительно большой, но в медицине уже очень много решенных задач. Эта сфера не очень интересна с точки зрения бизнеса, она — не голубой океан. А вот распознавание лиц клиентов — это голубой океан!

Потому что пока в этой области нет решений, которые бы хорошо работали. А если мы научимся распознавать лицо человека в любых условиях, где бы он ни появился — это откроет массу новых возможностей! Например, это выведет общение бизнеса и клиентов на совершенно новый уровень! Вас помнят в лицо, ваше лицо — это как паспорт, который не нужно носить с собой.

Но нельзя забывать, что легко сделать хорошую технологию распознавания лиц. Сложно сделать лучшую. А сейчас заказчики выбирают именно самые лучшие.

— Некоторые люди опасаются, что создание дополненной реальности однажды приведет к «восстанию машин» (как мы часто видим в фильмах). Как бы вы им объяснили, что разработки в области компьютерного зрения — это важно и полезно?

— Точно такие же опасения были, когда появлялись автомобили. Все боялись, что машина — это опасное средство. Даже скорость 5 км/час считалась опасной. Но, тем не менее, произошла революция, и сейчас мы не можем представить жизнь без автомобилей.

То же самое было с сотовыми телефонами – люди переживали, что их прослушивают, или что есть какое-то излучение, действующее на мозг. 

Но сейчас мы не можем обходиться без мобильных телефонов!

То же самое будет с технологией распознавания лиц, роботами, искусственным интеллектом! В один момент они станут привычными вещами. А мы по-прежнему будем выступать создателями технологий. Мы будет контролировать все машины — не наоборот. Ведь главное, чтобы хозяева технологий не замыслили ничего плохого. Тогда и машины будут добрыми и послушными.

Задача создания компьютерного зрения эквивалентна по сложности задаче создания искусственного интеллекта. Если бы проект «Google Glass» состоялся — вы могли бы прийти на вечеринку или совещание, и машина сообщала бы вам, кого из присутствующих как зовут. Потому что физически помнить все имена просто невозможно.

— Вы верите в создание искусственного интеллекта? 

— Сейчас машина распознает лица намного лучше, чем человек — и в миллионы раз быстрее.

Поэтому я настроен достаточно оптимистично по поводу создания искусственного интеллекта.

Глядя на нашу же команду, мы видим, какими темпами наша технология эволюционирует. Мы за год иногда успеваем выпустить до 30 промежуточных версий нашей технологии — то есть 30 раз существенно модифицируем алгоритм. И это приводит к росту качества. Поэтому, мне кажется, в сфере компьютерного анализа наступило время оптимистов, а не пессимистов. Мы сейчас в «Сколково» передаем свои технологии распознавания лиц командам, которые занимаются робототехникой. И роботы запоминают своих хозяев, тех людей, с которыми они общались, тех людей, которые к ним просто подходили.

— Расскажите, пожалуйста, кто является вашими главными клиентами. 

— Банки и кредитные бюро. Мы в основном ориентируемся на распознавание клиентов в кредитном процессе. Также мы ведем переговоры с розничными сетями, отелями и ресторанами. Уже подписаны контракты с некоторыми торговыми сетями, которые используют распознавание лиц для того, чтобы «видеть» постоянных клиентов. Наша система работает еще для того, чтобы выявлять людей, которые раньше были пойманы на воровстве. Мелких воров обычно фотографируют и вешают на «доску позора» как общественное порицание. Но эти снимки можно использовать для того, чтобы охранники знали: в магазин вошел человек, ранее пытавшийся что-то вынести из магазина без оплаты.

— Не боитесь, что в будущем вы столкнетесь с этическими вопросами? Ведь не все люди хотят, чтобы их «распознавали».

— Обычно те, кому нечего скрывать, не имеют ничего против наших систем. Те, кому есть, что скрывать — опасаются.

А вообще, если бояться, что наша приватность будет нарушена, то нам следует избавиться от телефонов — ведь в любой момент времени сотовые операторы знают, где мы и с кем мы находимся. Но все-таки сотовая связь приносит больше пользы, чем зла! То же самое с распознаванием лиц. Это инструмент, который перевернет мир. Не нужно будет думать о паролях, пропусках, скидочных картах. Этические вопросы могут возникать, но 99 % людей выступают за то, чтобы использовать такую технологию.

— Вы проводили опрос?

— Да — и в России, и в США. Старшее поколение, как правило, боится компьютерного зрения — в отличие от молодежи. Для молодежи это технологическая фишка! В какой банк вы пойдете — в тот, где ваши деньги защищены биометрическими способами, где только вы можете снять деньги, или в тот, где любой злоумышленник может прийти и с фальшивым паспортом забрать ваш депозит? Ответ очевиден.

От компьютерного зрения больше пользы, чем негатива. 

— Однажды вы сказали, что в России работать намного интереснее, чем на Западе. Что именно вы имели в виду? И все-таки, вы никогда не жалели, что остались в Москве? Возможно, за границей вы добились бы большего успеха...

— Я не жалею, что остался в Москве, хотя, конечно, проще всего было бы взять и уехать. Но если мыслить стратегически — в России больше возможностей. Больше сфер, которые еще не очень развиты. И меньше конкуренция! Сейчас в нашей стране — время возможностей, время перемен. У компаний есть прекрасные шансы вырасти до очень серьезных размеров!

И в России работать действительно намного интересней, чем где-то еще. В Европе люди более консервативны, чем у нас. Там если вы придете и скажете, что технологии, служившие в течение 10 лет, устарели, и пора переходить на новые — европейцы не поменяют их быстро, даже если будут видеть выгоды. Потому что они привыкли к старым технологиям.

В США очень высокая конкуренция, но работать там тоже хорошо.

Об успехах компании VisionLabs рассказывает и Игорь Богачев, вице-президент, исполнительный директор ИТ Кластера Фонда «Сколково»: «Компания создала действительно инновационную технологию, высоко оцененную независимыми экспертами от науки и бизнеса, входящими в экспертную панель Фонда «Сколково». Также проект успешно прошел испытания в специальной лаборатории University of Massachusetts — Labeled Faces in the Wild. Важно отметить, что ключевые партнеры «Сколково», такие, как, например, SAP и Техносерв, рассматривают сейчас возможность интеграции технологии «VisionLabs» в свои проекты, причем не только в России.

Ну и главное: рынок голосует кошельком, по моей информации, за 2015 год у компании появилось множество клиентов, например, банков и розничных сетей, которые взяли технологию распознавания лиц на вооружение.

Секрет успеха компании, казалось бы, прост и хорошо известен: прекрасные мозги, отличная школа и опыт в продвижении продуктов на рынок. Это на самом деле пока редкое, но крайне важное сочетание компетенций для любого стартапа. В данном случае опыт МГТУ имени Баумана, КРОК, других компаний. Чаще видишь прекрасные фундаментальные знания и отсутствие понимания и навыков коммерциализации, либо наоборот: желание заработать при отсутствии конкурентоспособного продукта».

    

Источник: gazeta.ru