На взгляд робота // КУДА НАС ЗАВЕДЁТ ЭВОЛЮЦИЯ КОМПЬЮТЕРНОГО ЗРЕНИЯ

Благодаря развитию компьютерного зрения машины стремительно обретают фантастические способности. Они ориентируются в пространстве, узнают предметы, понимают смысл изображений, рисуют картины, создают трёхмерные модели и карты. О том, каким будет мир виртуальной реальности и прозревших роботов, мы поговорили с Виктором Лемпицким, руководителем группы компьютерного зрения в Сколтехе.

Забавно наблюдать за движениями человека в очках виртуальной реальности, но куда забавнее самому быть этим человеком. Я расхаживаю по лаборатории компьютерного зрения в VR-очках, принимая разные позы: то присяду, то наклонюсь, то хитро изогнусь, пытаясь обмануть систему. Но система не поддаётся. Рисованный трёхмерный мир вокруг меня остаётся неподвижным, словно я и впрямь переместился в мультяшное пространство. Благодаря картинке-маркеру на полу лаборатории смартфон внутри очков безошибочно ориентируется и контролирует своё местоположение даже не в трёх, а в шести измерениях: есть три степени свободы для координат в пространстве и ещё три — для наклонов и поворотов.

— Определение местоположения — одна из ключевых задач машинного зрения, — объясняет Виктор Лемпицкий, когда я снимаю очки. — Это важно не только для конструирования виртуальной реальности, но и в целом для робототехники, для автономных автомобилей. Или, например, для того чтобы определять положение камеры, снимающей сцену, создавать трёхмерные конфигурации.

[Кот Шрёдингера] Компьютерное зрение — это целая прикладная наука.

[Виктор Лемпицкий] Да, и все уже привыкли к мысли, что её задача — научить машину извлекать информацию из картинок. Например, мы помогаем биологам в обработке потока изображений, поступающих с микроскопа,— это совместный проект с MIT. По этим картинкам можно получить самую разную статистику: количество клеток, их размеры, родство.

Но в последнее время мы всё чаще задумываемся о другой задаче: как генерировать картинки? Дисциплина, которая называлась компьютерной графикой, сейчас трансформируется под влиянием стремительного прогресса в машинном обучении. Раньше компьютерные изображения создавали люди, а теперь машины.

[КШ] Что же они создают?

[ВЛ] Вы наверняка видели Prizma— приложение, которое перерисовывает фотографии в стилистике того или иного художника. Мы, кстати, аналог такого приложения сделали до Prizma и даже выложили его код в публичный доступ.

А ещё мы, например, создали технологию для перенаправления взгляда людей, изображённых на фотографии или любой другой картинке: они могут смотреть, куда вы захотите. Мы с «Медузой» запустили в Telegram бот — присылаете ему фото, всё остальное нейросеть делает сама.

[КШ] Как её этому обучали?

[ВЛ] Как обычно: показывали много пар глаз с идентифицированным направлением взгляда. Для этого, конечно, нам пришлось сначала помучить студентов, да и самим помучиться — снимая людей, которые следили за точкой на экране.

Восстание нейросетей

[ВЛ] В последние годы в области компьютерного зрения произошла настоящая революция — такие бывают не чаще чем раз в полвека. Свёрточные нейросети в виде, близком к современному, возникли в конце 1980-х. Но лишь в нашем веке появились необходимые для революции компьютерные мощности вроде графических процессоров. А также большие данные, в частности выборки размеченных изображений вроде ImageNet, на которых нейросеть можно обучать.

Очень важные изменения произошли в науке в целом. Так, гораздо популярнее стало открытое программное обеспечение, появилась целая культура открытого кодирования. В результате радикально сократилось время с момента, когда что-то придумано, до момента, когда это могут воспроизвести другие. И научные публикации теперь почти сразу выкладываются в свободный доступ на сайт Arxiv.org, а раньше, чтобы узнать о достижениях коллег, приходилось дожидаться ближайшей крупной конференции, которая могла быть через полгода.

Эти процессы здорово ускорили эволюцию технологий. Раньше мы узнавали новости на конференциях, теперь они мгновенно разносятся Фейсбуком и Твиттером. И на конференции все собираются, зная, кто что сделал. Это важнейший, не побоюсь этого слова, гносеологический сдвиг, который кардинально ускорил процесс научного познания и прогресса в самых разных исследовательских областях. В итоге работать стало гораздо интереснее, но делать это приходится намного интенсивнее, в атмосфере настоящей научной гонки.

[КШ] Революция уже произошла, она в самом разгаре или только начинается?

[ВЛ] Не знаю. Это как если б вы жили в 1918-м и кто-то спросил, закончилась ли революция. Такие вещи можно увидеть только из будущего. К тому же сейчас людей трудно удивить чем-то новым, вызвать вау-эффект. Все слишком привыкли к прорывам, которые следуют один за другим.

[КШ] Ну а где мы можем увидеть плоды этой революции, кроме как в новых айфонах, распознающих хозяина по фотографии?

[ВЛ] Возьмите поиск по изображениям в Гугле или Яндексе. Никакого сравнения с тем, что было пять лет назад! А когда вы загружаете изображения в Фейсбук, соцсеть распознаёт на них лица ваших друзей.

[КШ] С распознаванием объектов строго определённого типа всё понятно, а насколько нейросети в целом способны понять, что изображено на картинке?

[ВЛ] Пока нейросети не могут распознать нюансы и оттенки смысла, понять юмор или настроение, оценить изящество композиции и оригинальность сюжета. Зато объекты, изображённые на картинке, нейросети определяют не хуже людей. Это и есть основной результат случившейся революции.

Робот учит сам себя

[КШ] Как будет эволюционировать дальше компьютерное зрение, чего ему не хватает в первую очередь?

[ВЛ] Нейросети значительно хуже людей распознают действия на видео. Отчасти из-за того, что очень тяжело вручную разметить огромное количество обучающих видеороликов. Для обозначения многих действий и жестов и слов-то не существует, эти процессы сложно раздробить на отдельные понятия. В области 3D-карт улиц и помещений, других 3D-моделей пространства радикального прорыва тоже пока не было.

Ну и, конечно, большая область, о которой мы с вами уже начинали говорить, — это создание нейросетью изображений. Распознавание и создание картинок — связанные друг с другом процессы. Если мы умеем генерировать изображения, то можем сделать нужное их количество для обучения распознающей сети. В Apple, например, так нарабатывали обучающие данные для модуля, который отслеживает взгляд. И наоборот, если машина хорошо определяет образы, то распознающая сеть может оценить, насколько реалистичными получились объекты у генерирующей сети. Это так называемый принцип противоборствующих сетей — целая область в машинном обучении.

[КШ] Странно звучит: машина генерирует данные, потом на них же и учится. Недавно было сообщение о новой версии AlfaGo — она училась уже не на реальных партиях, а просто играла в го сама с собой и в итоге намного превзошла предшественницу.

[ВЛ] Да, это очень популярное нынче направление. За последний год технологии компьютерного зрения тоже продвинулись в этом направлении. Всё чаще используется обучение на синтетических данных. Или вот ещё очень популярная задача — обучение со смещением без учителя. Это ситуация, когда есть два набора данных для обучения: один сгенерирован машиной и подробно размечен, другой взят из реальной практики, но не размечен. С помощью этих двух наборов нужно обучить нейросеть. Мы тоже занимаемся этой темой — пытаемся понять, как лучше сделать.

Жизнь в виртуальном мире

[КШ] Чего вы ждёте в ближайшем будущем от развития технологий компьютерного зрения?

[ВЛ] Скоро они станут обыденным явлением, тем, что в англоязычном мире называют commodity—"продукт потребления". Мы ожидаем, что компьютеры научатся не только видеть происходящее, но и понимать, что именно они видят. А при необходимости — менять изображение. Вы смотрели видеоролик, где речь Обамы сгенерирована машиной и он произносит то, чего в реальности не говорил? Мы привыкнем к тому, что не надо доверять всему, что видишь своими глазами и слышишь своими ушами.

[КШ] Надеюсь, будет и такая нейросеть, которая сможет отделить правду от вымысла...

[ВЛ] Это будет ещё одна гонка брони и снаряда. Другой важной чертой будущего станет обретение роботами зрения — это нужно не только для ориентации в пространстве, но и для манипуляций с предметами. Ну и, конечно, автономный транспорт — одно из ключевых применений компьютерного зрения.

[КШ] У вас нет ощущения, что вы приближаете антиутопию — общество тотального контроля?

[ВЛ] Думаю, что компьютерное зрение здесь далеко не главное. Гораздо важнее контроль за потоками данных с вашего компьютера и смартфона — он, этот контроль, уже есть, и довольно серьёзный. Да и вообще не в технологиях дело — вон в Англии везде понатыканы камеры, система скоординированного наблюдения отлажена очень неплохо, но разве это делает британское общество таким уж несвободным? Дело тут точно не в компьютерном зрении, а в том, как эта информация используется.

[КШ] А как насчёт другой страшилки — что всё будут делать роботы, а мы уйдём в виртуальные миры?

[ВЛ] Прежде говорили, что поколение наших родителей уйдёт в телевизор, наше — в мир компьютерных игр, следующее — в смартфоны. Сейчас взрослые опасаются, что молодёжь растворится в виртуальной реальности. Но я склонен согласиться с историком-медиевистом Ювалем Харари, который в книге Sapiens очень убедительно показывает, что жизнь в виртуальном мире — это не новейший сдвиг по фазе, а базовое свойство человека, можно сказать, то, что делает нас Homo sapiens.

Источник: kot.sh