Чем больше информации, тем лучше — в этом сомнений нет. Поэтому «жадные» до данных специалисты пытаются выжать всё возможное из доступных источников. Существующие базы, почта, социальные сети и СМИ — всё это уже традиционные источники, и большая часть информации в них представлена в виде текстов и букв. Обработка текста — это решённая проблема. Но первопроходцы не ищут лёгких путей. Ожидается, что следующая золотая жила откроется в видео.
Видео — действительно перспективный и заманчивый источник информации. Оно может рассказать многое об окружающем мире вообще и о потребителях в частности. Ежесекундно в мире генерируются терабайты видеоконтента, значительную часть которого поставляют камеры видеонаблюдения и ролики со смартфонов простых граждан всех стран, попадающие в социальные сети и на видеохостинги. На одном только YouTube каждую минуту прибавляется сто часов новых записей.
Тем не менее тот же YouTube с точки зрения полезной информации пока что представляет собой полный пустырь. А точнее, непаханое поле. Какие бы ценные кадры ни присутствовали в этих роликах, без специальных тегов или специально нанятых для просмотра сотрудников их не извлечь.
В последнее время, однако, растущие возможности машинного обучения привели к впечатляющему росту таких областей, как машинное зрение, распознавание речи и естественного языка, распознавание изображений. Интернет-гиганты — Google, Microsoft, Yahoo — используют эти технологии как в гаджетах (голосовые команды в игровых консолях и мобильных телефонах), так и в распознавании и классификации изображений в онлайн-галереях.
Согласно мнению генерального директора и основателя AlchemyAPI Эллиота Тернера, в некоторых отношениях с видео работать даже проще, нежели с изображениями. Там появляется временной контекст, содержащий дополнительные сведения, чего нельзя сказать о фотографиях. Он помогает самообучающимся системам понять, что происходит в кадре.
Разумеется, никто не собирается ограничиваться выяснением того, что происходит на Facebook или в YouTube. Розничные торговцы уже начали использовать видеоданные в своём бизнесе. Анализ видео помогает им определить, в каких магазинах сети идёт наиболее оживлённая торговля, где люди задерживаются, чтобы рассмотреть товар, а где проходят мимо. Некоторые даже размещают камеры на уровне глаз, чтобы определить, на каких товарах останавливается взгляд покупателя: это позволяет грамотнее размещать продукцию на стендах. Система распознавания может определить пол, возраст и расу, что помогает проводить таргетированные маркетинговые кампании.
Тепловая карта, показывающая распределение покупателей в торговом зале.Стив Рассел, генеральный директор компании Prism Skylabs, занимающейся видеоаналитикой, заметил, что её главная цель на сегодня — предоставить офлайновым магазинам то, что уже есть у электронных ритейлеров, — информацию о том, на что люди смотрят и что покупают в итоге. В компании Рассела используют революционные алгоритмы компьютерного зрения, которые способны вычленить людей даже из низкокачественной видеосъёмки. Если фиксировать достаточно данных с помощью видеокамер в магазине, то можно, например, избавить мерчандайзеров или управляющих от необходимости физически посещать торговые точки, чтобы проконтролировать расстановку товаров, своевременность установки рекламных стендов и т. п. Тем более что в любой уважающей себя точке видеокамер предостаточно хотя бы из соображений безопасности: остаётся только грамотно сохранить и использовать эту информацию.
Если учесть, что камеры нынче дёшевы, хранение данных тоже не составляет особой проблемы, а услуги компаний типа Prism Skylabs предоставляются через облачные сервисы, видео становится лакомым куском для самых разных задач — маркетинговых и не только. До конца ещё неизвестны все потенциальные возможности работы с видеозаписями. Однако уже на сегодня многие проблемы компьютерного зрения решены в немалой степени. И если есть обучающая выборка изображений, то компьютер можно научить делать необыкновенные вещи…