Общеизвестно, что основа успеха Google — это поиск. До определённого времени к этому слову неизменно прибавляли приставку «веб-«, но она, похоже, с каждым годом нужна всё меньше и меньше: исследователи Google прилагают все усилия к тому, чтобы сделать возможной индексацию не только цифровых сущностей, но и объектов окружающей нас действительности. Вот где по-настоящему необъятные массивы данных!
Если на вебе ключом к успеху был алгоритм PageRank, то в случае с физическими объектами не обойтись без серьёзного прорыва в области распознавания образов. И здесь последние достижения Google выглядят очень и очень интересными. К примеру, номера всех домов во Франции могут быть распознаны на имеющихся снимках Street View в течение часа.
Как был достигнут столь впечатляющий результат? Ответ кроется в научной работе под названием «Распознавание многозначных чисел на снимках Street View при помощи глубоких свёрточных нейронных сетей«. Её главный автор и руководитель проекта — Ян Гудфеллоу. Он придумал, как использовать нейросеть из одиннадцати слоёв, чтобы автоматически распознавать номера домов в 95% случаев. Это уже близко к тому, на что способен человек, но в Google пока не оставили планов довести точность до ста процентов.
Отличие метода Гудфеллоу от всего, что пробовали раньше, заключается в том, что алгоритм не разделяет число на отдельные цифры, и нейронная сеть сравнивает исходное изображение с образами чисел от 1 до 99 999. Другими словами, этот метод хорош для распознавания строк, не превышающих пяти символов. По словам Гудфеллоу, с дальнейшим масштабированием могут возникнуть проблемы.
Чтобы натренировать нейронную сеть, Гудфеллоу и его команда использовали набор из 200 тысяч снимков, который в Google ранее сделали доступным для сторонних исследователей. Задачу несколько упрощает тот факт, что картинки уже обрезаны таким образом, чтобы номер дома занимал как минимум треть изображения.
Однако разработка Гудфеллоу имеет далеко не только академический интерес. Она уже вовсю применяется в Google для выявления номеров домов на снимках Street View, сопоставления их с географическими координатами и составления базы данных.
Автоматизация оказывается чрезвычайно полезной при составлении карт тех городов, где недоступны планы с номерами, а также в местах вроде Японии и Южной Кореи, где дома могут быть пронумерованы в том порядке, в котором шло строительство. Даже местным жителям не всегда под силу разобраться со столь запутанной нумерацией.
На сегодня автомобили Street View отсняли сотни миллионов панорамных изображений, число домов на которых измеряется десятками миллионов. Считывать эти номера вручную было бы непосильной задачей, а алгоритмы Google справились с этим играючи. В компании это считают невиданным успехом — и, похоже, правы.
Конечно, у технологии есть множество ограничений, но это не значит, что она бесполезна для чего-либо, кроме распознавания номеров домов. Немного модифицировав её, можно было бы распознавать номерные знаки, вывески магазинов, телефоны и так далее. Даже эти крупицы информации, будучи вычленены из окружающего мира и подвергнуты высокоточному автоматическому распознаванию, могут оказаться очень полезными.
В конце концов, это именно такие качественные рывки открывают дорогу к новым открытиям, которые рано или поздно пригодятся в деле распознавания текста и речи.