Условием существования рыночной экономики является расширенное воспроизводство. В хайтеке это достигается постоянным выпуском на рынок все новых и новых устройств. И цветным чехольчиком тут не обойтись, нужны принципиально новые свойства. Традиционными устройствами уже насыщен рынок персональных компьютеров, вот-вот насытятся сегменты смартфонов и планшетов (вероятно, они, и приемлемого качества, есть уже у каждого из читателей). Что же дальше? А дальше — обретение смартфонами нервной системы! Нервы смартфону — зачем?..
Для ответа на этот вопрос давайте вернёмся в далёкое прошлое, к заре индустриальной эпохи. Земля тогда в крупных городах вроде Нью-Йорка уже была дорога. И, экономя затраты застройщиков, дома полезли вверх. А для комфорта жильцов Элиша Грейвс Отис изобрёл лифт. Сначала винтовой, потом тросовый. Сначала приводимый в действие паром, потом — электричеством… И управляли этими лифтами — сначала в отелях, потом в жилых и офисных зданиях — мальчики в ливреях. Заменённые впоследствии привычными нам кнопками; не говоришь, куда ехать, а сам жмёшь нужный контакт…
Такая вот история технологий в миниатюре… От пара к электричеству, от ручного управления — к автоматике и телемеханике. А сегодня спираль технологий крутанулась в очередной раз. И в интервью Bloomberg Television глава Microsoft Research Питер Ли (Peter Lee) рассказал о разрабатываемых на базе искусственного интеллекта системах «умных» лифтов. Такие системы будут использовать датчики (похоже, акустические и визуальные), для того чтобы собирать данные о поведении пассажиров лифта. Узнал жильца — и поехал на его этаж, увидел его в деловом костюме — опустился в гараж, а при виде собаки подъехал к выходу во двор.
Прежде чем начать возить пассажиров, лифт три месяца накапливал данные о них, об их поведении и привычках (с авоськой — к жене на третий, с цветами — к соседке на одиннадцатый). Ну а сейчас «умный» лифт работает в тестовом режиме, и о планах его внедрения ничего не говорится. Да и посмотревшие ролик увидят, что сама мысль об ИскИн’е-лифтёре откровенно веселит и журналистов Bloomberg, и самого Питера Ли… И можно предположить — почему. Опознавание людей — задача для компьютеров непростая.
Да, опознавать кошачьи мордочки по картинке размером двести на двести пикселей системы технического зрения уже научили. Только вот мощности для этого применяются фантастические. Тысяча компьютеров, шестнадцать тысяч ядер, в миллионы раз больше вычислительных ресурсов, чем при создании термоядерных бомб и планировании лунных перелётов. А котёнок справляется с этой задачей с помощью того wetware, который у него под ушками и за глазками… Поразительно неэффективное употребление способности кремния к счёту!
Да, может быть, такие мощности и сможет позволить себе какое-нибудь трёхбуквенное агентство какой-нибудь страны, зорко высматривая на тысячах и тысячах видеокамер знакомый профиль террористки… Но для массового применения систем искусственного интеллекта такие системы, «в лобовую», наращиванием производительности «цифропомола» решающие задачи, с которыми прекрасно справляются сформированные эволюцией нейросети, вряд ли целесообразно применять. Лифт, конечно, может обращаться к облачным мощностям, но нужно ли это?
Ведь и Siri, обрабатывающая речь где-то на удалённых серверах, порой зависает, раздражая собеседника. Так что для выхода смартфонов на новый уровень, придания им способности распознать картинку или вести диалог на естественном языке (а именно этого потребует предсказанное аналитиками Gartner, Inc. — «Смартфон становится смышлёней владельца»), нужны другие технические решения. Принципиально иной подход, заставляющий вспомнить забытую науку бионику («Вернём бионику?»).
Состоит он в использовании нейрочипов. Начало новому подходу положила лаборатория систем технического зрения (Artificial vision laboratory) Университета Пардью, возглавляемая профессором Эухенио Кулурсьельо (Eugenio Culurciello). Пару лет назад она занялась созданием высокопроизводительных встраиваемых систем технического зрения для нужд робототехники (embedded robotic vision system). В качестве технической базы был выбран процессор потока данных (Dataflow Computer), моделирующий работу нейронов коры головного мозга (видео с ним — здесь).
Для того чтобы придать кремниевой нейросети надлежащую гибкость, её исполнили на базе программируемой логической матрицы (ПЛМ, FPGA). Как видим, изначально прибор был довольно громоздким, пригодным для робота весьма солидных размеров. Но микроэлектроника умеет умещать большое в малом — и вот в декабре прошлого года на конференции по информационным нейросистемам в Неваде группа профессора Кулурсьельо продемонстрировала нейронный сопроцессор, соединённый с обычным смартфоном.
Обзаведшийся нервной системой смартфон обрёл способность опознавать пешеходов в сценах уличного движения и распознавать лица людей. Технологически это та же ПЛМ, допускающая гибкую перепрошивку. Применение многоуровневой нейросети, каждый из элементов которой выполняет простейшие операции, но в совокупности обретающей способность к сложным суждениям. Профессор Кулурсьельо говорит о том, что они распознают образы раз в пятнадцать эффективнее, чем графические процессоры, и ожидает, что в ближайшее время их результаты смогут улучшиться ещё на порядок.
Во всяком случае путь, по которому идут нейрочипы, предназначенные для встраивания в смартфоны, типичен для хайтек-новинок. Созданные в университетских лабораториях, они доводятся до коммерциализации инновационными фирмами. И вот такую фирму и создал профессор Кулурсьельо. Называется она TeraDeep и ставит своей целью создание компьютерных нейросетей для нужд распознавания образов. Называемые характеристики существующих устройств весьма высоки.
Говорится о том, что нейрочип, ядра которого работают на скорости 200 миллионов циклов в секунду, сможет обеспечить производительность системы при распознавании образов, эквивалентную традиционному процессору с производительностью сорок миллиардов операций в секунду, потребляя всего лишь один ватт энергии. Ну а нуждающаяся в 5 ваттах система на ядрах с частотой 500 МГц обеспечит эквивалентность триллиону операций в секунду. При расходе 10 ватт обещается система с производительностью, сравнимой с 4 триллионами операций в секунду. (Видео — здесь.)
Бизнес-модель, выбранная фирмой TeraDeep, представляется весьма перспективной. Там надеются довести свою технологию искусственного зрения до такого уровня, что гиганты смартфонно-процессорного мира станут лицензировать их нейросети, интегрируя в свои кристаллы (аналогично схеме бизнеса ARM, скажем). Получится ли это именно у этой компании — трудно сказать: доля выживающих среди хайтек-фирм — как у командира взвода на передовой, но тот факт, что системы технического зрения становятся экономичными и общедоступными, говорит о многом.
Представляя публике свои разработки, профессор Кулурсьельо говорит, скажем, о том, как удобно будет находить нужные снимки среди забивших память смартфона изображений. Наверное, это хороший маркетинговый приём. Учитывая ту роль, какую бизнес развлечений играет в нашей жизни… Но речь-то идёт о куда более серьёзных и важных вещах. Трудно сказать, окажется ли «десятиваттная» нейросеть сравнима по распознаванию образов с нашим мозгом, потребляющим от 20 до 50 Вт (вроде бы)… Но если вдруг окажется, то выходит, что речь идёт о сходных энергозатратах.
То есть получится, что инженерия кремния, которой всего-то шестьдесят, уже приблизилась по эффективности к эволюции белка, длившейся миллиард лет. И это даст возможность применять «умные» машины, где к этому созрели предпосылки. Мы же рассказывали о дроне с автопилотом на смартфоне («Смартфоны даруют мозги дронам»). Так смартфон, умеющий распознавать образы, будет предельно дёшев — благодаря гигантскому объёму производства. Но его же можно будет применить в качестве «мозга» огромного числа «умных» машин.
От автомобилей-роботов, которые к 2020 году обещают выпустить массовыми сериями, до боевых дронов, которые перестанут требовать постоянного внимания оператора с земли («Как боевой беспилотник создаёт проблемы своим операторам»). От роботов-грузчиков («Окупаемы ли роботы-грузчики») до мобильных приложений с принципиально новыми возможностями («Стратегическая десятка образца 2014-го…»). И обзаведшийся нервной системой смартфон имеет прекрасные шансы и дать «второе дыхание» исчерпавшей предыдущие резервы роста мобильной индустрии, и обеспечить «интернет вещей» зрительной корой головного мозга!