IBM: через пять лет "большие данные" изменят города, медицину, торговлю и безопасность

Корпорация IBM опубликовала традиционный список технологических прогнозов на следующие пять лет — «5 in 5«. Впервые такой список был составлен в 2006 году, и с тех пор новые выпуски появлялись ежегодно. Почти все предсказания, сделанные на этот раз, так или иначе связаны с анализом данных и машинным обучением.

Умные города

В IBM полагают, что за пять лет — то есть к 2018 году — развитие технологий сбора и анализа данных заметно повлияет на городскую жизнь:

«Новое понимание происходящего, полученное при помощи краудсорсинга, мобильных приложений, датчиков и облачных аналитических средств, позволит городам лучше понимать горожан, взаимодействовать с ними и удовлетворять их потребности. Это приведёт к появлению новых городов, которые реагируют на проблемы в реальном времени, предсказывают их до того, как они возникнут, и предоставляют персонализированные сервисы».

Важную роль в этом сыграет распространение электронных датчиков, встроенных в обычные физические объекты, позволяющие собирать для анализа информацию обо всём, что происходит в городе. Это не такая уж фантастика: «Компьютерра» уже рассказывала о первых проектах подобного рода:

«В канадском городе Кембридж программное обеспечение IBM изучает миллионы записей, выполняя анализ “что если”, оценивает степень обветшания инфраструктуры и предсказывает вероятность прорыва канализационных и водопроводных труб на различных участках. Ожидается, что экономия составит не меньше $100 тыс. в год. В округе Майами-Дейд во Флориде трубы снабдили датчиками, с помощью которых аналитика IBM замечает протечки до того, как они превратятся в серьёзную проблему».

Для того чтобы перемолоть гигантское количество информации, собранной таким образом, потребуется дальнейшее развитие аналитических технологий. В IBM ожидают появления нового поколения алгоритмов машинного обучения и систем обработки естественного языка, способных справиться с задачами, которые встанут в течение следующих пяти лет.

Офлайновая торговля

Распространение датчиков и аналитических средств изменит не только города. Офлайновая торговля наверстает технологическое отставание от интернет-магазинов, которые давно не уступают им по ассортименту или (тем более) ценам, но при этом используют анализ данных, чтобы посоветовать покупателям именно то, что им нужно, и тем самым повысить вероятность покупки.

В IBM верят, что в течение следующих пяти лет обычные розничные магазины возьмут на вооружение трюки, которые давно используют в интернете. Они тоже будут стремиться побольше узнать о своих посетителях с целью дать им персонализированные рекомендации. При этом все присущие им достоинства останутся на месте. Квадрокоптеры, которые обещает запустить Amazon, ничто по сравнению с возможностью потрогать товар своими руками и забрать его сразу после оплаты.

О том, как это может выглядеть, мы недавно писали. Одна из компаний, стирающая грань между обычными и онлайновыми магазинами, называется RetailNext:

«RetailNext собирает около 100 петабайт “сырых” данных в год, обрабатывает их и рассматривает общую картину в различных срезах. Розничные торговцы могут воочию увидеть, какова их покупательская аудитория, как долго люди остаются в магазине и чем интересуются, куда они заходят, а что игнорируют. Все это сопоставляется с картой фактических продаж. И именно этот анализ даёт офлайн-магазину возможность реально конкурировать с интернет-торговлей и адаптироваться к запросам и желаниям покупателей».

IBM тоже не стоит в стороне. В прогнозе в качестве примера приводится разработка компании Fluid — система рекомендаций для розничных магазинов на базе интеллектуальной платформы Watson, которую сделали в IBM. Она будет отвечать на вопросы, заданные на естественном языке, и подбирать рекомендации на основании информации о покупателе, которой она располагает. Предполагается, что внедрение этой системы начнётся с 2014 года.

Анализ ДНК в медицине

Биоинформатика была одним из первых применений «больших данных» — ещё до того, как придумали этот термин. Доступность технологий, позволяющих с лёгкостью ворочать терабайтами, сыграла свою роль в падении стоимости расшифровки и анализа ДНК. В IBM считают, что следующий рывок будет совершён при помощи так называемых когнитивных систем (под этим термином подразумевается в первую очередь суперкомпьютер Watson и его аналоги). Анализ ДНК поможет при лечении рака и, возможно, сердечных заболеваний и инсульта:

«Даже после того, как врач секвенирует целиком и ваш геном, и геном рака, которым вы больны, поиск соответствия между этой информацией и верными путями лечения остаётся непростой задачей. Сегодня на это уходят недели, а то и месяцы. Когнитивные системы сократят сроки и одновременно сделают анализ ДНК доступнее, давая медикам информацию, которую можно использовать для того, чтобы быстро сформировать план лечения за считанные дни или даже минуты — и всё это при помощи облачных сервисов».

По мере накопления информации когнитивные системы будут справляться с поиском путей лечения всё лучше и лучше. Врачам не придётся гадать, о какой именно разновидности рака идёт речь и где он находится. То же самое произойдёт и с другими заболеваниями, которые можно диагностировать при помощи анализа ДНК.

Персонализация образования

В IBM полагают, что растущая популярность Coursera, Khan Academy и других сайтов, предназначенных для дистанционного образования, — это лишь начало. В ближайшие пять лет мы станем свидетелями того, как образование подстраивается под каждого ученика по отдельности:

«Класс будущего будет накапливать информацию о каждом из учеников в течение всего курса, помогая им освоить умения, которые соответствуют их целям. Стремительная компьютеризация образовательных учреждений сделает возможным беспрецедентный уровень автоматизации процесса обучения. Обучающие технологии помогут нам вычислять всё возможное: как учится каждый ученик, что у него выходит — а затем добавить в систему гибкости, позволяющей непрерывно подстраивать и адаптировать получаемые ими знания».

На одной из недавних конференций IBM профессор Эндрю Нг, преподающий на Coursera машинное обучение и робототехнику, описывал свои эксперименты в области анализа данных при дистанционном обучении:

«Мы обнаружили, что степень вовлечённости студентов зависит от стиля рассылаемых администрацией ресурса электронных писем. При отправке стандартных уведомлений, таких как “Следующее домашнее задание необходимо подготовить к субботе”, интерес закономерно падает. Напротив, если писать сообщения вроде “Мы обратили внимание, что вы посмотрели уже пять обучающих видео: отличное начало!”, интерес со стороны студентов растёт. То же самое касается стиля обсуждения на форуме. Студентам чрезвычайно важна подобная форма признания, особенно на первых этапах. Сейчас всё это кажется очевидным, но до проведения анализа мы не были уверены в этом и не могли оценить степень влияния».

Подробнее об этом можно прочитать в заметке «Coursera улучшает дистанционное образование с помощью Big Data«.

Системы безопасности

Последнее предсказание IBM касается средств, предназначенных для автоматического выявления подозрительной активности в интернете. Они будут следить за действиями людей и отыскивать в них аномалии, которые могут свидетельствовать о том, что совершается преступление. В IBM Research разрабатывают цифрового «охранника», который займётся защитой персональных данных пользователей:

«В течение следующих пяти лет этот хранитель “больших данных” будет изучать и анализировать закономерности вашего поведения в интернете, запоминая всё, что происходило в течение многих месяцев и лет, для того чтобы точно знать, что защищать. И когда он заметит потенциальную брешь, вы будете первым, кто об этом узнает».

Подобные технологии уже применяются как для борьбы с мошенничеством в интернете (это особенно актуально для платёжных систем и банков), так и правоохранительными органами:

«Один из крупных американских банков подключил к борьбе с мошенниками суперкомпьютер Watson, разработанный в IBM. Он анализировал поток транзакций в реальном времени, оценивая подозрительность каждой из них. На оценку, среди прочего, влияла история отношений банка с торговой точкой, которая инициировала сделку. Чем больше мошеннических транзакций в её послужном списке, тем меньше к ней доверия. В IBM утверждают, что система на 15% увеличила количество выявленных мошеннических обращений к банку и на 50% сократила число ложных срабатываний. При этом сумма, которую удалось защитить от мошенников, выросла на 60%».

Подробнее об этом рассказывается в статье «Большие данные против мошенников«.

Стоит ли верить предсказаниям IBM? С одной стороны, все технологии, о которых идёт речь, в той или иной форме используются уже сегодня. С другой — это совсем не гарантирует того, что через несколько лет они по-прежнему будут на слуху. Пять лет назад в IBM надеялись, что к 2013 году совещания будут устраивать не в офисе, а в виртуальных мирах наподобие Second Life, чаты победят электронную почту, а проприетарные стандарты выйдут из моды. Действительность оказалась немного иной.