Что запасают люди, живущие в районах, на которые вот-вот обрушится мощный ураган? Консервы, соль и спички? Батарейки для фонарика и медикаменты? Это разумные ответы, но они, как обнаружила американская сеть магазинов Walmart, не имеют ничего общего с реальностью.
Для Walmart это совсем не праздный вопрос. Перед стихийными бедствиями спрос на различные товары резко меняется. Если не готовиться к этому заранее, то в решающий момент покупателей, скорее всего, встретят пустые полки, а это уже серьёзная проблема.
Тут необходимо представлять масштабы Walmart. Это одна из самых популярных сетей магазинов в мире. У компании почти одиннадцать тысяч супермаркетов, в которых продаётся всё, что можно вообразить, — от продуктов питания до огнестрельного оружия. Оборот Wal-Mart Stores составляет около 450 миллиардов долларов в год, а количество сотрудников превышает два миллиона.
Две трети жителей США живут не дальше восьми километров от ближайшего Walmart. Более того, хватает мест, где супермаркет этой фирмы если и не единственный, то по крайней мере самый доступный магазин в округе.
В конце августа 2004 года Walmart готовился к урагану «Фрэнсис», который надвигался на Флориду. Именно тогда в компании впервые решили не полагаться на интуицию, а выяснить точно, какие именно товары сметают с прилавков перед бедствиями. Благо возможность имелась.
«Walmart пользовался методами Big Data ещё до того, как это вошло в моду», — сказала не так давно информационный директор Wal-Mart Stores Кэринэнн Терелл, и это чистая правда. В самом начале девяностых компания вложила четыре миллиарда долларов в разработку системы Retail Link, с помощью которой поставщики магазинов могли в реальном времени контролировать темпы продаж и количество товаров на складе.
К 2004 году супермаркеты компании тщательно следили не только за товарами (это само собой), но и за покупателями. Информацию, с помощью которой можно идентифицировать людей, собирали по крупицам, занося в компьютерную систему номера с документов, счетов и платёжных карт.
Можно было не сомневаться, что точный ответ на вопрос, как меняется спрос на товары перед ураганом, уже содержится в дата-центре Walmart. Нужно лишь извлечь его.
Специалисты компании обработали данные об изменениях спроса, которые наблюдались перед ураганом, случившимся за несколько недель до того. Оказалось, что сильнее всего ожидание катастрофы повлияло на продажи печенья Pop-Tarts, причём не какого-нибудь, а с земляничным вкусом.
Из данных следовало, что перед бедствием посетители Walmart скупили в семь раз больше пачек с печеньем, чем обычно, а на первое место по продажам ураган вынес не товары первой необходимости, а пиво.
Как догадаться, что между печеньем с земляничным вкусом и стихией есть связь? Её наличие никак не укладывается в распространённые представления о том, что принято делать перед столкновением со стихией. В результате она остаётся незамеченной.
Данные любой крупной корпорации переполнены неочевидными зависимостями и закономерностями. Именно с этим связана изрядная доля ажиотажа вокруг «больших данных»: под шапкой этого термина скрываются технологии, которые проявляют невидимые связи.
Хотя в Walmart не могли объяснить, почему Pop-Tarts покупают перед ураганами, это не помешало использовать странное открытие. В супермаркеты успели завезти побольше печенья, а полки с ним перенесли поближе к другим товарам, которые могут быть полезны в экстренных случаях.
Девять лет спустя объём данных, накопленных Wal-Mart Stores, превысил 2,5 петабайта (петабайт в миллион раз больше гигабайта). 38 тысяч серверов компании обрабатывают более миллиона покупательских транзакций в час.
Если в 2004 году поиск особенностей в колебаниях спроса перед стихийными бедствиями представлял собой разовый проект, предпринятый по решению руководства компании, то теперь системы Walmart собирают и анализируют информацию в реальном времени.
С помощью сбора и обработки данных в Walmart пытаются заблаговременно улавливать и учитывать тенденции. В некоторых случаях не только поиск тенденций, но и реакция на них полностью автоматизированы: так, например, происходит коррекция цен и назначение скидок в интернет-магазине компании. Кроме того, данные помогают повысить эффективность и улавливать даже незначительные ошибки платёжных систем или банков.
В 2011 году появилось Walmart Labs — технологическое подразделение корпорации, напоминающее по своей атмосфере и целям не столько ИТ-службу крупной сети супермаркетов, сколько компании вроде Amazon, Google или Facebook. Walmart Labs не просто внедряет и эксплуатирует проверенные технологии: его задача состоит в том, чтобы придумывать что-то новое и рисковать.
Необходимость конкуренции с Amazon делает это жизненно необходимым. Рано или поздно Walmart придётся столкнуться с крупнейшим интернет-магазином планеты. Хотя Amazon и по доходам, и по величине несопоставимо меньше Walmart, минувшее десятилетие дало немало доказательств тому, что размер — не гарантия неуязвимости.
Amazon, в отличие от Walmart, всегда был по своей сути технологической компанией, которая постоянно меняется, экспериментирует и изобретает нечто новое. Чтобы соперничать с ним на равных, необходимо делать то же самое.
Walmart Labs начала работу с приобретения компании Kosmix, которую основали создатели знаменитого Mechanical Turk. С тех пор ряды «лаборатории» пополнили сотрудники множества других стартапов. Последнее приобретение — Inkiru, влившаяся в Walmart Labs в июне. В Inkiru разрабатывали самообучающуюся систему, которая комбинирует обработку «больших данных», аналитику и прогнозирование в реальном времени.
Пока основные усилия Walmart Labs направлены на развитие интернет-магазина. Технологическая основа Walmart учитывает всё — от поведения пользователей и финансовых показателей до действий конкурентов. На их основе она генерирует рекомендации для пользователей, назначает скидки, моделирует цены и готовит отчёты для аналитиков компании.
За десятилетия Walmart оброс разношёрстными и плохо совместимыми системами обработки данных. Walmart Labs унаследовала небольшой экспериментальный кластер Hadoop, состоящий из десятка узлов, и сборную солянку из решений Oracle, Greenplum и Netezza. В 2012 году произошла миграция на новый кластер Hadoop с 250 узлами и унифицированными решениями собственной разработки.
Один из наиболее интересных проектов Walmart Labs, по всей видимости, вырос из технологий Kosmix. Система Social Genome в реальном времени переваривает все публичные посты в социальных сетях, до которых ей удаётся дотянуться: Twitter, Facebook, даже Foursquare.
Посты подвергаются семантическому анализу. Social Genome способна по контексту обходить большинство ловушек, связанных с неоднозначностью естественного языка. Добытая информация помогает составлять пугающе точные рекомендации и персонализировать рекламные рассылки.
Скорость, с которой Social Genome перерабатывает данные, так велика, что даже Hadoop начал захлёбываться. В Walmart Labs пришли к выводу, что столкнулись с ограничением модели Map/Reduce, на которой основан Hadoop, и разработали собственное средство параллельной обработки информации, учитывающее специфические требования этой задачи.
Первые компании, сорвавшие куш на Big Data, зачастую были в той или иной степени связаны с технологиями и натолкнулись на золотую жилу случайно. С Walmart — совершенно другая история. Двадцать лет назад сеть супермаркетов вполне сознательно сделала ставку на «большие данные» и выиграла. Теперь Walmart пытается совершить новый технологический скачок. От того, удастся ли это, зависит, чем увенчаются следующие двадцать лет деятельности компании.