Иногда работников индустрии информационных технологий тянет бросить возню с проблемами, касающимися компьютеров и связанного с ними мира, и взяться за что-нибудь «настоящее», лучше всего — связанное с медициной, спасением африканских детей, экологией или земледелием. Именно земледельческие проблемы и привлекли двоих выходцев из Google — Дэвида Фрейдберга и Сиража Калика. Их стартап назывался Climate Corporation и уже принёс им $1,1 млрд. Теперь «Климатическая корпорация» входит в состав биотехнологического гиганта Monsanto, и изобретения, ставящие «большие данные» на службу сельскому хозяйству, обещают обрести самое широкое применение.
Как стартап Climate Corporation выглядел впечатляюще ещё до слияния с Monsanto: к 2013 году, когда произошла сделка, там работало две сотни учёных, а количество данных, обрабатываемых ежедневно, составляло примерно 50 терабайт. Серверы Climate Corporation сводят воедино и обрабатывают детальнейшие снимки местности, погодные данные и показания датчиков, работающих в поле. Это даёт, во-первых, ценнейшую для любого фермера статистику, руководствуясь которой можно принимать важные решения, во-вторых — входные данные для контроллеров машин, удобряющих и поливающих поля в автоматическом режиме.
Наработки Climate Corporation в области предсказания погоды оказались Monsanto очень кстати. Тысячи серверов компании постоянно агрегируют погодные данные компаний и хранят погодную историю за много лет. Всего накоплено уже более десяти триллионов измерений — таких, например, как количество осадков в отдельной точке в определённое время.
«Это вам не дедушкин трактор! — гласит текст на сайте Monsanto. — Для посева и взращивания мы используем сенсоры и огромные массивы данных. Измеряя физические характеристики полей и размечая данные о характеристиках почв с точностью до 18 дюймов, мы предоставляем фермерам рекомендации, которые позволяют выращивать больший урожай при тех же размерах полей» (18 дюймов = 45,7 см). Технологии Monsanto позволяют варьировать плотность посадок и подбирать количество удобрений с точностью почти что до отдельного растения. Здесь-то и задействуются обширные данные о типах почв и предсказанном уровне осадков в каждой конкретной точке.
Фермерство с использованием «больших данных» Monsanto начинается с выбора площадей для засева на основе уже имеющейся у компании карты. Затем в поле работают сеялки и культиваторы, снабжённые механизмами дозирования семян и удобрений. Водитель в кабине при этом имеет возможность следить за всеми процессами на специальной приборной панели. Затем в поле устанавливаются датчики, информацию с которых можно получить удалённо. Данные сопровождают будущий урожай на каждом этапе. Впрочем, уже одна только карта без прочих усовершенствований, если верить историям успеха с сайта Monsanto, становится неплохим подспорьем для фермеров.
Что до технологий обработки «больших данных», то в Climate Corporation используют Hadoop версии Cloudera, а также HBase и Solr для запросов и Revolution R Enterprise для статистического анализа. HBase — это распределённое отказоустойчивое хранилище данных, созданное сообществом Apache по образу и подобию Google BigTable. Solr — тоже решение Apache, предназначенное для полнотекстового поиска. Revolution R Enterprise — проприетарная платформа, предназначенная для анализа «больших данных» и поддерживающая язык R.
На конференции Strata 2013 разработчики из Climate Corporation приводили интересное сравнение между Hadoop и реляционной СУБД, которую они использовали ранее. В реляционную базу данных информацию пришлось загружать более месяца, и это были показания лишь по четырём штатам (8% от всей территории США). Разработка заняла восемь месяцев. Переезд на Hadoop занял три месяца, загрузка данных по всей Америке — 18 часов.
Слияние Climate Corporation с Monsanto было воспринято работниками стартапа довольно неоднозначно, и Фрайдбергу даже пришлось писать публичное письмо с объяснениями. Дело в том, что Monsanto имеет скверную репутацию: культивация генно-модифицированных растений и производство необходимого для их возделывания гербицида сделало Monsanto целью для нападок со стороны некоторых фермеров и сочувствующей общественности.
В своём письме Фрайдберг сравнивает Monsanto с Google, которая тоже часто подвергается критике за свои методы, но при этом делает важные и полезные вещи. В любом случае сотрудникам Climate Corporation была обещана определённая степень независимости от Monsanto. Фрайдберг надеется использовать такую позицию для того, чтобы продолжать избранный курс и в случае надобности с данными на руках указывать руководству Monsanto на неудачную практику.
В Monsanto же очень довольны приобретением и в стиле советских газет обещают, что новые технологии позволят удвоить урожаи к 2030 году.