Макроскопия. Необычное слово, правда? И незнакомое. Даже если добавить, что речь об информационных технологиях, скажет ли оно что-то вам? «Википедия» про него не знает ничего. Специальные словари (медицина!) дают лишь скучное и явно не связанное определение, обратное «микроскопии»: оценка невооружённым глазом.
О макроскопии как сегменте ИТ говорит IBM — сотрудники исследовательского подразделения которой, опубликовав традиционный ежегодный обзор «5 in 5» (пять прогнозов, которые наверняка сбудутся в следующие пять лет), упомянули М. отдельным пунктом. В ближайшем будущем, по их мнению, макроскопия не просто войдёт в нашу жизнь, но и радикально её преобразит. А чтобы понять, что это и как это применяться будет, позвольте нарисовать отвлечённый пример из будущего чуть более отдалённого…
К середине XXI века население Земли достигнет 10 миллиардов человек. Таков (весьма умеренный, кстати!) прогноз ООН. Одновременно произойдут принципиальные демографические изменения: станет самой населённой страной Индия, догонит Соединённые Штаты Нигерия, и вообще третий мир продолжит расти, тогда как первый замедляться. И безболезненным этот рост не будет, тут уж будьте уверены. Проблема в том, что агротехнологии стран третьего мира оставляют желать лучшего. А значит, как ни крути, чтобы избежать социальных потрясений, стремящихся перерасти в глобальные, всем миром предстоит придумать, как прокормить выросшее и продолжающее расти население планеты.
Необходимо не просто «производить больше еды», необходимо сохранить положительную динамику такого производства! И чтобы обеспечить этот рост без истощения и эрозии почв, без загрязнения и исчерпания водных запасов, без распашки новых земель, требуется… маленькое чудо?
Хорошая новость: растёт не только население. Опережающими темпами растёт объём данных, производимых человечеством — или, точнее, построенными нами цифровыми устройствами. Компьютеры-телефоны-планшеты, соцсети-музыка-видео — да. Но и миллиарды «умных» вещей, подключенные к тому же самому интернету, генерируют данные тоже, причём порождаемый ими объём вырастает ежегодно на треть: тут всё, от «умных» холодильников и ламп до сельскохозяйственных сенсоров, медоборудования, дронов и космических автоматов. Каждый день мы выдаём на-гора 2,5 эксабайта, а темпы роста таковы, что 90% имеющейся в нашем распоряжении информации сгенерированы за последние два года.
Без риска ошибиться можно сказать, что идёт тотальная оцифровка: мы квантуем физический мир! И это, потенциально, открывает нам его с новой стороны. Ведь до цифровой эры человек видел окружающее, грубо говоря, только своими органами чувств. А значит, был осведомлён лишь о незначительном числе происходящих вокруг процессов. Но представьте, сколько всего нам откроется, если мы начнём анализировать весь поток данных, получаемых сейчас об окружающем нас мире! Пустим под аналитический нож все эти 2,5 эксабайта, что имеем теперь каждый день. Вскроются невидимые, неведанные до сих пор зависимости, явления, физические и социальные, которые, вероятно, сможем применить к собственной выгоде. Нам требуется лишь понять их в такой степени, чтобы быть в состоянии на некоторое время вперёд предсказывать.
Это и есть макроскопия в контексте информационных технологий. Рассматривая мир в «макроскоп», мы увидим его словно бы расширенным зрением: к потокам информации от шести органов чувств добавятся тысячи новых потоков, совместный анализ которых обещает открытия и свершения не менее важные, чем в своё время обеспечил микроскоп.
Проблема нехватки продовольствия для перенаселённой планеты — не единственная, но одна из первых, стоящих в очереди на решение новым методом. Более точно выбирая семена, даты посева и сбора, места для посадки, вносимые удобрения и полив, прогнозируя всё, вплоть до экономических и политических условий, представляется возможным изменить экстенсивный курс, которым следовало сельское хозяйство до сих пор. IBM участвовала в одном локальном проекте такого рода (брала «шефство» над виноградником) и одним только совместным анализом всех данных добилась прироста урожайности на четверть при таком же сокращении использования воды.
А мешает пользоваться макроскопией на полную катушку «пустяк». Дело в том, что вся эта река больших данных, наполняющая электронные резервуары, состоит из миллионов ручейков, содержимое которых не унифицировано. Каждый источник порождает данные в собственном формате! Идеальным было бы каждый байт, сгенерированный человечеством, привязать к унифицированной пространственно-временной сетке, привести к единому формату. Это радикально облегчило бы накопление, первичную обработку и анализ данных, как машинам, так и людям. Сегодня, по оценке самой IBM, исследователи, работающие с Big Data, тратят чуть ли не девять десятых времени только лишь форматируя потоки, а не анализируя их. И это непростительное расточительство!
Конечно, нереально заставить всех поставщиков информации следовать единому формату. Поэтому придётся разработать набор инструментов для «умной» унификации потоков данных. Тут пригодится и машинное обучение, и алгоритмы интеллектуальной автоматической классификации, и новые схемы быстрой обработки больших массивов, и прочее, отчасти имеющее отношение к Big Data. Благо, компоненты в общих чертах уже готовы. И значит, макроскопия готова шагнуть из лабораторий в жизнь.
P.S. В статье использована графика IBM Research.