Что такое фабрика данных (data fabric) и нужна ли она каждому предприятию

Информация на предприятиях — как топливо для машины. Она помогает находить ошибки раньше, лучше понимать клиентов и находить новые возможности для бизнеса. Данные в приоритете для организаций, но часто они находятся в разных программах и сервисах, и это мешает использовать их максимально эффективно. Чтобы сократить количество человеческих ошибок и общие затраты, руководители подразделений аналитики должны выйти за рамки традиционных методов управления информацией и перейти к решениям, таким как интеграция данных с помощью искусственного интеллекта.

По мнению Gartner, фабрики данных анализируют информацию, обучаются на ней, выделяя то, что наиболее востребовано. Также эта концепция помогают соединять информацию из разных мест, чтобы данные были синхронизированными и доступными, вне зависимости от их расположения. Благодаря этому data fabric помогает в составлении рекомендаций для топ-менеджмента.

Мы продолжаем рассказывать о «Цикле хайпа», в который Gartner включили самые перспективные технологии ближайших лет и предположения об их развитии.

Data Fabric

«Появившаяся концепция под названием data fabric может стать надежным решением постоянно возникающих проблем управления данными, таких как высокозатратные и малоэффективные циклы интеграции данных, частое обслуживание ранее созданных интеграций, растущий спрос на обмен данными в режиме реального времени и на основе событий и многое другое».

Марк Бейер, вице-президент-аналитик Gartner

Что такое фабрика данных

Gartner определяет data fabric как концепцию, которая служит интегрированным слоем данных и связующих процессов. Фабрика данных непрерывно выявляет и соединяет информацию из разрозненных приложений, чтобы обнаружить уникальные, важные для бизнеса взаимосвязи. Полученные сведения помогают перестроить процесс принятия решений.

Например, руководитель цепочки поставок может быстрее добавить новые данные к известным взаимосвязям между задержками поставщиков и задержками производства и улучшить решения на основе новой информации (или для новых поставщиков или новых клиентов).

Рассмотрим фабрику данных на примере беспилотного автомобиля

Разберем два сценария. В первом случае водитель активен и уделяет все внимание маршруту, а автономный элемент автомобиля вмешивается минимально или вообще не вмешивается. Во втором случае водитель немного ленится и теряет концентрацию, и автомобиль немедленно переключается в полуавтономный режим и вносит необходимые коррективы в курс.

В обоих сценариях можно проследить, как работает data fabric. Сначала она следит за конвейерами данных как пассивный наблюдатель, а затем начинает предлагать альтернативы, которые гораздо более продуктивны. Когда и «водитель» данных, и машинное обучение освоятся с повторяющимися сценариями, они дополнят друг друга, автоматизируя импровизационные задачи, на которые тратится слишком много времени вручную, и оставляя руководству возможность сосредоточиться на инновациях.

Преимущества фабрики данных

  • Бизнес-пользователи могут быстро находить, интегрировать, анализировать и обмениваться данными.
  • Команды управления данными повышают производительность благодаря автоматизированному доступу к данным и взаимодействию с ними, а также гибкость, так как могут быстрее закрывать запросы на аналитику.
  • Предприятие получает более быстрые результаты от инвестиций в данные и аналитику, а также повышается уровень грамотности в области данных, что улучшает их использование.

Согласно прогнозу Gartner, к 2025 году активные автоматизированные функции с использованием метаданных в структуре данных позволят вдвое сократить человеческие усилия и в четыре раза повысить эффективность использования данных.

Фабрика, озеро, хранилище данных: в чем разница

Сравним фабрику данных с другими терминами, связанными с управлением данными:

  • Озеро данных — это большой репозиторий, где хранятся сырые данные, часто в своем формате и без обработки. В отличие от фабрики данных, озера данных не могут легко объединять и предоставлять доступ к данным. Фабрика данных, с другой стороны, предоставляет полный набор информации с возможностью быстрого объединения и доступа к ней.
  • Хранилище данных — это структурированная база данных, которая хорошо подходит для анализа бизнеса и информации. Одно может возникать трудность с эффективной интеграцией данных в реальном времени и в работе с различными типами данных. Вот почему фабрика данных с ее виртуализацией дополняет хранилища данных.
  • Корпоративная сервисная шина (ESB) — это промежуточное ПО для интеграции приложений и сервисов внутри компании. ESB фокусируется на интеграции приложений, а Data Fabric использует более широкий подход, интегрируя данные из различных источников.

7 шагов по проектированию и разработке фабрики данных от Gartner

  1. Сбор пассивных метаданных. В идеале это включает в себя все формы метаданных, включая технические, операционные, бизнес- и социальные метаданные, из широкого спектра оперативных источников.
  2. Активировать метаданные. Другими словами, автоматизируйте сбор метаданных, отслеживайте их состояние и использование, а также анализируйте метаданные для получения информации о бизнес-процессах и организациях.
  3. Создание графиков знаний. Графы могут представлять объекты, обнаруженные с помощью метаданных, а также их взаимосвязи и семантику. Граф знаний, описывающий данные с множеством взаимосвязей, позволяет проводить аналитику на основе активных метаданных.
  4. Использование рекомендаций из Data Fabric для автоматизации. Например, каталогизация и анализ метаданных (вместо анализа физических данных в хранилище).
  5. Используйте DataOps для оптимизации процесса интеграции данных. DataOps — это новый метод операционализации разработки и доставки продуктов данных, который обеспечивает более высокую скорость, производительность разработчиков и согласованность действий бизнеса. DataOps обеспечивает те же преимущества для фабрики данных.
  6. Принять операционную модель данных и аналитики по принципу Hub-and-Spoke. Это показывает, что структура данных (централизованная и стандартизированная) и сетка данных (объединенная и специфическая для каждого домена) дополняют друг друга и могут сосуществовать.
  7. Сосредоточьтесь на основах, а затем переходите к продвинутым уровням. Нужно начинать с известных данных, которые могут ответить на известные вопросы, и использовать стандартные инструменты и методы интеграции данных, а также каталогизацию данных и метод DataOps. Дальше примите неизвестные данные и неизвестные вопросы, используйте графы знаний как представление взаимосвязей данных в качестве инструмента для продвинутой аналитики. Следующий уровень представляет собой путь автоматизации, что имеет значение для скорости работы с данными, производительности и глубины аналитических выводов.

Прогнозы

Хотя компании признают ценность фабрики данных, но это технология развивающаяся. По прогнозам Gartner, data fabric достигнет «плато продуктивности» только через 5-10 лет, поэтому пока ее только тестируют. Согласно отчету Enterprise Data Fabric Forrester Wave, фабрика данных — «горячий, развивающийся рынок». Forrester называет лидерами на нем Talend, Oracle, SAP, Denodo Technology, Cambridge Semantics и IBM.

Что будем искать? Например,ChatGPT

Мы в социальных сетях