С 2009 года Amazon Web Services предлагала клиентам выполнять запросы к базам данных большого объёма при помощи инструмента с открытым исходным кодом под названием Hive. Недавно в AWS была добавлена поддержка Impala — нового инструмента для скоростной обработки «больших данных», созданного компанией Cloudera.
Impala позволяет анализировать терабайты за секунды, что делает возможным параллельную обработку больших объёмов данных в режиме реального времени. Новые данные можно добавлять на лету, а запросы выполняются с помощью SQL-подобного языка, оптимизированного для работы на кластерах AWS.
Обеспечивая высочайшую скорость, Impala требует для своей работы большего объёма оперативной памяти, чем Hive при решении аналогичных задач.
На создание Impala большое влияние оказала компания Google. Этот уникальный инструмент для Big Data был создан на основе системы аналитической обработки в реальном времени Google Dremel.
Главная отличительная черта последней заключается в принципах работы с данными. В отличие от пакетной обработки запросов, принятой в Map/Reduce, Google Dremel выполняет операции непосредственно в хранимом массиве. Система сама интегрируется в структуру обрабатываемых данных, за счёт чего и достигается ускорение в десятки раз.
Помимо Impala, на Google Dremel основан другой подобный инструмент — Apache Drill. В свою очередь, сама Dremel разрабатывается как часть собственной аналитической платформы Google Big Query.
Выход за пределы Map/Reduce с помощью Google Dremel представляет основу для следующего поколения технологий Hadoop и способствует развитию экосистемы проектов с открытым кодом. Hive, Pig и другие – все они разработаны так, чтобы абстрагироваться от сложности Map/Reduce.
Мгновенная обработка данных — ключевое свойство программ, основанных на Google Dremel. Именно поэтому Impala рассматривается как естественное дополнение к инструментам бизнес-аналитики — таким как средство визуализации данных Tableau.
Интерактивная система обработки запросов Impala работает с данными, находящимися на серверах под управлением Hadoop Distributed File System. В числе добавивших в этом году в свои продукты поддержку Hadoop — Microsoft, IBM и Rackspace.
Сегодня позиции Amazon на рынке решений в области Big Data усиливаются за счёт Impala и других продуктов, направленных на скоростную обработку данных. Объединяющим элементом для них служит сервис Kinesis. Он принимает потоки данных одновременно из разных источников и передаёт их другим аналитическим инструментам.