Новая облачная платформа для потокового анализа больших объёмов данных Amazon Kinesis перешла в стадию публичной бета-версии. Она позиционируется в качестве альтернативы свободной системе распределённых вычислений Hadoop, в которой традиционно используется пакетная обработка данных. В отличие от неё, AWS Kinesis позволяет разработчикам создавать приложения в реальном времени без вникания в тонкости управления кластерами.
Ежесекундно AWS Kinesis обрабатывает тысячи потоков данных из разных источников. Ранее в её закрытом тестировании приняли участие такие крупные компании, как Bizo, MediaMath и Supercell.
Технический директор Amazon Вернер Фогельс (Verner Vogels) указывает основной сферой применения обработку данных от датчиков, число которых в растёт с каждым годом, особенно в мобильной технике:
«Мощь платформы предоставляет возможности обработки данных в мире, где датчики передают информацию по множеству каналов».
Среди других возможных применений указываются анализ кликов пользователей на веб-сайтах, маркетинговые исследования, отслеживание банковских операций, обработка лент новостей и постов в социальных сетях.
На видео особенности AWS Kinesis комментирует старший директор по управлению облачными корпоративными решениями Dell Бернард Голден.
Вокруг Hadoop уже сформирована своя экосистема, поэтому её противопоставление AWS Kinesis сегодня не вполне верное. По мнению старшего инженера-программиста в AdStage Гордона Уорли, AWS Kinesis скорее похож на другой открытый инструментом обработки данных — Twitter Storm.
В своих тестах Уорли обнаружил, что Kinesis соответствует принципу «эластичных вычислений» и может автоматически масштабироваться в зависимости от нагрузки. Она также устраняет некоторые сложности управления EC2 кластерами, с которыми сталкиваются при использовании Twitter Storm.
Уорли отмечает, что при более простой реализации по сравнению с пакетной обработкой данных в Hadoop Kinesis всё же не подходит для интеграции сложных потоков:
«Недостаток в том, что каждое приложение Kinesis состоит из одной процедуры. Вы не можете выполнять сложную потоковую обработку, как с Twitter Storm, пока не объедините несколько приложений Kinesis. Естественно, у меня есть некоторые опасения по этому поводу».
Каждую секунду один модуль Kinesis (service shard) обрабатывает до двух мегабайт данных, обеспечивая функциональность на уровне свыше тысячи транзакций. Пожалуй, главным преимуществом данной платформы можно считать хорошую интеграцию с другими компонентами Amazon Web Services и надёжность обработки данных в едином облаке.