Стартап MapD, разрабатывающий реляционную систему управления базами данных со встроенными высокопроизводительными аналитическим и визуализационным движками, удостоился награды на конференции Nvidia 2014 GPU Technology, проводимой известным производителем графических ускорителей.
Особенность MapD заключается в том, что она использует для обработки данных мощности графического ускорителя. Это позволяет единственному серверу, стоящему около тысячи долларов, справляться с такими массивами информации, которые в противном случае потребовали бы целого кластера. Впрочем, MapD и кластеры — совсем не взаимоисключающие понятия. При необходимости эта разработка позволяет распределить исполнение задачи по сотням и даже тысячам машин.
Само по себе использование графических ускорителей для обработки больших объёмов данных — не новая идея. На той же конференции рассказывали о решениях на базе программно-аппаратной архитектуры Nvidia CUDA, которые применяют в «Яндексе», IBM, Netflix и Baidu. Однако достижения MapD выделяются даже на таком фоне.
Стартап продемонстрировал на Nvidia 2014 GPU Technology возможности своего движка на примере веб-приложения, в реальном времени перерабатывающего и визуализирующего сотни миллионов сообщений, опубликованных в «Твиттере» в период с января 2011 до сентября 2013 года.
База данных, построенная компанией, содержит около 350 миллионов твитов и «крутится» на единственном сервере, оснащённом восьмёркой графических процессоров Nvidia K40. В сумме в его графическую память умещается до 96 гигабайт информации, которая может обрабатываться со скоростью более двух терабайт в секунду. Для того, чтобы прочесать весь набор данных, сервер тратит от 5 до 30 миллисекунд (продолжительность зависит от запроса).
Все данные хранятся оперативной памяти сервера. Сверхбыстрая графическая память исполняет роль кеша, в который попадает та информация, которая требуется чаще всего.
Скорости добавляет ещё и то, что MapD занимается не только хранением и извлечением данных. Анализ и визуализация являются неотъемлемыми частями системы. В результате обработка информации может производиться на месте: её не требуется доставать из оперативной памяти и каким-то образом передавать другой программе.
Помимо быстроты, новую СУБД отличает возможность потокового добавления новых данных в реальном времени. Это уже привлекло к MapD внимание таких компаний, как Facebook и PayPal. Они рассматривают её применение в качестве основы для своих аналитических систем.