Исследователями из университета штата Мичиган предложена методика обработки данных микробиологических и генетических исследований, позволяющая в ряде случаев отказаться от использования ёмких хранилищ данных и суперкомпьютеров. Современные исследования в области медицины, биологии и генетики базируются на обработке многих терабайт данных, собираемых после каждого эксперимента.
Наиболее остро такая проблема чувствуется при ДНК-секвенировании для анализа генетических последовательностей.
Например, объём первичных данных, получаемых при изучении микробных сообществ в 1 грамме почвы, превышает таковой у проекта «геном человека» в тысячу раз.
Существующие методики требуют для обработки таких массивов мощной вычислительной техники и длительного ожидания. Даже передача копии данных в другую лабораторию становится проблемой. Исследователи либо ждут своей очереди к суперкомпьютеру, либо пытаются распараллелить и потихоньку обсчитать на десятках обычных ПК – по времени результат получается сопоставимым.
Новый алгоритм обработки исходных данных использует умную фильтрацию на раннем этапе. Это позволяет сократить требования к объёму оперативной памяти в 30 – 40 раз, то есть избавляет от необходимости оперировать терабайтами в каждый момент времени.
Авторы заинтересованы в распространении своего алгоритма в научной среде. Они сделали исходный код открытым и написали вспомогательное программное обеспечение. Также они пригласили всех желающих модифицировать его и адаптировать для различных применений. Инициатива пришлась по вкусу: другая научная группа уже разрабатывает на основе этого алгоритма более быструю программу сборки генома.