Современная наука всегда сопряжена с необходимостью обрабатывать колоссальные объёмы данных. Порой для того, чтобы осмыслить их, приходится изобретать нестандартные способы представления имеющейся информации. Нагляднее всего это можно увидеть в биологии и медицине.
Программный пакет с открытым исходным кодом Circos был создан Мартином Крживинским (Martin Krzywinski) из канадского Центра генетики в 2004 году как средство визуализации разнородных данных. Основными областями его применения стали биоинформатика и генетика. Вы наверняка видели созданные с помощью этой программы диаграммы на обложках научных журналов и в качестве иллюстраций к научно-популярным статьям.
На мой взгляд, Circos удачно демонстрирует, что между физиками и лириками разница предельно условная. Настоящая наука — это и есть искусство. Только взгляните на то, с каким изяществом можно анализировать биологические данные и сравнивать геномные последовательности.
По часовой стрелке (начиная от верхнего правого сектора этого круга) представлены геномы человека, шимпанзе, мыши и рыбки «дамский чулок». Каждый из цветов соответствует своей паре хромосом. На пересечении линий оказываются сходные геномные последовательности. Это даёт наглядную картину эволюционного развития и подчёркивает, как много наследственного материала мы разделяем с другими видами. (Изображение: Martin Krzywinski / EMBO)В текущем проекте, выполняемым совместно с британской библиотекой, сравниваются геномы человека и шестнадцати других видов — от лошади до утконоса.
Каждым кругом представлено сравнение одной пары хромосом. (Изображение: Martin Krzywinski).13 сентября 1848 года в результате взрыва строителю-железнодорожнику Финеасу Гейджу (Phineas Gage) пробило голову металлическим прутом. Несмотря на ужасающий характер травмы, он остался жив и навсегда вошёл в историю медицины как труднообъяснимый феномен.
На этом изображении моделируется характер мозговых нарушений Финеаса Гейджа, которые, вопреки ожиданиям врачей, оказались совместимыми с жизнью(изображение: Van Horn et al./PNAS).
На следующем изображении геномы представлены весьма своеобразно. Отображаются их характеристики, а именно — количество повторяющихся участков. Мартин поясняет, что, согласно алгоритму обработки, по ним выстраивается условная форма, которая выглядит более информативно:
Сравнение геномов холерного вибриона, вируса гепатита B, возбудителя стрептококковой пневмонии и малярийного плазмодия (изображение: Martin Krzywinski).«Некоторые из них получаются круглыми, другие выглядят как континенты или страны. Я просто подумал, что это более привлекательный способ смотреть на геном, чем просто записывать их последовательности».
Сегодня написаны подробные руководства по визуализации данных с помощью Circos, а наиболее актуальные вопросы обсуждаются в соответствующей Google-группе. Разработчики создали множество версий дистрибутивов Circos. Все они используют Perl — а значит, могут быть запущены как в среде Windows, так и в UNIX-окружении. Если же не хочется устанавливать ни один из них, то в качестве ознакомления можно воспользоваться и онлайн-версией.