Группа под руководством доцента лаборатории Колд Спринг Харбор (США) Михаила Шаца при участии Национального центра анализа и противодействия биологическим угрозам и Мэрилендского университета разработала программный пакет, который более чем в сто раз уменьшает число ошибок при определении последовательности нуклеотидов ДНК.
Девять лет назад было объявлено о расшифровке генома человека. Критерии полноты и точности проделанной работы до сих пор являются предметом дискуссий, но она так или иначе стала ключевым достижением в изучении генетики человека.
Дальнейшие перспективы усматривались в переходе от исследований общих закономерностей в структуре генома к анализу ДНК его конкретных представителей. Теоретически информация об эухроматической части генома пациента могла бы стать отличной базой для обоснованного выбора методов диагностики и лечения. Особенно она помогла бы в случаях заболеваний с высокой степенью наследственной обусловленности и в целях генетического консультирования. Однако на сегодня достижению этой задачи мешает целый ряд существенных проблем.
Одним из сдерживающих факторов является скорость процесса. Геном человека представлен 2,85 миллиарда пар нуклеотидов, и на первое определение их последовательности потребовалось около тринадцати лет. В дальнейшем удалось добиться многократного ускорения, но секвенсоры второго поколения работают с короткими участками ДНК и требуют большого числа ручных манипуляций. Сегодня считается, что именно разрабатываемые ДНК-секвенсоры третьего поколения позволят сделать большой шаг на пути внедрения персональной расшифровки генома в клиническую практику.
До недавнего времени их решающее преимущество (способность считывать более длинные последовательности нуклеотидов за один проход) омрачалось высоким процентом ошибок (более 15 процентов). На их устранение требовалось примерно столько же времени, сколько и на обработку избыточных данных, получаемых в результате работы моделей второго поколения.
Группа Шаца решила объединить сильные стороны методов секвенирования обоих поколений с помощью математического алгоритма, получившего название «гибридная коррекция ошибок». Данные, полученные в результате параллельного считывания ДНК короткими и длинными фрагментами, загружаются в программу сборки генома с открытым исходным кодом Celera Assembler. Применяемый алгоритм гибридной коррекции ошибок снижает их частоту до величины менее 0,1 процента и одновременно обеспечивает высокую скорость процесса.