Задание 1. Получение последовательности ДНК на основании данных, полученных из капиллярного секвенатора. Отчёт о проблемах при чтении хроматограмм

Для начала я открыл два файла прочтений прямой и обратной цепочки в Ugene (43_F.ab1 и 43_R.ab1).


Параметры прямой хроматограммы:

Длина прочтения: 384 нуклеотида

Нечитаемый участок с 5'-конца: 1-25 нуклеотиды. С 3'-конца: 379-384 нуклеотиды.

Уровень шума: 15%


Параметры обратной хроматограммы:

Длина прочтения: 382 нуклеотида

Нечитаемый участок с 5'-конца: 1-27 нуклеотиды. С 3'-конца: 378-382 нуклеотиды.

Уровень шума: 8%


Сборка контига

Для сборки контига я воспользовался инструментом Ugene "Выравнивание последовательностей на референсную последовательность" и в качестве консенсуса выбрал 43_F.ab1. Затем полученное выравнивание я снова загрузил в качестве референса и получил итоговый файл, который можно скачать по ссылке в FASTA-формате (консенсус - первая последовательность), ссылка на проект.

Общая длина выравнивания составила 346 нуклеотидов. Длина перекрывания составила 296 нуклеотидов.

В прямом прочтений с 5'-конца Ugene убрал 30 нуклеотидов, а с 3'-конца 9 нуклеотидов.

В обратном прочтений с 5'-конца Ugene убрал 28 нуклеотидов, а с 3'-конца 9 нуклеотидов.

Я провел корректировку и в конечном итоге получился следующий консенсус, ссылка на проект. Ниже представлены несколько проблемных мест, с которыми я столкнулся.


Проблемные места:

1. В данном месте несколько раз подряд идут аденины и 43-й нуклеотид неопределен. Но на второй хроматограмме хорошо виден отдельный пик аденина, поэтому он был заменен.

2. На этом участке неопределены 50-й и 55-й нуклеотиды. Для 50-го нуклеотида на первой хроматограмме виден шум, однако на второй его нет и четко виден пик аденина. В случае 55-го нуклеотида аналогичная ситуация с шумом, однако вторая хроматограмма имеет четкий пик цитозина.

3. 79-й и 83-й нуклеотиды неопределены. Для первого нуклеотида можно определить опять же второй хроматограмме - аденин. К сожалению, для 83-го это невозможно, так как в обоих случаях высокий уровень шума, поэтому я оставил эту позицию нетронутой.

4. В этой ситуации два пика наложились друг на друга, что вызвало неопределенность в 199-й позиции. Однако, как обычно, нас спасает вторая хроматограмма, в которой отчетливо виден пик аденина.

5. Ближе к концу выравнивания пики начинают идти беспорядочно и для 239-го нуклеотида возникла неопределенность. В этот раз спасительной оказалась первая хроматограмма, на которой пик принадлежит гуанину. Дальше идет интересная истории с несколькими аденинами подряд. Во втором случае пик гуанина распространился на три нуклеотида, однако на более трезво выглядящей первой хроматограмме можно определить, что 243 нуклеотид - гуанин.


Задание 2. Нечитаемые фрагменты хроматограммы

На данном изображении представлен нечитаемый фрагмент хроматограммы. Множество беспорядочных пиков обусловлены свечением отдельных нуклеотидов, флуорофоров и прочих неспецифичных последовательностей. Именно это является причиной нечитаемых участков на краю хроматограммы.

© Руслан Нагимов, 2021