1. Подготовка чтений

У меня были риды с id: SRR4240378

Для начала необходимо убрать адаптеры и для этого я собрал все последовательности адаптеров в один файл и удалил их, используя команду:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240378.fastq.gz SRR4240378_noad.fastq.gz ILLUMINACLIP:ad.fasta:2:7:7.

Далее для триммирования нуклеотидов с качеством ниже 20 и удаления ридов длиной меньше 32 нуклеотидов я применил команду:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240378_noad.fastq.gz SRR4240378_filtered.fastq.gz TRAILING:20 MINLEN:32

После удаления адаптеров и отбора качества из 4420587 ридов осталось 4154738, размер файла уменьшился с 91 до 84 Мб.


2. Сборка

Начал с получения k-меров длиной 31 и использовал для этого команду:

velveth velvethsrr 31 -short -fastq SRR4240378_filtered.fastq.gz

После чего собрал контиги, используя:

velvetg velvethsrr

Из полученных файлов (stats.txt и других) можно узнать некоторые характеристики:

Имеются контиги с аномально малым покрытием (от 1 до 5). Они все имеют длину меньшую 70 (например, контиг 285 длиной 19 с покрытие 2,01).


3. Анализ

Контиги выравнивались на Buchnera aphidicola (AC — CP009253) с помощью NCBI MegaBlast с Align two or more sequences. Ниже приведена информации о самых длинных выравненных участках (так как контиг выравнивается не единым целым, а кусочно, то ,соответсвенно, имеется несколько участков, выравненных на геном). И самый длинный из таких я рассматривал.

Контиг 8

Выровнялся в 7 местах, ниже карта локального сходства и участки выравниваний.

Участок 1 (8431-16876) выровнялся на участок генома 500370-508860, участок 2 (617-6740) выровнялся на координаты генома 510438-516539, участок 3 (29595-35594) на геном 481997 до 488106, участок 4 (17050-21266) на геном с 496111 до 500325, участок 5 (22746-24060) на геном с 493487 до 494864, участок 6 (36068-36747) от 480874 до 481545, участок 7 (22436-22554) на геном от 495033 до 495148.

По DotPlot'у можно заключить, что произошло несколько делеций (прерывание прямой) и шел активный мутационный процесс (по количеству гэпов и идентичности). Вдобавок ко всему, кривая имеет отрицательный наклон, то есть контиг записывался в обратном направлении.

Контиг 22

Выровнялся в 3 местах.

Участок 1 (6464-16028) на координаты генома 35124 до 44693, участок 2 (71-3818) на геном с 47158 до 50904, участок 3 (4303-6317) на геном с 44768 до 46776.

По DotPlot'у можно сказать, что произошло пару небольших делеций (примерно 70 и 400) и мутировал этот участок с меньшей скоростью (нежели для приведенного выше). Также отрицательный наклон прямой также говорит об обратной записи контига.

Контиг 57

Выровнялся в 2 местах.

Участок 1 (9754-19341) на геном с 573092 до 582686, участок 2 (5348-8066) на геном с 584239 до 587055.

По DotPlot'у можно заключить, что имелась одна делеция размером примерно 1800 п.н. и опять же отрицательный наклон кривой говорит об обратной записи контига.

© Руслан Нагимов, 2021