Сборка de novo

Мой SRR4240358 это короткий рид генома бактерии Buchnera aphidicola str. Tuc7 с длиной 39, полученный по технологии Illumina.

Был установлен командой: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz и распакован командой gunzip SRR4240358.fastq.gz

Подготовка чтений программой Trimmomatic

Перед анализом данные NGS необходимо очистить от технических артефактов - адаптеров и низкокачественных участков. Для этой цели используется программа Trimmomatic.


Команда: TrimmomaticSE -phred33 SRR4240358.fastq trim_adapaters.fastq ILLUMINACLIP:all_adapters.fa:2:7:7 2>logs.txt

-phred33: формат качества - это способ закодировать в символах текстового файла, насколько мы можем доверять каждой "букве" (нуклеотиду) в последовательности.
ILLUMINACLIP:all_adapters.fa:2:7:7 - степ для удаление адапторов

Input Reads: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%).
В результате очистки доля прочтений с адаптерами составила 1.66%. Затем прочтения были обрезаны с правого конца по порогу качества 20, после чего отфильтрованы по минимальной длине 32 нуклеотида.

Командой: TrimmomaticSE trim_adapaters.fastq SRR4240358.trim.fastq TRAILING:20 MINLEN:32 2>logs.txt
Удалено было 2352447 (22.69%) чтений, осталось 8016437. Размер файла до триммирования - 1.1Gb, после - 826 Mb.


TRAILING:20 - удаляем с конца нулкеотиды с качеством ниже 20
MINLEN:32 - минимальная длина чтений - 32.

Сборка

Подготовка к-меров программой velveth

Команда: velveth . 31 -short -fastq SRR4240358.trim.fastq

Теперь производится сборка на основе этих k-меров с помощью прогараммы velvetg, командой:
velvetg .

Сборка завершилась с N50, равным 8600. Контиги (файл contigs.fa) имеют стандартные для ассемблера заголовки, включающие информацию о длине и покрытии (например, >NODE_1_length_11615_cov_28.861988). Чтобы извлечь и ранжировать контиги по длине, был использован приведенный ниже конвейер.
grep '^>' contigs.fa | sort -k4 -t '_' -n -r | less
-t '_' - устанавливает разделитель полей как символ нижнего подчеркивания
-k4 - указывает сортировать по четвертому полю (после разделения _). В нашем формате это поле содержит длину контига (11615)
-r — сортировать в обратном порядке (по убыванию, -r от reverse)

Саммые длинные контиги:
NODE_56_length_19821_cov_29.475859 (то есть контиг 56, длина 19821 в перекрывающихся 31-мерах, то есть длина в нуклеотидах = 19851 bp, покрытие 29.475859)
NODE_34_length_18714_cov_29.922678 (контиг 34, длина 18744bp, покрытие 29.922678)
NODE_40_length_16436_cov_30.793623 (контиг 40, длина 16466bp, покрытие 30.79

Анализ выявил контиги с аномальным покрытием, отклоняющимся от среднего в 5 и более раз:
Высокое покрытие: 13 контигов (3.5%), средние значения: длина ~86 нт, покрытие ~284.
Низкое покрытие: 11 контигов (3%), средние значения: длина ~61 нт, покрытие ~4. Характерно, что все контиги с аномальным покрытием имеют малую длину, так как короткие контиги часто являются консервативными участками

Анализ

Три самых длинных контига я сравнила с геномом штамма сборки GCF_023208175.1 ((Идентификатор последовательности NZ_CP056772.1)


Контиг 56:
участок однонуклеотидные замены гэпы процент длины континга выровненного на геноме
539589–547393 1905/7950(24%) 278/7950(3%) 40,1 %
549541-553878 824/4396(19%) 80/4396(2%) 22.17%
Рисунок 1. DotPlot выравнивания контига 56

Перекрывающихся выравниваний нет, есть небольшой разрыв посередине контига


Контиг 40:
участок однонуклеотидные замены гэпы процент длины континга выровненного на геноме
506843 -513669 1591/6939 (21%) 165/6939(2%) 42, 2%
501931 -506856 1139/5015 (23%) 158/5015(3%) 30,5 %
Рисунок 2. DotPlot выравнивания контига 40

Большая часть контига легла на геном.


Контиг 34:
участок однонуклеотидные замены гэпы процент длины континга выровненного на геноме
53876 -59319 замены 1115/5525 (20%) 158/5525(2%) 29,5 %
47813 -50254 516/2469 (21%) 56/2469(2%) 13,2%
59517 -61377 350/1878 (19%) 34/1878(1%) 10%
53143 -53608 89/470 (19%) 7/470(1%) 2,5 %
Рисунок 3. DotPlot выравнивания контига34

Видно, что меньшая часть контига легла на геном. При этом он находится в другой части генома.