Сборка de novo

Мой SRR4240358 это короткий рид генома бактерии Buchnera aphidicola str. Tuc7 с длиной 39, полученный по технологии Illumina.

Был установлен командой: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz и распакован командой gunzip SRR4240358.fastq.gz

Подготовка чтений программой Trimmomatic

Перед анализом данные NGS необходимо очистить от технических артефактов - адаптеров и низкокачественных участков. Для этой цели используется программа Trimmomatic.

Команда: TrimmomaticSE -phred33 SRR4240358.fastq trim_adapaters.fastq ILLUMINACLIP:all_adapters.fa:2:7:7 2>logs.txt

-phred33: формат качества - это способ закодировать в символах текстового файла, насколько мы можем доверять каждой "букве" (нуклеотиду) в последовательности.
ILLUMINACLIP:all_adapters.fa:2:7:7 - степ для удаление адапторов

Input Reads: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%).
В результате очистки доля прочтений с адаптерами составила 1.66%. Затем прочтения были обрезаны с правого конца по порогу качества 20, после чего отфильтрованы по минимальной длине 32 нуклеотида.

Командой: TrimmomaticSE trim_adapaters.fastq SRR4240358.trim.fastq TRAILING:20 MINLEN:32 2>logs.txt
Удалено было 2352447 (22.69%) чтений, осталось 8016437. Размер файла до триммирования - 1.1Gb, после - 826 Mb.

TRAILING:20 - удаляем с конца нулкеотиды с качеством ниже 20
MINLEN:32 - минимальная длина чтений - 32.

Сборка

Подготовка к-меров программой velveth

Команда: velveth . 31 -short -fastq SRR4240358.trim.fastq

Теперь производится сборка на основе этих k-меров с помощью прогараммы velvetg, командой:
velvetg .

Сборка завершилась с N50, равным 8600. Контиги (файл contigs.fa) имеют стандартные для ассемблера заголовки, включающие информацию о длине и покрытии (например, >NODE_1_length_11615_cov_28.861988). Чтобы извлечь и ранжировать контиги по длине, был использован приведенный ниже конвейер.
grep '^>' contigs.fa | sort -k4 -t '_' -n -r | less
-t '_' - устанавливает разделитель полей как символ нижнего подчеркивания
-k4 - указывает сортировать по четвертому полю (после разделения _). В нашем формате это поле содержит длину контига (11615)
-r — сортировать в обратном порядке (по убыванию, -r от reverse)

Саммые длинные контиги:
NODE_56_length_19821_cov_29.475859 (то есть контиг 56, длина 19821 в перекрывающихся 31-мерах, то есть длина в нуклеотидах = 19851 bp, покрытие 29.475859)
NODE_34_length_18714_cov_29.922678 (контиг 34, длина 18744bp, покрытие 29.922678)
NODE_40_length_16436_cov_30.793623 (контиг 40, длина 16466bp, покрытие 30.79

Анализ выявил контиги с аномальным покрытием, отклоняющимся от среднего в 5 и более раз:
Высокое покрытие: 13 контигов (3.5%), средние значения: длина ~86 нт, покрытие ~284.
Низкое покрытие: 11 контигов (3%), средние значения: длина ~61 нт, покрытие ~4. Характерно, что все контиги с аномальным покрытием имеют малую длину, так как короткие контиги часто являются консервативными участками

Анализ

Три самых длинных контига я сравнила с геномом штамма сборки GCF_023208175.1 ((Идентификатор последовательности NZ_CP056772.1)

Контиг 56:

участок	однонуклеотидные замены	гэпы	процент длины континга выровненного на геноме
539589–547393	1905/7950(24%)	278/7950(3%)	40,1 %
549541-553878	824/4396(19%)	80/4396(2%)	22.17%

**Рисунок 1.** DotPlot выравнивания контига 56

Перекрывающихся выравниваний нет, есть небольшой разрыв посередине контига

Контиг 40:

участок	однонуклеотидные замены	гэпы	процент длины континга выровненного на геноме
506843 -513669	1591/6939 (21%)	165/6939(2%)	42, 2%
501931 -506856	1139/5015 (23%)	158/5015(3%)	30,5 %

**Рисунок 2.** DotPlot выравнивания контига 40

Большая часть контига легла на геном.

Контиг 34:

участок	однонуклеотидные замены	гэпы	процент длины континга выровненного на геноме
53876 -59319	замены 1115/5525 (20%)	158/5525(2%)	29,5 %
47813 -50254	516/2469 (21%)	56/2469(2%)	13,2%
59517 -61377	350/1878 (19%)	34/1878(1%)	10%
53143 -53608	89/470 (19%)	7/470(1%)	2,5 %

**Рисунок 3.** DotPlot выравнивания контига34

Видно, что меньшая часть контига легла на геном. При этом он находится в другой части генома.