Мой SRR4240358 это короткий рид генома бактерии Buchnera aphidicola str. Tuc7 с длиной 39, полученный по технологии Illumina.
Был установлен командой: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz и распакован командой gunzip SRR4240358.fastq.gz
Перед анализом данные NGS необходимо очистить от технических артефактов - адаптеров и низкокачественных участков. Для этой цели используется программа Trimmomatic.
Команда: TrimmomaticSE -phred33 SRR4240358.fastq trim_adapaters.fastq ILLUMINACLIP:all_adapters.fa:2:7:7 2>logs.txt-phred33: формат качества - это способ закодировать в символах текстового файла, насколько мы можем доверять каждой "букве" (нуклеотиду) в последовательности. ILLUMINACLIP:all_adapters.fa:2:7:7 - степ для удаление адапторов
Input Reads: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%). В результате очистки доля прочтений с адаптерами составила 1.66%. Затем прочтения были обрезаны с правого конца по порогу качества 20, после чего отфильтрованы по минимальной длине 32 нуклеотида.
Командой: TrimmomaticSE trim_adapaters.fastq SRR4240358.trim.fastq TRAILING:20 MINLEN:32 2>logs.txt Удалено было 2352447 (22.69%) чтений, осталось 8016437. Размер файла до триммирования - 1.1Gb, после - 826 Mb.
TRAILING:20 - удаляем с конца нулкеотиды с качеством ниже 20 MINLEN:32 - минимальная длина чтений - 32.Подготовка к-меров программой velveth
Команда: velveth . 31 -short -fastq SRR4240358.trim.fastq
Теперь производится сборка на основе этих k-меров с помощью прогараммы velvetg, командой: velvetg .
Сборка завершилась с N50, равным 8600. Контиги (файл contigs.fa) имеют стандартные для ассемблера заголовки, включающие информацию о длине и покрытии (например, >NODE_1_length_11615_cov_28.861988). Чтобы извлечь и ранжировать контиги по длине, был использован приведенный ниже конвейер. grep '^>' contigs.fa | sort -k4 -t '_' -n -r | less -t '_' - устанавливает разделитель полей как символ нижнего подчеркивания -k4 - указывает сортировать по четвертому полю (после разделения _). В нашем формате это поле содержит длину контига (11615) -r — сортировать в обратном порядке (по убыванию, -r от reverse)
Саммые длинные контиги: NODE_56_length_19821_cov_29.475859 (то есть контиг 56, длина 19821 в перекрывающихся 31-мерах, то есть длина в нуклеотидах = 19851 bp, покрытие 29.475859) NODE_34_length_18714_cov_29.922678 (контиг 34, длина 18744bp, покрытие 29.922678) NODE_40_length_16436_cov_30.793623 (контиг 40, длина 16466bp, покрытие 30.79
Анализ выявил контиги с аномальным покрытием, отклоняющимся от среднего в 5 и более раз: Высокое покрытие: 13 контигов (3.5%), средние значения: длина ~86 нт, покрытие ~284. Низкое покрытие: 11 контигов (3%), средние значения: длина ~61 нт, покрытие ~4. Характерно, что все контиги с аномальным покрытием имеют малую длину, так как короткие контиги часто являются консервативными участками
Три самых длинных контига я сравнила с геномом штамма сборки GCF_023208175.1 ((Идентификатор последовательности NZ_CP056772.1)
Контиг 56:| участок | однонуклеотидные замены | гэпы | процент длины континга выровненного на геноме |
|---|---|---|---|
| 539589–547393 | 1905/7950(24%) | 278/7950(3%) | 40,1 % |
| 549541-553878 | 824/4396(19%) | 80/4396(2%) | 22.17% |
Перекрывающихся выравниваний нет, есть небольшой разрыв посередине контига
Контиг 40:| участок | однонуклеотидные замены | гэпы | процент длины континга выровненного на геноме |
|---|---|---|---|
| 506843 -513669 | 1591/6939 (21%) | 165/6939(2%) | 42, 2% |
| 501931 -506856 | 1139/5015 (23%) | 158/5015(3%) | 30,5 % |
Большая часть контига легла на геном.
Контиг 34:| участок | однонуклеотидные замены | гэпы | процент длины континга выровненного на геноме |
|---|---|---|---|
| 53876 -59319 | замены 1115/5525 (20%) | 158/5525(2%) | 29,5 % |
| 47813 -50254 | 516/2469 (21%) | 56/2469(2%) | 13,2% |
| 59517 -61377 | 350/1878 (19%) | 34/1878(1%) | 10% |
| 53143 -53608 | 89/470 (19%) | 7/470(1%) | 2,5 % |
Видно, что меньшая часть контига легла на геном. При этом он находится в другой части генома.