Описание мотива в белках паттерном.

Был выбран класс Энолаз (Enolase), этот фермент катализирует реакцию превращения 2-фосфоглицерата в фосфоенолпируват

Был скачан список последовательностей ENO_* командой:

seqret @list.txt /P/y24/term4/bacteria-sw.fasta my_proteins.fasta

В list.txt cодержится список sw:ENO_..... всего 8 строк. Потом взяли и выровняли программой muscle и выделили консервативный блок R-E-[VI]-[LI]-D-S-R-G-N-P-T-[VIL]-E

Выравнивание
Рисунок 1. Консервативный блок.
Поискали паттерн командой:

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "R-E-[VI]-[LI]-D-S-R-G-N-P-T-X-E" -outfile fuzzpro_res.txt

Нашли 547 последовательнотсей содержащих паттер из всех 748 последовательностей содержащих ENO_*, не нашли 201.

Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Запустили meme:

meme my_proteins.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -oc meme_output

-protein — аминокислотные последовательности
-mod oops — по одному представителю мотива на последовательность
-nmotifs 3 — найти до трёх мотивов
-minw 8 — минимальная длина мотива 8
-maxw 15 — максимальная длина мотива 15

Все три мотива нашлись в восьми белках.

Рисунок 1. Консервативный блок.
meme.html

Запустили mast:

mast meme_output/meme.txt /P/y24/term4/bacteria-sw.fasta -oc mast_output

Значимых хитов (E-value < 10) 782. Также содержат все три мотива.

mast.html

Все три мотива также найдены во всех восьми белках; они расположены в порядке 1–3–2 с фиксированными расстояниями, между 1 (PVPMMNIINGGEHAD) и 3 (GYTAVISHRSGETED) - 200 а.о., между 3 и 2 (RSDRVAKYNQLLRIE) - 21 а.о. В базе из 337 тысяч белков все значимые находки (E-value < 10⁻⁵) аннотированы как енолазы.

Поиск последовательности Шайна — Дальгарно в геноме своего прокариота

Последовательность Шайна—Дальгарно (ПШД) — это рибосом-связывающий сайт мРНК прокариот, комплементарный 3′-концу 16S рРНК. Канонический мотив у бактерий — AGGAGG, расположенный на расстоянии ~5–13 нуклеотидов перед старт-кодоном. Цель данного анализа — найти мотив AGGAGG в геноме, оценить, является ли его частота статистически значимой, и определить долю находок, находящихся в функционально правильной позиции относительно аннотированных CDS.

Будем искать в геноме Vescimonas fastidiosaиз 1 семестра.

Поиск мотива на прямой и комплементарных цепях:

fuzznuc -sequence GCA_018326305.1_ASM1832630v1_genomic.fna \ -pattern AGGAGG -outfile outtt.txt

fuzznuc -sequence GCA_018326305.1_ASM1832630v1_genomic.fna \ -pattern CCTCCT -outfile out.txt

На прямой цепи 1,519 находок, на комплементарной 1,369, всего 2,888. Теперь посмотрим на ожидаемое количество находок:
A = 0.2199 (частота встречаемости)
С = 0.2199
G = 0.2833
T = 0.2161
По прямой цепи: P(AGGAGG) = P(A)² × P(G)⁴ = (0.2199)² × (0.2833)⁴ = 0.04836 × 0.006445 = 3.12 × 10⁻⁴
E(AGGAGG) = 3.12×10⁻⁴ × (2,504,406 − 6 + 1) ≈ 780
По комлементарной: P(CCTCCT) = P(C)⁴ × P(T)² = (0.2807)⁴ × (0.2161)² = 0.006208 × 0.04670 = 2.90 × 10⁻⁴
E(CCTCCT) = 2.90×10⁻⁴ × (2,504,406 − 6 + 1) ≈ 726
Ожидаемой чило находок всего 1506. Реальное число находок превышает в 1,92 раза. Если оценить по статистической значимости: z = (2,888 − 1,506) / √1,506 = 1,382 / 38.8 = 35.6, ( 35.6 > 0.05), то можно сделать вывод, что мотив AGGAGG/CCTCCT встречается в геноме статистически значимо чаще, чем ожидается при независимом распределении нуклеотидов

Функционально значимая ПШД должна находиться на расстоянии 5–13 нуклеотидов перед старт-кодоном (ATG, реже GTG или TTG) на той же цепи. Чтобы оценить долю истинных ПШД среди всех находок, из общего списка из 2,888 сайтов были случайным образом отобраны 15 сайтов, содержащих паттерн AGGAGG. Для каждого сайта проверялось наличие аннотированного CDS на той же цепи со старт-кодоном на расстоянии 5–13 нуклеотидов после конца мотива.

Из 15 случайно отобранных сайтов только 5 (30%) располагались на функционально правильном расстоянии (5–13 нт) перед аннотированным старт-кодоном CDS. Остальные 10 сайтов (70%) находились внутри кодирующих областей.

Получается всего треть находок скорее всего имеет какое то отношение к истине, скорее всего 70% это просто совпадение последовательности нуклеотидов, тк ПДШ является ПДШ только на определенном расстоянии от старт кодона.