Подготовка данных
В рамках данного практикума для поиска основных сигналов, связанных с инициацией транскрибции была взята архея Succinvibrio dextrinosolvens, по которой в 1м семестре был написан миниобзор. Используя файлы с ДНК-последовательностями (genomic.fna) и аннотациями (genomic.gff), с помощью скрипта, заимствованного у Масленникова Вячеслава, за что выражаю ему огромную благодарность, было полчено 3 файла:
Поиск в MEME
Так как в практикуме 8 поиски последовательности Шайн-Дальгарно не увенчались успехом, для данного практикума был выбран поиск мотивов старта транскрипции. Для поиска в meme через командную строку была использована команда:
meme train.fasta -dna -nmotifs 3 -minw 15 -maxw 25
Все 3 мотива достаточно надежны, судя по E-value. Во втором мотиве можно заметить часть последовательности TWATA, что напоминает вариацию TATA-бокса, поэтому дальнейший поиск будет производиться именно по этому мотиву.
Regex найденных мотивов:
SBTKSTSMWRBTCSTDVWRASSGY [GC][CGT][TA][GT][GCA]T[GC][CA][TA][AG][CTG][TC]C[GC][TA][GTA][ACG][AT][ACG][AT][GC][GC]G[CT]
RGTRTATWATAGCGCMYRTTK [GA]GT[GA]TA[TC][AT]ATAGCGC[AC][CT][GA]T[TC][GT]
CGCGMDATYRCACKT CGCG[CA][AG]AT[CT][GA]CAC[TG]T
Поиск в FIMO
Далее проверим находку RGTRTATWATAGCGCMYRTTK для групп контроля с помощью команд:
fimo --oc fimo_neg -motif RGTRTATWATAGCGCMYRTTK -thresh 0.001 meme_out/meme.txt negative.fasta
fimo --oc fimo_pos -motif RGTRTATWATAGCGCMYRTTK -thresh 0.001 meme_out/meme.txt positive.fasta
В группе отрицательного контроля было найдено 328 значимые находки (13.7% от всех последовтельностей). В группе положительного контроля было найдено 512 значимых находок (21.4% т вех последоваельностей).
Количество находок в положительном и отрицательном контроле отличается чуть больше, чем в 1,5 раза. Можно сделать вывод, что сигнал слабый. То, что сигал слабый, на самом деле не удивительно, так как мотив содержит высоковариабельные позиции (W, Y, K), что увеличивает шансы случайных совпадений. С другой стороны, у архей нет классического TATA-бокса, но есть Pribnow box (TATAAT), у археи Succinvibrio dextrinosolvens сайт связывания сигма-фактора (σ⁷⁰) полностью совпадает с консенсусным, поэтому немного странно, что он имеет слабый сигнал.