Практикум 9

Подготовка данных

В рамках данного практикума для поиска основных сигналов, связанных с инициацией транскрибции была взята архея Succinvibrio dextrinosolvens, по которой в 1м семестре был написан миниобзор. Используя файлы с ДНК-последовательностями (genomic.fna) и аннотациями (genomic.gff), с помощью скрипта, заимствованного у Масленникова Вячеслава, за что выражаю ему огромную благодарность, было полчено 3 файла:

  • положительный контроль

  • отрицательный контроль

  • обучение

  • Первый фал содержит 100 нуклеотидов перед старт кодоном для каждого CDS, второй 100 нуклеотидов после старт кодона, а третий - наиболее консервативные из первого файла, где почти наверняка будет содержаться нужный мотив.

  • скрипт
  • Поиск в MEME

    Так как в практикуме 8 поиски последовательности Шайн-Дальгарно не увенчались успехом, для данного практикума был выбран поиск мотивов старта транскрипции. Для поиска в meme через командную строку была использована команда:

    meme train.fasta -dna -nmotifs 3 -minw 15 -maxw 25

    Все 3 мотива достаточно надежны, судя по E-value. Во втором мотиве можно заметить часть последовательности TWATA, что напоминает вариацию TATA-бокса, поэтому дальнейший поиск будет производиться именно по этому мотиву.

  • Ссылка на текстовую выдачу MEME.
  • Рис.1. Мотив SBTKSTSMWRBTCSTDVWRASSGY, E-value = 3.8e-007
    Рис.2.Мотив RGTRTATWATAGCGCMYRTTK, E-value = 4.0e+002
    Рис.3.Мотив CGCGMDATYRCACKT, E-value = 5.2e+002

    Regex найденных мотивов:
    SBTKSTSMWRBTCSTDVWRASSGY [GC][CGT][TA][GT][GCA]T[GC][CA][TA][AG][CTG][TC]C[GC][TA][GTA][ACG][AT][ACG][AT][GC][GC]G[CT]
    RGTRTATWATAGCGCMYRTTK [GA]GT[GA]TA[TC][AT]ATAGCGC[AC][CT][GA]T[TC][GT]
    CGCGMDATYRCACKT CGCG[CA][AG]AT[CT][GA]CAC[TG]T

    Поиск в FIMO

    Далее проверим находку RGTRTATWATAGCGCMYRTTK для групп контроля с помощью команд:

    fimo --oc fimo_neg -motif RGTRTATWATAGCGCMYRTTK -thresh 0.001 meme_out/meme.txt negative.fasta

    fimo --oc fimo_pos -motif RGTRTATWATAGCGCMYRTTK -thresh 0.001 meme_out/meme.txt positive.fasta

    В группе отрицательного контроля было найдено 328 значимые находки (13.7% от всех последовтельностей). В группе положительного контроля было найдено 512 значимых находок (21.4% т вех последоваельностей).

  • Положительный контроль

  • Отрицательный контроль
  • Количество находок в положительном и отрицательном контроле отличается чуть больше, чем в 1,5 раза. Можно сделать вывод, что сигнал слабый. То, что сигал слабый, на самом деле не удивительно, так как мотив содержит высоковариабельные позиции (W, Y, K), что увеличивает шансы случайных совпадений. С другой стороны, у архей нет классического TATA-бокса, но есть Pribnow box (TATAAT), у археи Succinvibrio dextrinosolvens сайт связывания сигма-фактора (σ⁷⁰) полностью совпадает с консенсусным, поэтому немного странно, что он имеет слабый сигнал.