Для работы была выбрана бактерия Bacillus Subtilis. Для нее была скачена сборка и файл с аннотацией. C помощью сервиса Operon-mapper был получен список оперонов. Выдача содержала информацию о 2290 оперонах. Были отобраны 50 оперонов, связаных с 'housekeeping'.
Используемые файлы:
- train.fa - содержит последовательности тренировочного набора
- test.fa - содержит последовательности тестового набора
- neg_contr.fa - содержит последовательности негативного контроля
Был использован локальный MEME со следующими параметрами: поиск в ДНК (-dna), число мотивов для поиска — 3 (-nmotifs 3), длина находки от 5 до 50 нуклеотидов (-minw 5 -maxw 50), остальное по умолчанию
meme train.fa -dna -minw 5 -maxw 50 -nmotifs 3
Было найдено 3 мотива:
Находка | E-value |
GGKSMKKTTTTTVTTTKSNAWAAADGDDNA | 4.0e-011 |
AAAAGGAGG | 9.8e-005 |
YAYWDMMGNHCTCDKCCHTTWKTSKRDRRB | 1.8e-004 |
Был взят первый мотив, потому что он имеет минимальное значение E-value. Его паттерн (пункт "regular expression" в текстовой выдаче) - GCRYMHKDTGYGCDTYSHGCYTCGMCGWYYTGWYSGCGYTS.
Рис.1. LOGO 1-ого мотива.
Рис.2. LOGO 2-ого мотива.
Рис.3. LOGO 3-ого мотива.
Для поиска первого мотива в положительном и отрицательном контролях были запущены следующие команды:
fimo --norc -motif YAYWDMMGNHCTCDKCCHTTWKTSKRDRRB -thresh 0.001 ./meme_out/meme.txt test.fa
fimo --norc -motif YAYWDMMGNHCTCDKCCHTTWKTSKRDRRB -thresh 0.001 ./meme_out/meme.txt neg_contr.fa
Было получено 20 находок в 15 последовательностях из 50 в положительном контроле и 4 находки в 3 последовательностях из 50 в негативном контроле.