Я выбрала домен IF-2B (PF01008). Это семейство включает субъединицы фактора инициации 2B альфа, бета и дельта у эукариот, субъединицы фактора инициации 2B 1 и 2 у архебактерий и некоторые белки с неизвестной функцией у прокариот. Фактор инициации 2 связывается с Met-тРНК, ГТФ и малой рибосомной субъединицей. Всего для данного домена есть 273 архитектуры, была выбрана архитектура содержащая два домена: IF-2B(PF01008) и APH(PF01636) (66 белков, репрезентативный - B7GD47).
Выравнивание последовательностей
После чистки выравнивания и работы с remove redundancy с порогом 92% осталось 47 последовательностей.
Материал для построения профиля
Материал для положительного контроля
Для негативного контроля я взяла белки с другой доменной архитектурой: PF04525 - PF01008 (35 белков), PF01008 - PF00156 (20 белков), также добавила белки выбранного семейства, получилась 121 последовательность.
Материал для отрицательного контроля
С помощью следующих команд был создан и откалиброван HMM-профиль.
hmm2build -g hmm_out.txt test11.fa
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt neg_all.fa > hmm2search_out.txt
Выдачи программ: профиль HMM двухдоменной архитектуры, находки в итоговой выборке.
С помощью скрипта получены следующие результаты:
Рис.1. Гистограмма весов последовательностей обучающей выборки
Рис.2. Гистограмма весов последовательностей позитивной выборки
Рис.3. Гистограмма весов последовательностей негативной выборки
По гистограммам видно, что позитивная и негативная выборки хорошо разделены.
Рис.4. ROC-кривая
Рис.5. Зависимость параметра F1 от веса
По ROC и F1 лучшим порогом был выбран 500. На гистограмме 1 это подтверждается. После 500 на графике F1 параметр начинает падать.