Практикум 11

Я выбрала домен IF-2B (PF01008). Это семейство включает субъединицы фактора инициации 2B альфа, бета и дельта у эукариот, субъединицы фактора инициации 2B 1 и 2 у архебактерий и некоторые белки с неизвестной функцией у прокариот. Фактор инициации 2 связывается с Met-тРНК, ГТФ и малой рибосомной субъединицей. Всего для данного домена есть 273 архитектуры, была выбрана архитектура содержащая два домена: IF-2B(PF01008) и APH(PF01636) (66 белков, репрезентативный - B7GD47).

Выравнивание последовательностей

После чистки выравнивания и работы с remove redundancy с порогом 92% осталось 47 последовательностей.

Материал для построения профиля

Материал для положительного контроля

Для негативного контроля я взяла белки с другой доменной архитектурой: PF04525 - PF01008 (35 белков), PF01008 - PF00156 (20 белков), также добавила белки выбранного семейства, получилась 121 последовательность.

Материал для отрицательного контроля

С помощью следующих команд был создан и откалиброван HMM-профиль.

hmm2build -g hmm_out.txt test11.fa
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt neg_all.fa > hmm2search_out.txt

Выдачи программ: профиль HMM двухдоменной архитектуры, находки в итоговой выборке.

С помощью скрипта получены следующие результаты:

Итоговая таблица

Рис.1. Гистограмма весов последовательностей обучающей выборки

Рис.2. Гистограмма весов последовательностей позитивной выборки

Рис.3. Гистограмма весов последовательностей негативной выборки

По гистограммам видно, что позитивная и негативная выборки хорошо разделены.

Рис.4. ROC-кривая

Рис.5. Зависимость параметра F1 от веса

По ROC и F1 лучшим порогом был выбран 500. На гистограмме 1 это подтверждается. После 500 на графике F1 параметр начинает падать.