Выбор семейства

Было выбранно семейство Zinc finger, C2H2 type - Цинковые пальцы (PF00096). Белки с этим доменом обычно являются факторами транскрипции.

Аннотированных белков: 1641
ID: zf-C2H2
Seed: 151
Full: 2151122

Pham

Выбор подсемейства

Была выбранна доменная архитектура PF21276 - PF21367 - PF00096 - PF21276 , подсемейство содержит 738 белоков.

hmmbuild domain.hmm domains_PF00096.fasta

Так как всего белков в семействе 623 тыс. было принято решение работать только с аннотированными белками, их 1641, порог был установлен 35:

hmmsearch -T 35 -o results.txt --tblout results.tbl domain.hmm protein-matching-PF00096.fasta

Принадлежат подсемейству Не принадлежат
Найдены TP = 5 FP = 0
Не найдены FN = 733 TN = 1641

Оптимальным порогом выбран score ≥ 35, так как при этом значении достигается высокая специфичность (100%) - ни одного ложноположительного результата. Все 5 найденных белков являются представителями подсемейства. Низкая чувствительность (0.68%) объясняется тем, что профиль HMM построен по короткому фрагменту домена PF00096 (25 а.о.), и лишь малая часть из 738 белков подсемейства имеет достаточное сходство по этому фрагменту для превышения порога. Это очень хороший резульата, но можно сказать нам повезло, что в подсемействе всего 5 анатированных белков и мы нашли все 5 .