Было выбранно семейство Zinc finger, C2H2 type - Цинковые пальцы (PF00096). Белки с этим доменом обычно являются факторами транскрипции.
Аннотированных белков: 1641 ID: zf-C2H2 Seed: 151 Full: 2151122
Была выбранна доменная архитектура PF21276 - PF21367 - PF00096 - PF21276 , подсемейство содержит 738 белоков.
hmmbuild domain.hmm domains_PF00096.fasta
Так как всего белков в семействе 623 тыс. было принято решение работать только с аннотированными белками, их 1641, порог был установлен 35:
hmmsearch -T 35 -o results.txt --tblout results.tbl domain.hmm protein-matching-PF00096.fasta
| Принадлежат подсемейству | Не принадлежат | |
|---|---|---|
| Найдены | TP = 5 | FP = 0 |
| Не найдены | FN = 733 | TN = 1641 |
Оптимальным порогом выбран score ≥ 35, так как при этом значении достигается высокая специфичность (100%) - ни одного ложноположительного результата. Все 5 найденных белков являются представителями подсемейства. Низкая чувствительность (0.68%) объясняется тем, что профиль HMM построен по короткому фрагменту домена PF00096 (25 а.о.), и лишь малая часть из 738 белков подсемейства имеет достаточное сходство по этому фрагменту для превышения порога. Это очень хороший резульата, но можно сказать нам повезло, что в подсемействе всего 5 анатированных белков и мы нашли все 5 .