Поиск гомологов белка 6XHZ

Последовательность своего белка (ненасыщенной хондроитиндисахарид гидролазы) я взял в FASTA-формате из Uniprot. В качестве параметров Database я выбрал Swiss-prot, а также ограничил поиск параметра Organism до таксона bacteria. В Job Title указано название работы.

Здесь расположен получившийся текстовый файл. По итогу было найдено 5 белков, и я взял все, которые выдал Blast по данным параметрам, так как первые три являются достоверно гомологичными (ввиду E-value = 0.0), тогда как другие два имеют достаточно консервативные схожие участки с исходным белком. Три из них принадлежат бактериям из рода Streptococcus, остальные к роду Bacillus и Formosa. В один файл я загрузил все 5 последовательностей в формате FASTA и с помощью программы muscle -in pr13.fasta -out end.fasta провел выравнивание после чего загрузил в JalView.

Как можно увидеть, наибольшая схожесть наблюдается у 4-х белков (три вида Streptococcus и Bacillus) и имеется несколько консервативных участков по позициям [73-92],[119-128],[184-191],[231-240], а также [392-402] для всех 5-ти белков. Вероятно, эти участки выполняют функцию связывания сахаров (с их OH-группами) и катализируют реакцию гидролиза. Выделяющейся является бактерия Formosa, что неудивительно, ведь она отстоит систематически от других бактерии наиболее удаленно. У рода Bacillus наблюдается индель на N-конце, этот конец также обладает высокой вариабельностью среди Streptococcus, что говорит о его низкой значимости для работы белка.

Рис. 1, множественное выравнивание белков, найденных в Blast и визуализированное в JalView.

Коронавирус летучей мыши

Мной был выбран коронавирус летучей мыши (OS - Bat coronavirus HKU4 (BtCoV)) и его полипротеин репликазы (ID - R1AB_BCHK4, AC - P0C6F8, DE - Replicase polyprotein 1ab). Цепочка с 848-2784 является папаино-подобной протеиназой (Papaine-like proteinase), которая отвечает за отщепление репликазы, находящейся на N-конце полипротеина. Последовательность участка этой цепи.

При выравнивании в Blast мной было получено 100 находок и я взял первые 10 из них. Ссылка на выравнивание в Blast. Гомология наблюдается среди различных видов коронавирусов, что достаточно ожидаемо. Дальнейшее выравнивание при помощи muscle представлено здесь. Как видно на рис.1, имеются достаточно продолжительные консервативные участки у всех 9 представленных полипротеинов и исходной цепи, что может говорить о значимости этих позиций в выполнении различных функций и отборе против мутаций в этих положениях.

Рис. 2, множественное выравнивание muscle, визуализированное в JalView. Исходная цепь PLO расположена в нижней строчке.

E-value

При ограничении таксонов до вирусов количество находок сократилось со 100 до 68, так как среди них присутствовали бактерии, археи и даже грызуны.

E-value показывает сколько белков с аналогичным score или лучшим найдется случайным образом в базе данных. Поэтому E-value прямо пропорционально числу записей базе данных.

Я взял вирус густеры - в случае без ограничения таксонов его e-value составило 2e-9, тогда как при поиске среди вирусов 8e-11. Таким образом, доля белков вирусов в Swissprot составляет 8e-11/2e-9=0.04, то есть около 4% в базе данных составляют вирусные белки.

© Руслан Нагимов, 2021