Аннотация. В работе проведено комплексное исследование генома и протеома глубоководной термофильной бактерии Oceanithermus profundus. Дана общая характеристика вида, проанализировано распределение длин белков, идентифицированы старт-кодоны во всех кодирующих последовательностях, исследованы гипотетические белки по нескольким критериям: длина, распределение по репликонам и цепям ДНК.
Таксономическая принадлежность [1]:
Домен: Bacteria
Царство: Thermotogati
Филлум: Deinococcota
Класс: Deinococci
Порядок: Thermales
Семейство: Thermaceae
Род: Oceanithermus
Вид: Oceanithermus profundus
Oceanithermus profundus — это умеренно термофильная, микроаэрофильная, факультативно хемолитогетеротрофная бактерия, выделенная из глубоководного гидротермального источника в районе 13° с.ш. на Восточно-Тихоокеанском поднятии на глубине 2600 м. Клетки представляют собой грамотрицательные неподвижные палочки. Организм растет в диапазоне температур 40–68°C (оптимум 60 °C), pH 5,5–8,4 (оптимум pH 7,5) и концентрации NaCl 10–50 г/л (оптимум 30 г/л). Он растет хемоорганогетеротрофно на углеводах, белковых субстратах, органических кислотах и спиртах, используя кислород или нитрат в качестве акцептора электронов. Кроме того, он способен к литогетеротрофному росту с молекулярным водородом в качестве источника энергии. Содержание Г+Ц в геномной ДНК составляет 62,9%. Филогенетический анализ последовательности 16S рРНК помещает его в семейство Thermaceae [2]. В данной работе приводится краткий обзор генома и протеома Oceanithermus profundus.
Данные по геному исследуемой бактерии были взяты с сайта Национального Центра Биотехнологической информации (NCBI) [3]. Использовалась сборка генома GCF_000183745.1. Для поиска старт-кодонов в fasta-файле генома Oceanithermus profundus мы пользовались средствами bash. Для построения диаграмм мы использовали онлайн-сервис Google Sheets. Наиболее часто использовалась формула =COUNTIFS.
На рисунке 1 представлена гистограмма длин белков Oceanithermus profundus. По данной гистограмме видно, что наиболее часто встречающаяся длина белкового продукта находится в диапазоне от 140 до 180 аминокислотных остатков. Начиная со 180 аминокислотных остатков, с увеличением длины количество белков убывает, однако не всегда равномерно. Самый короткий белок имеет длину 27 аминокислотных остатков, самый длинный – 2686. Средняя длина белка – 315 аминокислотных остатков.
Более подробно ознакомиться с полученными значениями можно в таблице S1 сопроводительных материалов, лист prot_lengths_hist.
В ходе работы были проанализированы все кодирующие последовательности генома Oceanithermus profundus на предмет наличия разных старт-кодонов. Мы нашли количество всех старт-кодонов отдельно во всех CDS, псевдогенах и обычных генах. Полученные значения были импортированы в электронную таблицу (см. таблицу S2 сопроводительных материалов). Наиболее часто встречающийся старт-кодон — ATG (1678 раз во всех CDS, 1635 раз в псевдогенах и 3 раза в обычных генах), на втором месте — GTG (620 раз во всех CDS, 1 раз в псевдогенах и 619 раз в обычных генах).
Текст скриптов, использованных в исследовании, можно найти в сопроводительных материалах (S4).
Было выяснено, что в протеоме Oceanithermus profundus присутствуют гипотетические белки (hypothetical proteins).
Гипотетический белки — это белки, предсказанные исключительно на основе нуклеотидных последовательностей, а также белковые последовательности с неизвестной функцией [4].
Для удобства анализирования характеристики генов, кодирующих гипотетические белки, и самих гипотетических белков были импортированы в отдельную таблицу (см. таблицу S3 сопроводительных материалов, лист Hypothetical proteins).
Нами было проанализировано соотношение гипотетических белков и белков с известной функцией в протеоме Oceanithermus profundus. Общее количество белков Oceanithermus profundus – 2785, из них гипотетических белков – 388, белков с известной функцией – 2397.
Полученные результаты представлены на круговой диаграмме (рисунок 2).
Рисунок 2 демонстрирует, что количество гипотетических белков составляет 16,2% от общего количества белков, т.е функция большинства белков Oceanithermus profundus известна.
Далее с помощью Google Sheets была построена гистограмма длин гипотетических белков Oceanithermus profundus (рисунок 3).
По данной гистограмме видно, что наиболее часто встречающаяся длина белкового продукта находится в диапазоне от 60 до 100 аминокислотных остатков. Начиная со 100 аминокислотных остатков, с увеличением длины количество белков убывает, однако не всегда равномерно. Самый короткий белок имеет длину 45 аминокислотных остатков, самый длинный – 1814. Средняя длина белка – 211 аминокислотных остатков. Распределение длин гипотетических белков похоже по форме на распределение длин всех белков Oceanithermus profundus, но в среднем гипотетические белки имеют меньшие длины аминокислотных остатков. Однако такое отличие может быть связано не с функциями белков, а с меньшим их разнообразием, т.к. количество гипотетических белков в геноме Oceanithermus profundus сильно меньше, чем количество белков с известной функцией.
Также мы проанализировали распределение генов, кодирующих гипотетические белки, по репликонам Oceanithermus profundus.
Общее количество генов, кодирующих гипотетические белки Oceanithermus profundus – 387, из них в хромосоме – 298, в плазмидах – 89.
Полученные результаты представлены на круговой диаграмме (рисунок 4).
По представленной на рисунке 4 диаграмме видно, что большая часть генов, кодирующих гипотетические белки, — 77% — находится в хромосоме Oceanithermus profundus.
Также мы проанализировали распределение генов, кодирующих гипотетические белки, на “+”- и “-”-цепях ДНК.
Общее количество генов, кодирующих гипотетические белки Oceanithermus profundus – 387, из них на “+”-цепи – 161, на “-”-цепи – 226. Полученные результаты представлены на круговой диаграмме (рисунок 5).
По представленной на рисунке 5 диаграмме можно сделать вывод, что соотношения генов, кодирующих гипотетические белки Oceanithermus profundus на “+”- и “-”-цепях ДНК отличаются не сильно: количество генов на “+”-цепи — 58,4%, на “-”-цепи — 41,6%.