Краткий обзор генома и протеома бактерии Oceanithermus profundus

Аннотация. В работе проведено комплексное исследование генома и протеома глубоководной термофильной бактерии Oceanithermus profundus. Дана общая характеристика вида, проанализировано распределение длин белков, идентифицированы старт-кодоны во всех кодирующих последовательностях, исследованы гипотетические белки по нескольким критериям: длина, распределение по репликонам и цепям ДНК.

1.Введение

Таксономическая принадлежность [1]:

Домен: Bacteria
Царство: Thermotogati
Филлум: Deinococcota
Класс: Deinococci
Порядок: Thermales
Семейство: Thermaceae
Род: Oceanithermus
Вид: Oceanithermus profundus

Oceanithermus profundus — это умеренно термофильная, микроаэрофильная, факультативно хемолитогетеротрофная бактерия, выделенная из глубоководного гидротермального источника в районе 13° с.ш. на Восточно-Тихоокеанском поднятии на глубине 2600 м. Клетки представляют собой грамотрицательные неподвижные палочки. Организм растет в диапазоне температур 40–68°C (оптимум 60 °C), pH 5,5–8,4 (оптимум pH 7,5) и концентрации NaCl 10–50 г/л (оптимум 30 г/л). Он растет хемоорганогетеротрофно на углеводах, белковых субстратах, органических кислотах и спиртах, используя кислород или нитрат в качестве акцептора электронов. Кроме того, он способен к литогетеротрофному росту с молекулярным водородом в качестве источника энергии. Содержание Г+Ц в геномной ДНК составляет 62,9%. Филогенетический анализ последовательности 16S рРНК помещает его в семейство Thermaceae [2]. В данной работе приводится краткий обзор генома и протеома Oceanithermus profundus.

2. Методы

Данные по геному исследуемой бактерии были взяты с сайта Национального Центра Биотехнологической информации (NCBI) [3]. Использовалась сборка генома GCF_000183745.1. Для поиска старт-кодонов в fasta-файле генома Oceanithermus profundus мы пользовались средствами bash. Для построения диаграмм мы использовали онлайн-сервис Google Sheets. Наиболее часто использовалась формула =COUNTIFS.

3. Результаты и обсуждение

3.1 Исследование длин белков, закодированных в геноме бактерии Oceanithermus profundus

На рисунке 1 представлена гистограмма длин белков Oceanithermus profundus. По данной гистограмме видно, что наиболее часто встречающаяся длина белкового продукта находится в диапазоне от 140 до 180 аминокислотных остатков. Начиная со 180 аминокислотных остатков, с увеличением длины количество белков убывает, однако не всегда равномерно. Самый короткий белок имеет длину 27 аминокислотных остатков, самый длинный – 2686. Средняя длина белка – 315 аминокислотных остатков.

Гистограмма длин белков
Рис.1. Гистограмма длин белков, закодированных в геноме Oceanithermus profundus (сборка GCF_000183745.1).

Более подробно ознакомиться с полученными значениями можно в таблице S1 сопроводительных материалов, лист prot_lengths_hist.

3.2. Определение всех старт-кодонов в кодирующих последовательностях

В ходе работы были проанализированы все кодирующие последовательности генома Oceanithermus profundus на предмет наличия разных старт-кодонов. Мы нашли количество всех старт-кодонов отдельно во всех CDS, псевдогенах и обычных генах. Полученные значения были импортированы в электронную таблицу (см. таблицу S2 сопроводительных материалов). Наиболее часто встречающийся старт-кодон — ATG (1678 раз во всех CDS, 1635 раз в псевдогенах и 3 раза в обычных генах), на втором месте — GTG (620 раз во всех CDS, 1 раз в псевдогенах и 619 раз в обычных генах).

Текст скриптов, использованных в исследовании, можно найти в сопроводительных материалах (S4).

3.3. Исследование гипотетических белков, закодированных в геноме бактерии Oceanithermus profundus

Было выяснено, что в протеоме Oceanithermus profundus присутствуют гипотетические белки (hypothetical proteins).

Гипотетический белки — это белки, предсказанные исключительно на основе нуклеотидных последовательностей, а также белковые последовательности с неизвестной функцией [4].

Для удобства анализирования характеристики генов, кодирующих гипотетические белки, и самих гипотетических белков были импортированы в отдельную таблицу (см. таблицу S3 сопроводительных материалов, лист Hypothetical proteins).

Нами было проанализировано соотношение гипотетических белков и белков с известной функцией в протеоме Oceanithermus profundus. Общее количество белков Oceanithermus profundus – 2785, из них гипотетических белков – 388, белков с известной функцией – 2397.

Полученные результаты представлены на круговой диаграмме (рисунок 2).

Гистограмма длин белков
Рис.2. Диаграмма соотношения белков Oceanithermus profundus.

Рисунок 2 демонстрирует, что количество гипотетических белков составляет 16,2% от общего количества белков, т.е функция большинства белков Oceanithermus profundus известна.

Далее с помощью Google Sheets была построена гистограмма длин гипотетических белков Oceanithermus profundus (рисунок 3).

Гистограмма длин белков
Рис.3. Гистограмма длин гипотетических белков, закодированных в геноме Oceanithermus profundus (сборка GCF_000183745.1).

По данной гистограмме видно, что наиболее часто встречающаяся длина белкового продукта находится в диапазоне от 60 до 100 аминокислотных остатков. Начиная со 100 аминокислотных остатков, с увеличением длины количество белков убывает, однако не всегда равномерно. Самый короткий белок имеет длину 45 аминокислотных остатков, самый длинный – 1814. Средняя длина белка – 211 аминокислотных остатков. Распределение длин гипотетических белков похоже по форме на распределение длин всех белков Oceanithermus profundus, но в среднем гипотетические белки имеют меньшие длины аминокислотных остатков. Однако такое отличие может быть связано не с функциями белков, а с меньшим их разнообразием, т.к. количество гипотетических белков в геноме Oceanithermus profundus сильно меньше, чем количество белков с известной функцией.

Также мы проанализировали распределение генов, кодирующих гипотетические белки, по репликонам Oceanithermus profundus.

Общее количество генов, кодирующих гипотетические белки Oceanithermus profundus – 387, из них в хромосоме – 298, в плазмидах – 89.

Полученные результаты представлены на круговой диаграмме (рисунок 4).

Гистограмма длин белков
Рис.4. Диаграмма соотношения генов, кодирующих гипотетические белки Oceanithermus profundus в различных репликонах.

По представленной на рисунке 4 диаграмме видно, что большая часть генов, кодирующих гипотетические белки, — 77% — находится в хромосоме Oceanithermus profundus.

Также мы проанализировали распределение генов, кодирующих гипотетические белки, на “+”- и “-”-цепях ДНК.

Общее количество генов, кодирующих гипотетические белки Oceanithermus profundus – 387, из них на “+”-цепи – 161, на “-”-цепи – 226. Полученные результаты представлены на круговой диаграмме (рисунок 5).

Гистограмма длин белков
Рис.5. Диаграмма соотношения генов, кодирующих гипотетические белки Oceanithermus profundus на “+”- и “-”-цепях ДНК.

По представленной на рисунке 5 диаграмме можно сделать вывод, что соотношения генов, кодирующих гипотетические белки Oceanithermus profundus на “+”- и “-”-цепях ДНК отличаются не сильно: количество генов на “+”-цепи — 58,4%, на “-”-цепи — 41,6%.

4. Сопроводительные материалы

  1. СDS from genome of Oceanithermus profundus
  2. Start_codons
  3. Genomic features of Oceanithermus profundus
  4. Скрипты, используемые в ходе исследования, находятся в директории /home/students/y25/anastgal/term1/mini_review/supplement в файлах под названиями “startcodons” и “startcodons_pseudo” соответственно.

5. Список литературы

  1. Oceanithermus profundus : [Taxonomy Browser] / National Center for Biotechnology Information // NCBI. – URL:
  2. Miroshnichenko M. L. et al. Oceanithermus profundus gen. nov., sp. nov., a thermophilic, microaerophilic, facultatively chemolithoheterotrophic bacterium from a deep-sea hydrothermal vent //International journal of systematic and evolutionary microbiology. – 2003. – Т. 53. – No. 3. – С. 747-752.
  3. Oceanithermus profundus DSM 14977, complete sequence : [Sequence Database] / National Center for Biotechnology Information // NCBI. – URL:
  4. Sivashankari S., Shanmughavel P. Functional annotation of hypothetical proteins–A review //Bioinformation. – 2006. – Т. 1. – No. 8. – С. 335.