КРАТКИЙ ОБЗОР

БИОИНФОРМАТИКА

Анализ характеристик генома и протеома бактерии Legionella jordanis

Кузьменко Олег

Факультет биоинженерии и биоинформатики, Московский государственный университет имени М. В. Ломоносова, Ленинские горы д. 1 стр. 73, 119234, Москва, Россия

14 декабря 2020 года

РЕЗЮМЕ

В данной работе представлен анализ генома бактерии Legionella jordanis, выполненный с использованием электронных таблиц и методов работы с ними. В ходе работы был проведен анализ нуклеотидного состава генома, созданы таблицы числа генов разных категорий, используемых кодонов, межгенных промежутков и перекрываний генов на прямой и обратной цепи, открытых рамок считывания.

Ключевые слова: геном, протеом, бактерия, Legionella jordanis strain NCTC11533, Excel, emboss

1.ВВЕДЕНИЕ

Legionella jordanis, выделенная и описанная Cherry et al. в 1982 году1 и названная в честь реки Иордан, относится к классу Gammaproteobacteria, порядку Legionellales. Она представляет собой тонкие подвижные Грам-негативные палочки 0.3 - 0.9 µm в ширину и 2 - 20 µm в длину1. Они не образуют споры или капсулу, но активно секретируют оксидазу и каталазу1. В отличие от печально известной Legionella pneumophila – опасного патогена, вызывающего острую пневмонию2, - L. jordanis считалась свободноживущей, что оказалось неверно. Попадая в дыхательную систему человека, она может вызвать воспаление или, в худшем случае, пневмонию особого типа - «болезнь легионеров»3. В данной работе был проведен анализ генома и протеома L. jordanis с целью возможного обнаружения его особенностей.

2.МАТЕРИАЛЫ И МЕТОДЫ

Для анализа геномных и протеомных данных в данной работе использовалась программа Microsoft Excel (2016). Исходный дата-сет был получен с портала NCBI Genome. Для дальнейшей работы данные о геноме были разбиты по ячейкам и переведены в плоскую таблицу. Было произведено объединение информации о кодирующих последовательностях с помощью команды ВПР, таблица была отформатирована и приведена к репрезентативному виду. Информация о нуклеотидах, составляющих геном, была получена с помощью команды wordcount пакета расширения emboss. По полученным данным в Excel был рассчитан GC-состав и построена плоская таблица. Для получения информации о межгенных промежутках(IGRs) в геноме использовалась команда ЕСЛИ, данные затем были отсортированы по цепи и собраны в сводную таблицу. С помощью команды СЧЁТЕСЛИМН данные были отсортированы для построения гистограмм длин IGRs для прямой и обратной цепей. Процедура анализа данных о длинах зон перекрывания генов аналогична вышеописанной для IGRs, однако был дополнительно рассчитано количество перекрывающихся генов. В ходе работы были исследованы характеристики генетического кода бактерии. Частота определенных колонов была получена с помощью команды cusp пакета emboss. По данным затем была создана сводная таблица. Отдельное исследование рамок считывания было выполнено с помощью команды getorf из пакета emboss. По полученным данным также была создана плоская таблица, в которой применялись формулы ЕСЛИ, СЧЁТЕСЛИ, СЧЁТЕСЛИМН. Аналогичные формулы использовались для подсчета числа генов по категориям. В работе с Excel использовалась адресация с помощью $, распространение формул, математические операции. Некоторые таблицы создавались с помощью мастера-импорта, форматировались с помощью сортировок. Кроме того, активно использовались горячие клавиши для копирования-вставки данных: Ctrl+C, Ctrl+V, Ctrl+A, Ctrl+X, распространения формул: Ctrl+R, Ctrl+D, поиска-замены совпадений: Ctrl+F, Ctrl+H.

3.РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ

3.1 Общая характеристика генома.

Были рассчитаны длина генома, количество нуклеотидов каждого типа в нём и GC-состав(таблица 1). Геном Legionella jordanis представлен одной крупной кольцевой молекулой ДНК длиной ~3,13 Mb, что приблизительно соответствует среднестатистическим результатам для Bacteria (среднее ∼3.65 Mb и медиана ∼3.46 Mb)4. По результатам расчета получены сопоставимые количества А и Т, С и G, что подтверждает второе правило Чаргаффа. Рассчитанный GC-состав генома величиной 41,7% сопоставим с GC-составом родственной L.pneumophila(~38%)5. Меньший по величине GC-состав у L.pneumophila, для которой в большей степени характерен паразитический образ жизни, возможно подтверждает гипотезу некоторых исследователей о взаимосвязи образа жизни и GC-состава генома(для свободноживущих видов обычно характерен более высокий GC-состав).6

Таблица 1: Характеристика генома L.jordanis
длина (bp) A(шт) T(шт) C(шт) G(шт)
хромосомная ДНК 3133723 917551 908210 654442 653520

3.2 Анализ длин межгенных промежутков

В данной работы был проведен анализ длин межгенных промежутков(IGRs) для прямой и обратной цепей ДНК. Межгенный промежуток - это расстояние между двумя соседними генами на одной цепи. Было подсчитано, что 47,60% генов на прямой цепи и 49,96% генов на обратной расположены на расстоянии менее 200 bp друг от друга. Было также выявлено, что 36,29% на прямой и 35,97% - на обратной расположены на крупных (>1 Kbp) расстояниях между друг другом. По полученным данным были построены гистограммы для прямой и обратной цепей. (рис.1).

Преобладание коротких IGRs объясняется “компактизацией” генома прокариот для быстрой репликации и объединением генов в опероны для более быстрой транскрипции генов одного метаболического пути. Крупные IGRs возникают в местах нахождения на противоположной цепи кластеров или оперонов кодирующих последовательностей (CDSs).

Рисунок 1. Диаграмма распределения длин межгенных промежутков между генами одной цепи.
amazing_graph
а - прямая цепь ДНК. b - обратная цепь ДНК

Ось абсцисс: интервал длины межгенных промежутков

Ось ординат: количество межгенных интервалов в данном интервале длины

3.3 Перекрытие генов

Таблица 2: Количество перекрывающихся генов в геноме L.jordanis
Состав генома Гены с перекрываниями
Хромосома + 165 11,77%
- 208 14,08%
Рисунок 2. Диаграмма распределения длин участков перекрывания генов. *Длины перекрываний, не встречающихся в геноме, в гистограмму не вынесены.
amazing_graph
а - прямая цепь ДНК. b - обратная цепь ДНК

Ось абсцисс: длина перекрытия

Ось ординат: количество перекрытий данной длины

В ходе анализа межгенных промежутков было установлено, что некоторые гены на одной и той же цепи имеют попарные перекрытия, то есть один ген начинается в конце другого. Такие гены составляют чуть больше 10% от всех кодирующих последовательностей (таблица 2). Перекрытие генов является еще одним способом прокариот по компактизации генома, Прослеживается закономерность, что большая часть перекрывающихся генов имеют общими только 3 нуклеотида, которые, вероятно, могут маркировать конец терминирующих и начало upstream- элементов (рис. 2). Так же заметно, что часто встречаются перекрывающиеся участки длиной в 7, 10 и 13 bp.

3.4 Характеристика используемых кодонов

В таблице codone_usage сопроводительных материалов содержится информация о количестве групп синонимичных кодонов в геноме. Наиболее часто встречающимися аминокислотами, по приведенным данным, являются лейцин, аланин и изолейцин. Данный факт объясним присутствием этих гидрофобных аминокислот в коре всех белков организма. Следующим по количеству кодонов в геноме является серин - важный участник путей передачи сигналов, который часто подвергается пост-трансляционным модификациям7.

Реже всего в геноме встречается кодон триптофана, довольно редкой в белках аминокислоты, и стоп-кодоны. Интересно то, что полученное количество стоп-кодонов превышает количество генов. Возможно стоп-кодоны могут присутствовать в середине кодирующей последовательности, не вызывая терминацию трансляции. Терминирующие стоп-кодоны, в таком случае, должны быть маркированы определенными последовательностями ДНК.

3.5 Анализ предсказанных открытых рамок считывания (ORF)

По результатам работы программы было получено количество рамок считывания (ORFs), значительно превышающее количество описанных генов. Существует возможность, что с некоторых из данных рамок считывания еще не описана возможность экспрессия белковых продуктов. Большая часть предсказанных ORFs имеет относительно небольшую длину до 200 bp. (рис. 3) Данный результат учитывает возможность перекрывания рамок считывания, так что особо длинные ORFs могут содержать в себе короткие. Строго говоря, данные рамки считывания должны находиться внутри гена на определенных расстояниях от его начала и конца (5’- и 3’- нетранслируемые регионы), следовательно полностью совпадающих по координатам с генами найдено не было. Однако, существуют ORFs, которые на 3 bp отстоят от начала гена. (таблица orf в сопроводительных материалах)
Рисунок 3. Диаграмма распределения длин предсказанных рамок считывания.
amazing_graph
а - прямая цепь ДНК. b - обратная цепь ДНК

Ось абсцисс: интервал длины

Ось ординат: количество ORFs в интервале

Все 2879 генов Legionella jordanis были распределены по классам и рассчитано количество на прямой и обратной цепях (таблица 3). Белок-кодирующие гены, псевдогены и tRNA распределены по двум цепям равномерно, однако наблюдается разница в rRNA. Известно, что 23S, 16S и 5S rRNA у прокариот образуют единый оперон и транскрибируются в равных количествах8, однако в геноме L.jordanis присутствуют 4 таких оперона. Только 1 копия оперона расположена на обратной цепи, когда 3 остальные - на прямой (таблица rRNA в сопроводительных материалах). Данный факт показывает, что существуют различия между экспрессией с прямой и обратной цепи геномной ДНК. Вероятно, с прямой цепи гены экспрессия генов более индуцибельна, регулируема или лабильна, что позволяет тонко контролировать количество rRNAs в клетке. Другим объяснением такой закономерности может служить расположение исходного кластера на прямой цепи и дальнейшая его транспозиция (вероятность транспозиции на ту же цепь выше).
Таблица 3. Количество генов определенной категории на разных цепях генома
incredible_table

В геноме также представлены прочие классы РНК, осуществляющие важные для клетки процессы:

  • участие во встраивании синтезируемых белков во внешнюю мембрану (SRP RNA)9
  • участие в созревании tRNA (RNase P RNA)10
  • “высвобождение” рибосом, остановившихся в середине кодирующей последовательности белка (tmRNA)11

4. ЗАКЛЮЧЕНИЕ

В данной работе был проведен анализ генома и протеома Legionella jordanis. Были выявлены: возможность перекрывания генов на 1 цепи, случайность распределения генов на прямой и обратной цепи. В дальнейшем необходимо подтвердить данные с помощью статистических методов, рассмотреть представленные выше вопросы с помощью альтернативных методов.

БЛАГОДАРНОСТИ

Автор выражает благодарности преподавателю факультета биоинженерии и биоинформатики Алексеевскому А.О. за неоценимый вклад в формирование представлений об оформлении научных публикаций, научным сотрудникам кафедры молекулярной биологии биологического факультета: Ломову Н.А, Вьюшкову В.С. за передачу знаний в области молекулярной биологии, которые пригодились в данной работе и будут полезными в будущем.

СОПРОВОДИТЕЛЬННЫЕ МАТЕРИАЛЫ

Таблица. “Анализ генома и протеома L.jordanis”(1,8 Kb, xlsx)

REFERENCES

  1. Cherry W. B. et al. Legionella jordanis: a new species of Legionella isolated from water and sewage //Journal of Clinical Microbiology. – 1982. – Т. 15. – №. 2. – С. 290
  2. Brady MF, Sundareshan V. Legionnaires' Disease.StatPearls Publishing; 2020 Jan-. Available from: link
  3. Vinh D. C. et al. Legionella jordanis lower respiratory tract infection: case report and review //Journal of clinical microbiology. – 2007. – Т. 45. – №. 7. – С. 2321-2323.
  4. Finan T. M. et al. The divided bacterial genome: structure, function, and evolution //Microbiology and molecular biology reviews. – 2017. – Т. 81. – №. 3.
  5. Страница характеристики L. pneumophila
  6. Mann S., Chen Y. P. P. Bacterial genomic G+ C composition-eliciting environmental adaptation //Genomics. – 2010. – Т. 95. – №. 1. – С. 7-15.
  7. Canova M. J., Molle V. Bacterial serine/threonine protein kinases in host-pathogen interactions //Journal of Biological Chemistry. – 2014. – Т. 289. – №. 14. – С. 9473-9479.
  8. Espejo R. T., Plaza N. Multiple ribosomal RNA operons in bacteria; their concerted evolution and potential consequences on the rate of evolution of their 16S rRNA //Frontiers in microbiology. – 2018. – Т. 9. – С. 1232.
  9. Fu Y. H. H. et al. Two-step membrane binding by the bacterial SRP receptor enables efficient and accurate Co-translational protein targeting //Elife. – 2017. – Т. 6. – С. e25885.
  10. Altman S. A view of RNase P // Molecular BioSystems. – 2007. – Т. 3. – №. 9. – С. 604-607.
  11. Janssen B. D., Hayes C. S. The tmRNA ribosome-rescue system // Advances in protein chemistry and structural biology. – Academic Press, 2012. – Т. 86. – С. 151-191.
  12. Страница генома Legionella jordanis
  13. Директория с данными о геноме L.jordanis