Задание 1

1. FASTA В таблице белковых последовательностей для сборки генома Arabidopsis thaliana было найдена запись дельта субъединице АТФ синтазы (id:NP_196849.1) гена ATP5 (индификатор AT5G13450).

2. Этот ген относится к нуклеотидной записи с идентификатором NC_003070.

3. Последовательность ДНК, непосредственно содержащая кодирующий белок часть гена δ-субъединицы АТФ-синтазы FASTA

4.

Рисунок 1.Положение гена ATP5, кодирующего δ-субъединицу АТФ-синтазы, в сборке NC_003070. Координаты: 126 - 842

Задание 2

По базе данных RefSeq Genome Database (refseq_genomes) был поиск схожих последовательностей, так как мой эукариот не относится ни к первичноротым и ни к вторичноротым, следовательно можем выбрать любой из предложенных таксонов, мне понравились больше всего кошки.

tblastx трансллирует обе последовательности (и запроса, и базы данных) во всех рамках считывания и сравнивает их уже на уровне гипотетических аминокислотных последовательностей. Это позволяет "увидеть" эволюционно консервативные кодирующие регионы, даже если их нуклеотидные последовательности сильно разошлись. (megablast не использовался, т.к. выбранные таксоны сильно удалены друг от друга и вероятность того, что найдутся в достаточной степени схожие последовательности, была не так высока)

Query Cover 84%. Длина слова 3, .
1 находка с удовлитворительным e-volue.

tblastn выдача

В ходе поиска гена δ-субъединицы АТФ-синтазы в геноме кошки с использованием белковой последовательности резуховидки (Arabidopsis thaliana) были получены противоречивые результаты: tblastp-анализ выявил одино совпадение, тогда как blastn-поиск в геномной сборке не дал совпадений. Это расхождение возможно объясняется интронно-экзонной структурой гена у эукариот - может быть при поиске по геному непрерывная белковая последовательность "натыкается" на интронные вставки, что препятствует идентификации.
По единственному найденному гену кошки в tblastn, будем искать похожие гены в семействе кошачьих. При этом всего последовательностей алгоритм нашел 58 и 144 совпадения.
Длина слова 7, остальные параметры по умолчанию.

blastn выдача
Рисунок 2. Графический результат поиска BLAST по методу tblastn
Рисунок 3. Графический результат поиска BLAST по методу blastn

Задание 3

Для поиска гомологов генов рРНК в геноме A. thaliana на основе её геномных последовательностей была создана локальная база данных 'help' для blastn. Для этого использовалась следующая команда:
makeblastdb -in GCF_000001735.4_TAIR10.1_genomic.fna -dbtype nucl -out qwe

Последовательности генов 16S и 23S рРНК E. coli, сохранённые в соответствующих файлах, были использованы в качестве запросов для поиска гомологичных последовательностей в геноме Arabidopsis thaliana. Поиск осуществлялся с помощью локально установленной программы BLAST. Целевой базой данных для поиска служила сборка генома A. thaliana, обозначенная как "qwe". Для каждой рРНК поиск проводился отдельно.

blastn -task blastn -db qwe -query 16SEcoli.fasta.txt -out 16s.out -outfmt 7
blastn -task blastn -db qwe -query 23SEcoli.fasta.txt -out 23s.out -outfmt 7

Выбор алгоритма blastn обусловлен высокой степенью консервативности последовательностей 16S и 23S рРНК. Эти гены медленно эволюционируют, поэтому даже между филогенетически удалёнными видами в них сохраняются протяжённые участки значительного сходства. Алгоритм blastn, предназначенный для поиска гомологичных нуклеотидных последовательностей, идеально подходит для обнаружения таких консервативных регионов, в отличие от алгоритмов, учитывающих аминокислотные замены.

blastn выравнивания 16S рРНК E. coli
blastn выравнивания 23S рРНК E. coli

При выравнивании 16S рРНК E. coli было обнаружено 19 гомологичных участков и 5 последовательностей.
При выравнивании 23S рРНК E. coli было обнаружено 36 гомологичных участков и 7 последовательностей.

Рисунок 4. Пример гомолога последовательности 16S рРНК E. coli, найденного на скэффолде NC_003076.8

Задание 4

Для этого задания были выбраны геномы дрожей одного рода Saccharomyces cerevisiae ( NC_027264.1 ) и Saccharomyces paradoxus ( NC_018044.1 ), так как будет интересным сравнить геномы близкородственных организмов, и хотя они больше бактериальных, их размер все еще считается "маленьким" для геномики

Помимо инверсий (которые будут видны как отрезки диагонали, перпендикулярные главной), у дрожжей часто наблюдается дупликация генов и хромосомные перестройки.

Карты локального сходства были построены на основе трёх алгоритмов: blastn, megablast и tblastx.

Рисунок 5. Карта локального сходства по алгоритму megablast
Рисунок 6. Карта локального сходства по алгоритму blastn
Рисунок 7. Карта локального сходства по алгоритму tblastx

На карте локального сходства, которая была построена по алгоритму tblastx, есть транслокация, так как присутствуют достаточно большие разрывы, Участок хромосомы переместился в другую позицию того же генома, а tBLASTx особенно четко показывает перестройки, затрагивающие кодирующие регионы, так как сравнивает геномы на уровне аминокислотных последовательностей.

На карте blastn много шума, возможно это связано c тем что у дрожжей много тандемных повторов генов рРНК, теломерные повторы и т.д. Каждый такой повтор создает множество коротких совпадений, а алгоритм blastn чувствителен к повторяющимся последовательностям.

Карта построенная по megablast имеет дупликацию. Megablast, в отличие от tblastx, не "смазывает" картину и четко показывает идентичные или почти идентичные повторы в геноме.