Задание 1

Ранее я получил консенсную последовательность для двух прочтений, полученных методом Сенгера. Для понимания что же она из себя представляет я прибегну к Blast'у. А конкретнее, мной был выбран обычный blastn, так как остальные бласты вроде MEGAblast не подойдут (он ищет близкие гомологи). Я выбрал стандартные итоги и получил следующую выдачу. Значение для первых нескольких десятков результатов имеют низкий e-value и везде фигурирует гистон H3. Соответственно, можно сделать вывод, что эти риды получены с участка гена, кодирующего гистон H3.

Затем я решил воспользовать TblastX (транслируем белок и сопоставляем с базой), что позволит искать по сути схожие потенциальные гены. В нем я также использовал стандартные параметры. Большинство находок относятся к иглокожим (Echinodermata). Из них первыми идут различные Ophiuroidea (офиуры), затем представители Asteroidea (морские звезды) и Echinoidea (морские ежи). Также встретилась божья коровка и бабочка. Соответственно, можно сделать вывод, что риды получены из Echinodermata и скорее всего из Ophiuroidea.

Задание 2

Я решил взять scaffold_29 Bacillus licheniformis strain OH1206 длиной в 11249 п.н. На этом скаффолде встречается 11 генов, судя по описанию. Я решил взять ген с координатами 9137-9574

Необходимо найти сходные с продуктом гена белки, соответственно, ген нужно транслировать и искать совпадения в базе данных белков, то есть воспользоваться blastX (так как необходим поиск по генам в данном контиге, то лучше будет преобразовать его в пептид и поискать гомологичные).

Я выбрал базу данных SwissProt для поиска аннотированных белков и также использовал длину слова 3 для поиска схожих белков в отдаленных организмах. Получил следующий результат.

Все лучшие находки содержали в себе Peroxide-responsive repressor PerR, который имеется у бактерий и необходим для регуляция ответа на реактивные формы кислорода.

Задание 3

Я выбрал следующие сборки: Staphylococcus felis ASM301291v1 CP027770.1 и Staphylococcus saprophyticus ASM781411v1 CP031196.1.

Я выбрал blastN с длиной слова 15, так как выполняется поиск по близкородственным видам и по всем участкам ДНК.

Можно увидеть, что произошла крупная инверсия, что проявляется в виде изменения наклона оси на отрицательный (1350, 0-150К). Достаточно протяженные участки показывают большую схожесть последовательностей, но есть места и низкой схожести (например, 650К-1.100K по оси-X). Есть и маленькие инсерции/делеции, когда прямая резко прерывается и сдвигается по одной позиции вертикально (примерно 400К по оси-X), то есть делеция произошла у организма по оси-X, или вставка для организма по оси-Y. Также прерывы по горизонтали (примерно 1М по оси-Y) характерны для обратной ситуации - делеции у организма на оси-Y или вставки у организма по оси-X.

© Руслан Нагимов, 2021