Беломорская биологическая станция МГУ расположена расположена на Карельском берегу Кандалакшского залива Белого моря.
В этом задании нужно было найти и рассмотреть запись, которая была внесена коллегами в
базу данных GenBank. Для того, чтобы найти последовательность, был введён запрос:
White AND Sea AND Kandalaksha AND Bay
Всего было выдано 685 записей. Выбранная последовательность в формате fasta тут.
В этом задании я решил схитрить и выбрал не совсем многоклеточный организм - слизевика.
Он живёт на разлагаемом субстрате, и когда он заканчивается, амёбные клетки выделяют циклический АМФ (сигнал голода),
после чего собираются в надклеточный агрегат (нечто вроде гриба с ножкой), где происходит половое размножение и образование спор.
Чтобы найти геном диктиостелиума (Dictyostelium discoideum), в базе Genome в GenBank была введена команда dictyostelium discoideum[Organism].
Всего была найдена одна сборка.
Таблица 1. Данные о сборке
| Название (assembly name) | Dictyostelium discoideum AX4, whole genome shotgun sequencing project |
| AC сборки из RefSeq | GCF_000004695.1 |
| Уровень сборки (assembly level) | Chromosome |
| Общая длина последовательности | 34 204 973 |
| Число контигов | 261 |
| N50 для контигов | 341 816 |
| L50 для контигов | 20 |
| Число скэффолдов | 41 |
| N50 для скэффолдов | 5 450 249 |
| L50 для скэффолдов | 3 |
| Число аннотированных белков | 12 500 (из публикации), 13267 (из BioProject) |
В этом задании нужно было получить список полных геномов таксона коронавирусов, содержащего штамм, геном которого изучали в прошлом семестре (см. работу 4 II семестра).
Из записи Uniprot был выяснен id таксона, который был использован для поискового запроса в NCBI Virus: 694009.
В выдаче мы оставили колонки: Accession, Release_Date, Species, Length, Nuc_Completeness (по ней отсортировали), Geo_Location, Host.
Полученную таблицу можно посмотреть в формате csv.
Всего нашлось 30350 геномов. Это мы выяснили с помощью:
wc -l sequences.csv
Число собранных геномов можно посчитать с помощью:
grep 'complete' sequences.csv | wc -l
Их 19185. Таблицу только с полными геномами мы получили так:
head -n 19186 sequences.csv > complete_sequences.csv
Из них всего два относятся к RefSeq: NC_045512, NC_004718
В этом задании нужно было для того же вируса (в моём случае это SARS 2003 года) получить файл с участками генома, предположительно кодирующими белки (CDS).
Таблица 2. Данные о вирусе
| AC нуклеотидной записи | NC_004718.3 |
| Латинское название вида | Severe acute respiratory syndrome-related coronavirus Tor2 |
| TaxID вида | 227984 |
| Тип генома | "+"-одноцепочечный-RNA-геном |
| Хозяина вируса | Homo sapiens |
Чтобы получить файл, выбрали Send to -> Coding sequences -> FASTA nucleotide.
Посмотреть файл можно тут.