Алгоритмы и программы множественного выравнивания

Сравнение выравнивания одних и тех же последовательностей тремя разными программами: MSAProbs, MAFFT, T-Coffee

Для выполнения задания были построены множественные выравнивания одних и тех же последовательностей белков seed семейства PF04030 (это семейство уже использовалось мной для выполнения предыдущих практикумов) программами MSAProbs, MAFFT, T-Coffee. Затем выравнивание, полученное с помощью MSAProbs, сравнивалось (с использованием средств Jalview и VerAlign) с выравниванием MAFFT, а затем с выравниванием программы T-Coffee. Результаты сравнения занесены в таблицы.

Таблица 1. Сравнение идентичных колонок в выравниваниях MSAProbs и MAFFT
Колонки блоков выравнивания MSAProbs Соответствующие идентичные колонки блоков выравнивания MAFFT
57-59 57-59
113-118 125-130
157-193 152-188
206-209 202-205
219-226 215-222
249-255 237-243
261-269 249-257
273-274 261-262
284-288 272-276
299-311 285-297
326-338 310-322
342-349 326-333
382-386 365-369
396-414 379-397
418-420 401-403
Внеблоковые идентичные колонки
67 70
148 143
324 308
416 399
Таблица 2. Сравнение идентичных колонок в выравниваниях MSAProbs и T-Coffee
Колонки блоков выравнивания MSAProbs Соответствующие идентичные колонки блоков выравнивания T-Coffee
1-15 1-15
18-20 18-20
23-29 23-29
32-43 32-43
48-54 48-54
57-59 57-59
66-69 64-67
151-193 144-186
196-197 189-190
200-203 193-196
206-210 199-203
214-226 207-219
247-249 232-234
255-257 240-242
261-270 246-255
273-274 258-259
277-280 262-265
283-288 268-273
293-295 277-279
299-311 282-294
326-354 307-335
375-385 355-365
387-392 367-372
395-415 375-395
Внеблоковые идентичные колонки
71 69
118 130
212 205
358 338
422 402

Ссылка на проект Jalview.

По результатам сравнения выравнивания, выполненного с помощью MSAProbs, с двумя другими выравниваниями можно сделать вывод, что выравнивание MSAProbs имеет больше сходств с выравниванием T-Coffee, чем с выравниванием MAFFT. Так как известно, что наиболее достоверной по результатам сравнения на BaliBase из большинства программ множественного выравнивания является программа MSAProbs, может показаться, что из оставшихся двух исследуемых программ по достоверности на BaliBase следом за MSAProbs должна идти T-Coffee, но данные сравнения программ на BaliBase свидетельствуют, что MAFFT является более достоверной, чем T-Coffee. Как объяснить это противоречие с полученными результатами в этом задании я пока не знаю.

Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Для выполнения этого задания было выбрано три белка с известными структурами из того же семейства PF04030 с идентификаторами 2VFR, 8QNC, 7SML. Далее было выполнено парное выравнивание с помощью программы из PDB белков 2VFR с 8QNC и 2VFR с 7SML. После этого вручную построено множественное выравнивание способом, описанным в пояснениях к заданию. Затем было выполнено множественное выравнивание с использованием программы MSAProbs. После было проведено сравнение полученных выравниваний аналогичным предыдущему заданию способом. Результаты отражены в таблице.

Таблица 3. Сравнение идентичных колонок в выравниваниях по совмещению структур и MSAProbs
Колонки блоков выравнивания по совмещению структур Соответствующие идентичные колонки блоков выравнивания MSAProbs
4-36 4-36
38-40 38-40
42-49 42-49
58-59 58-59
65-156 65-156
160-195 160-195
200-203 200-203
269-277 268-276
393-404 340-351
406-409 353-356
428-453 375-400
472-479 421-428
495-509 444-458
513-514 463-464
533-559 481-507
Внеблоковые идентичные колонки
1 1
55 55
158 158
Рисунок 1. Наложение пространственных структур белков 2VFR, 8QNC и 7SML

Ссылка на проект Jalview.

Описание программы множественного выравнивания MSAProbs

MSAProbs — это хорошо зарекомендовавший себя современный алгоритм множественного выравнивания последовательностей белков. Конструкция MSAProbs основана на сочетании использования парных скрытых марковских моделей и функций разбиения для расчета апостериорных вероятностей. Считается, что MSAProbs обладает большей точностью, чем ClustalW, MAFFT, MUSCLE, ProbCons и Probalign. Написана на языке программирования C++. Оптимизирована для многоядерных процессоров за счёт использования многопоточной схемы. Подходит для систем, использующих MPI, что позволяет преодолеть высокий уровень нагрузки на память. На ввод программе подаётся последовательность в формате FASTA, вывод может осуществляться как в FASTA-формате, так и в формате CLUSTALW. Подходит для операционных систем Linux, Mac OS X, Microsoft Windows. Программа бесплатная, доступна для скачивания в открытом доступе и также есть в Jalview.

Источники

[1] MSAProbs - Parallel and accurate multiple sequence alignment

[2] MSAprobs

[3] BOL: MSAProbs

[4] Тарасов, Главная страница