Для выполнения задания были построены множественные выравнивания одних и тех же последовательностей белков seed семейства PF04030 (это семейство уже использовалось мной для выполнения предыдущих практикумов) программами MSAProbs, MAFFT, T-Coffee. Затем выравнивание, полученное с помощью MSAProbs, сравнивалось (с использованием средств Jalview и VerAlign) с выравниванием MAFFT, а затем с выравниванием программы T-Coffee. Результаты сравнения занесены в таблицы.
Колонки блоков выравнивания MSAProbs | Соответствующие идентичные колонки блоков выравнивания MAFFT |
---|---|
57-59 | 57-59 |
113-118 | 125-130 |
157-193 | 152-188 |
206-209 | 202-205 |
219-226 | 215-222 |
249-255 | 237-243 |
261-269 | 249-257 |
273-274 | 261-262 |
284-288 | 272-276 |
299-311 | 285-297 |
326-338 | 310-322 |
342-349 | 326-333 |
382-386 | 365-369 |
396-414 | 379-397 |
418-420 | 401-403 |
Внеблоковые идентичные колонки | |
67 | 70 |
148 | 143 |
324 | 308 |
416 | 399 |
Колонки блоков выравнивания MSAProbs | Соответствующие идентичные колонки блоков выравнивания T-Coffee |
---|---|
1-15 | 1-15 |
18-20 | 18-20 |
23-29 | 23-29 |
32-43 | 32-43 |
48-54 | 48-54 |
57-59 | 57-59 |
66-69 | 64-67 |
151-193 | 144-186 |
196-197 | 189-190 |
200-203 | 193-196 |
206-210 | 199-203 |
214-226 | 207-219 |
247-249 | 232-234 |
255-257 | 240-242 |
261-270 | 246-255 |
273-274 | 258-259 |
277-280 | 262-265 |
283-288 | 268-273 |
293-295 | 277-279 |
299-311 | 282-294 |
326-354 | 307-335 |
375-385 | 355-365 |
387-392 | 367-372 |
395-415 | 375-395 |
Внеблоковые идентичные колонки | |
71 | 69 |
118 | 130 |
212 | 205 |
358 | 338 |
422 | 402 |
Ссылка на проект Jalview.
По результатам сравнения выравнивания, выполненного с помощью MSAProbs, с двумя другими выравниваниями можно сделать вывод, что выравнивание MSAProbs имеет больше сходств с выравниванием T-Coffee, чем с выравниванием MAFFT. Так как известно, что наиболее достоверной по результатам сравнения на BaliBase из большинства программ множественного выравнивания является программа MSAProbs, может показаться, что из оставшихся двух исследуемых программ по достоверности на BaliBase следом за MSAProbs должна идти T-Coffee, но данные сравнения программ на BaliBase свидетельствуют, что MAFFT является более достоверной, чем T-Coffee. Как объяснить это противоречие с полученными результатами в этом задании я пока не знаю.
Для выполнения этого задания было выбрано три белка с известными структурами из того же семейства PF04030 с идентификаторами 2VFR, 8QNC, 7SML. Далее было выполнено парное выравнивание с помощью программы из PDB белков 2VFR с 8QNC и 2VFR с 7SML. После этого вручную построено множественное выравнивание способом, описанным в пояснениях к заданию. Затем было выполнено множественное выравнивание с использованием программы MSAProbs. После было проведено сравнение полученных выравниваний аналогичным предыдущему заданию способом. Результаты отражены в таблице.
Колонки блоков выравнивания по совмещению структур | Соответствующие идентичные колонки блоков выравнивания MSAProbs |
---|---|
4-36 | 4-36 |
38-40 | 38-40 |
42-49 | 42-49 |
58-59 | 58-59 |
65-156 | 65-156 |
160-195 | 160-195 |
200-203 | 200-203 |
269-277 | 268-276 |
393-404 | 340-351 |
406-409 | 353-356 |
428-453 | 375-400 |
472-479 | 421-428 |
495-509 | 444-458 |
513-514 | 463-464 |
533-559 | 481-507 |
Внеблоковые идентичные колонки | |
1 | 1 |
55 | 55 |
158 | 158 |
Ссылка на проект Jalview.
MSAProbs — это хорошо зарекомендовавший себя современный алгоритм множественного выравнивания последовательностей белков. Конструкция MSAProbs основана на сочетании использования парных скрытых марковских моделей и функций разбиения для расчета апостериорных вероятностей. Считается, что MSAProbs обладает большей точностью, чем ClustalW, MAFFT, MUSCLE, ProbCons и Probalign. Написана на языке программирования C++. Оптимизирована для многоядерных процессоров за счёт использования многопоточной схемы. Подходит для систем, использующих MPI, что позволяет преодолеть высокий уровень нагрузки на память. На ввод программе подаётся последовательность в формате FASTA, вывод может осуществляться как в FASTA-формате, так и в формате CLUSTALW. Подходит для операционных систем Linux, Mac OS X, Microsoft Windows. Программа бесплатная, доступна для скачивания в открытом доступе и также есть в Jalview.
[1] MSAProbs - Parallel and accurate multiple sequence alignment