mscs282: bioinformatics iintbio.org/bioinf2019-2020/lecture1.pdf · ИСТОРИЯ...

Post on 10-Jul-2020

16 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Биоинформатика

Коротков Евгений Вадимович Институт Биоинженерии, ФИЦ Биотехнологии

РАН

bioinf@yandex.ru

1

ИСТОРИЯ ТЕХНОЛОГИЙ

Ист.: Milken Institute, Robert Fogel/University of Chicago

6000

5000

4000

3000

2000

1000

0 -9000 -6000 -4000 -3000 -2000 0 1000 2000

Геномные проекты

Высадка человека на

Луну Высокоскоростные

компьютеры Изобретение аэроплана

Промышленная революция 2-ая С/х революция

Расцвет Рима

Расцвет Греции

Интернет

PC

Ядерная энергия

Открытие двойной спирали ДНК

Пенициллин

Автомобиль

Телефон

Теория происхождения жизни

Железные дороги

Двигатель Уатта

Население (млн)

• В мире идет процесс накопления генетической информации: данные биобанков удваиваются в объеме, примерно, каждые 7 месяцев. Лаборатории по расшифровке ДНК получают несколько петабайт секвенированных данных в год (1 терабайт содержит около 1 трлн субъединиц ДНК).

• Во многих странах создание банков биологической информации выливается в проекты национального масштаба, они становятся системообразующими для мировой науки.

What is Bioinformatics?

7

Informatics Computer Science

Computer Engineering

Information Science

Biology &

Other Natural

Sciences

Mathematics

& Statistics

Bioinformatics

Bioinformatics Related Fields

• Computational biology

• Computational molecular biology

• Biomolecular informatics

• Computational genomics

• …

8

Составные части биоинформатики

• 1D и 3D биология

• Разработка биологических баз данных

• Генетические сети и их использование

• Геномика

• Протеомика

9

10

Рентгеноструктурный анализ (РСА) макромолекул Индикаторы качества модели макромолекулы, построенной по данным РСА Алгоритмы вычисления поверхности макромолекулы Алгоритмы нахождения гидрофобного ядра молекулы белка Алгоритмы нахождения структурных доменов белков Пространственное выравнивание структур белков Структурные классификации доменов SCOP и CATH Молекулярная динамика

Biological Data

• Genomes

– DNA Sequences of A, T, C, G

– Annotated with function, “interesting” features

• Proteins

– Amino Acid Sequences

• Sequences of 20 letters

– Annotated with structure, function, etc.

11

Biological Data

• Gene Expression

– Dynamic behavior of genes

• Protein Expression

– Dynamic behavior of proteins

• Structural Features

– RNA and proteins

• …

12

Biological Data Sus scrofa agouti-related protein gene

1 ggcacattct cctgttgagc caggctatgc tgaccacaat gttgctgagc tgtgccctac 61 tgctggcaat gcccaccatg ctgggggccc agataggctt ggcccccctg gagggtatcg

121 gaaggcttga ccaagccttg ttcccagaac tccaaggtca gtgcgggcag gagtgggttg

181 ggtggggctt ggacatcctc tggccacaaa gtattctgct tgtatgagcc ctttcttccc

241 cttcccaatc ccaggcctgg gaggtgggtg ttttgtgcat gggtggttct gccctcacat

301 catctgtccc agatctaggc ctgcagcccc cactgaagag gacaactgca gaacgggcag

361 aagaggctct gctgcagcag gccgaggcca aggccttggc agaggtaaca gctcagggaa

421 agggctgagg ccacaagtct tgagtgggtg tgtcaagcat caacctctat ctgtgcttgg

481 agttgccact gtggtacaac gggattggcg gtgtcttggg agcgctggga cgtggtttca

541 tccccggcca gcacaagtgg gttaaggatc tggccttgcc atcccttcag cttaggctga

601 gactgtggct tggagctgat ctctgaccgg aagctccata tgctctgggg tgaccaaaaa

661 tggaaaaaca aacatacaaa acacctctac ctgcacttcc tgaccccctc acccggggcg

721 acactgcaga ccatcccgtt cacgctccac ttccatcctg ccttgatctg gcgcattcca

781 tgaatgtgct tttggaagtc cttgtttccc aacccttgta ggtgctagat cctgaaggac

841 gcaaggcacg ctccccacgt cgctgcgtaa ggctgcacga atcctgtctg ggacaccagg

901 taccatgctg cgacccatgt gctacatgct actgccgttt cttcaacgcc ttctgctact

961 gccgcaagct gggtactgcc acgaacccct gcagccgcac ctagctggcc agccaatgtc

1021 gtcg

13

Пионеры биоинформатики

14

Лайнус Полинг

1962

Zuckerkandl, E., and L. Pauling. 1962. Molecular disease, evolution, and genic

heterogeneity. Horizons in Biochemistry, Academic Press, New York, 189-225.

Zuckerkandl, E., and L. Pauling. 1965. Evolutionary divergence and convergence

in proteins. Evolving Genes and Proteins, Academic Press, New York, 97-166.

• Анализ аминокислотных последовательностей глобинов нескольких позвоночных

• Гипотеза молекулярных часов

Пионеры биоинформатики

15

Маргарет Дейхофф

• Однобуквенный код аминокислот A,C,D,E,F,G,H… • Матрицы аминокислотных замен

PAM (Point Accepted Mutation)

1965

Атлас последовательностей белков и их структур (1965)

16

17

18

19

20

A schematic of sequencing

Laser Dye Based Sequencing

21

Four-Color Sequencing

22

Automated Base Calling

23

A Biology Lab?

24

25

Human Genome Sequencing

26

27

28

Fundamental Problems in Bioinformatics

• Pairwise Sequence Alignment • Multiple Sequence Alignment • Phylogenetic Analysis • Sequence Based Database Searches • Gene Prediction • Structure Prediction (RNA and Protein) • Protein Classification • Gene Expression • Genetic nets

29

30

31

Почему нам интересует парное сходство последовательностей? Функцию, структуру и многие свойства белка/ДНК определяет последовательность Родственные белки имеют похожие свойства. Молекулы, похожие по свойствам, похожи по последовательностям. Свойсва можно предсказать, если мы найдем последовательности похожие на данную.

Pairwise Sequence Alignment

• Given two DNA or AA sequences, find the best way to “line them up”

– Biology allows for variation

– Gaps, mismatches, etc..

32

HEAGAWGHEE

PAWHEAE

HEAGAWGHE-E

P-A--W-HEAE

HEAGAWGHE-E

--P-AW-HEAE

33

34

Бэта-2 субъединицей гемоглобина Rattus norvegicus (Серая крыса). hemoglobin subunit beta-2 [Rattus norvegicus] Score = 115 bits (288), Expect = 1e-24, Method: Compositional matrix adjust. Identities = 63/145 (44%), Positives = 87/145 (60%), Gaps = 8/145 (5%) Query 3 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSA-----QV 56

L+ A+K V WGKV +A GAEAL R+ + +P T+ YF F DLS SA QV

Sbjct 4 LTDAEKATVSGLWGKV--NADNVGAEALGRLLVVYPWTQRYFSKFGDLSSASAIMGNPQV 61

Query 57 KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA 116

K HGKKV +A + + H+D++ + LS+LH KL VDP NF+LL + +++ L HL

Sbjct 62 KAHGKKVINAFNDGLKHLDNLKGTFAHLSELHCDKLHVDPENFRLLGNMIVIVLGHHLGK 121

Query 117 EFTPAVHASLDKFLASVSTVLTSKY 141

EFTP A+ K +A V++ L KY

Sbjct 122 EFTPCAQAAFQKVVAGVASALAHKY 1

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 PE=1 SV=2 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

Sequence Based Database Searches

• Keyword

– Find all sequences named “cytochrome c”

• Sequence

– Find all sequences similar to HEAGAWGHEE

– Remember, there are gigabytes to search, and I’m not about to wait two days for an answer!

• BLAST, FASTA, …

35

Multiple Sequence Alignment

• Extend pairwise problem to multiple sequences

36

37

38

39

40

Phylogenetic Analysis

• Study relationships between organisms

– Characteristic similarity

– Sequence similarity

– Whole genome comparison

– …

41

Phylogenetic Analysis

42

43

Gene Prediction

• Does the following sequence contain a gene?

• How many introns? Exons? Promoters? Other features?

44

TTGTAATCTCCTCTGTGACTATAATGACTAGTCTCAGGCCTGCCTTCCCCAGAAACCTCTCTTTTGGCTATTTCTCTTTC

TAGTTCTCTGTTTAAACAAAATTTATTCTATATATCTATCTATCTGTCTATCTATCTATCTATCTATCTATCTATCTATC

TATCTATCTATCTATCATCTACTTATCATCTGTCTAGCCATTTGAAGCATCTTTGTGTTTTAGGTCCTGTTAGATTCTCC

TTTCAGCCAGTGGAGGATCTGGACAGAGCTATTTCTTAGCTTCCCCTAAGCCATGTTGTTAGAACGAATCCCCCACACCT

CCTCTGAGTGCTACGTCTCCGTCAAGAATTATGTATGTGGGATCCAGATGGCCCAGTGGATAAAACTGCAAGTGTCATGA

CCATGACCTGACTTCAAGGGATTGTGTAGAAAGGGAGTTATCACAGTGTGAGGGACAGGGCTAAGGACACTAACCCGTAT

GTTGAGGGGCACAGACGCTAGCAACAACAGTGAAGTGTTTAAAAAGGCAAAAATCATGTTTCTAGAAGTCAGGAAGAGCC

TAACTTGTGGACAAGGACCAACAGGCAGCAGTTGTAATGGGGCAGGGCAGAGGGAGAGCGGACACGCAGCTTTTGGCATC

AAACACACCCAGAGTGTGGATAGAGAGTAGGGAAATACTCTAGTCTCTGGCTAGGATACTCCCCTCTCTTTTTGACATTT

CTCATTGGCAGCCCCAAGTGGTCACTGGAGAGCCAGGAAGCCTAAAGGACACAGTTAGTAGCAGCCAGCTCCTTTGGTGG

AATTTTGGGGACATGGTGGGGTGACTTGGCTCTATCCAGGCCAGGGCTGGGTGTGAGTATACACTTAGTGACTGGCCTTC

45

Genome annotation

Structure Prediction (RNA, Protein)

• From sequence, predict 2 and 3D structures.

46

Protein Classification

• From sequence, identify characteristics of a protein

– Active sites

– Families (e.g. globin)

– Blocks

– Domains

– Folds

– Motifs

– Etc.

47

48

Protein engineering

Gene Expression

• Study of gene activity under experimental conditions

– Large scale studies with microarrays

49

Фрагмент одной из карт метаболических путей. Современная биология стала источником огромных объемов экспериментальной информации,

осмысливание которых невозможно без использования эффективных информационных технологий и методов математического моделирования

50

51

52

IC&G SB RAS, Novosibirsk, Russia, BGRS-2002

МЕТАБОЛИЧЕСКИЕ ПУТИ – ОБЯЗАТЕЛЬНЫЕ

ЭЛЕМЕНТЫ ГЕННЫХ СЕТЕЙ. Адипоцит:

мевалонатный путь биосинтеза холестерина в клетке.

53

Интеграция генных сетей при противовоспалительном ответе

Цитокины

Антиоксидантная

защита

Арест клеточного цикла

Воспаление

Метаболизм железа

Ответ на тепловой шок

Апоптоз

Активные формы кислорода

Интеграционный междисциплинарный проект СО РАН по системной

компьютерной биологии

54

1882 процессов

Регуляторная компонента

(управление метаболизмом)

Соотношение метаболической и регуляторной

компонент цикла трикарбоновых кислот E. Coli K-12:

Исполняющая компонента

(метаболизм)

139 процессов

- ПРОЦЕСС

- участие в процессе с ненулевой стехиометрией - участие в процессе с нулевой стехиометрией

Полный граф

метаболической

компоненты

E. COLI K-12:

3973 процесса

Нижние оценки сложности

модели (без детального учета

этапов матричного биосинтеза):

~ 60 000 – 100 000 процессов

Более детальная модель:

~ 1 000 000 процессов

Портретная модель:

не менее 10 000 000 процессов

Интеграционный междисциплинарный проект СО РАН по

системной компьютерной биологии

Первый “банк данных”

55

Атлас белковых

последовательностей и

их структур

1965 -1978

Первая версия атласа содержала описание 65 ! последовательностей

белков

Genome Sizes

56

Species Genome Size

Bacteriophage MS2 3569 bp

Esherichia coli 4.7 million bp

Human 3.3 billion bp

Nucleotide Sequence Databases

• 3 main databases

– EMBL: www.ebi.ac.uk/embl

– GenBank: www.ncbi.nlm.nih.gov/GenBank

– DDBJ: www.ddbj.nig.ac.jp

The 3 databases are synchronized on a daily basis, and the

accession numbers are consistent.

There are no legal restriction in the usage of these databases. However, there are some patented sequences in the database

57

58

Protein Sequence Databases

http://www.expasy.ch/sprot/

The SWISS-PROT database has some legal restrictions: the entries are copyrighted,

but freely accessible by academic researchers.

Commercial companies must buy a license fee from SIB.

Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold

standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных экспертов на основе

экспериментальной информации, описанной в научных статьях.

Организована в 1986 году – SIB+EBI+PIR+GU = prof. Amos Bairoch

На сегодняшний день – 556568 последовательностей

59

Анализ белковых последовательностей: Swiss-Prot

UniProt DB

60

UniProt = Swiss-Prot + TrEMBL (Translated EMBL sequence database)

TrEMBL – 107 427635 sequences

Поиск белка в Swiss-Prot (по названию)

61

Advances search

62

Biomolecule Structure Database

• PDB: http://www.rcsb.org

• SCOP: http://scop.berkeley.edu

• CATH: http://biochem.ucl.ac.uk/bsm/CATH

• ASTRAL: http://astral.berkeley.edu

• Interfaces to PDB: – PDB at a glance

http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html

– Molecules to go http://molbio.info.nih.gov/cgi-bin/pdb/

– EBI interface: http://www.ebi.ac.uk/msd/

– PDBSum: http://www.ebi.ac.uk/thornton-srv/databases/pdbsum

63

64

Serine-threonine and tyrosine protein kinases

Data flow in ASTRAL

65

The ASTRAL compendium provides databases and tools useful for analyzing protein structures and their sequences

66

Поиск литературы: PubMed

PubMed is a service of the U.S. National Library of Medicine that includes over 18 million citations from MEDLINE and other life science journals for biomedical articles back to the 1950s. PubMed includes links to full text articles and other related resources.

URLs: www.pubmed.gov

www.ncbi.nlm.nih.gov

67

Поиск по названию белка

68

Как это выглядит

69

Как получить статью

70

Полный текст

Это не сайт журнала

Другие виды поиска

По любым ключевым словам или их сочетаниям (AND – необязательно)

По автору (лучше с инициалами!)

По названию статьи

По журналу

По аффилиации авторов

Только в аннотациях

По PMID

По дате – год, либо год/месяц

По словосочетанию – взять в кавычки

71

Ген-ориентированные базы данных и геномные браузеры

Что такое ген-ориентированные базы данных?

Самые простые примеры таких БД

Примеры геном-ориентированных баз данных и геномные браузеры

Human Genome Browser

72

Что такое ген-ориентированные базы данных?

• Единица исследования – ген (а не экспериментальная последовательность)

• Призваны снабжать информацией по конкретному гену, а не “последовательностям, относящимся ко данному конкретному гену” – интегрируют все такие части в единое целое за Вас

73

Первый пример – Gene Entrez (бывший LocusLink) в NCBI

• Единица – генетический локус – конкретное место на хромосоме, кодирующее данный белок и/или соответствующее данному гену

74

DUT ген человека

75

Продолжение записи:

Bibliography – Related Articles in PubMed – GeneRIFs: Gene References Into Function

Interactions General gene information

– Markers – Genotypes – Pathways – Homology

GeneOntology General protein information (Names, ECs, ACs) NCBI Reference Sequences (RefSeq)

– mRNAs and proteins – Reference assembly + Alternate assembly: Genomic

Related Sequences (links between ACs of different types) Additional Links (OMIM, PharmGKB, HRDP, UniGene)

76

Геномные базы данных

Объект – полный геном

Возможность одновременно изучать все гены одного генома

Сравнение друг с другом целых геномов – сравнительная геномика (comparative genomics)

Интеграция всей доступной информации о данном геноме

Основная информация о генах, но в геномном контексте

Геномные браузеры – графическое представление всей интегрированной информации

NCBI -> Genomic Biology (http://www.ncbi.nlm.nih.gov/Genomes/)

77

MapViewer

78

Sequence Viewer

79

Human

Два основных браузера:

Ensembl (http://www.ensembl.org) – EBI & Sanger Institute, использует свои IDs, 35 эукариотических видов

Human Genome Browser (http://genome.ucsc.edu/) – UCSC, USA

использует GenBank IDs, 41 эукариотический вид

80

Human Genome Browser

81

RefSeq ID

Chr Band

Gene name

Coords

DUT gene (dUTPAse)

82

Как это выглядит?

83

Different perspectives on Bioinformatics

• Bioinformatics is a tool

– Biologists, biochemists, medical professionals, etc.

– Obtain meaningful and understandable results

• Bioinformatics is a discipline

– Informaticians, mathematicians, statisticians, etc.

– Generate meaningful and understandable results

84

Summary

• Bioinformatics is truly interdisciplinary

– Biology (natural sciences), informatics, mathematics & statistics

• Databases

– Large, semistructured, incomplete, inaccurate

• Wide-range of problems

– Solutions employ knowledge from sciences with algorithms and models from informatics, mathematics, and statistics

85

• Веб-страница для курса

• http://intbio.org/bioinf2018

• Связь с лекторами

• bioinf2018@googlegroups.com

• Онлайн опрос

• https://goo.gl/forms/0RDO3xnIqiotvFYz1

86

top related