mejoramiento genético de la caña de azúcar mediante el uso ...azúcar mediante el uso de...

Mejoramiento decaña

CIDCA

Datosgenotípicos

Datos fenotípicos

Análisis de datosControl de calidad

Diversidad

Predicción

Otros análisis

Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis

Mejoramiento Genético de la caña deazúcar mediante el uso de marcadores

moleculares

CIDCA, A.C.

Noviembre, 2017.

CIDCA Mejoramiento de caña 1/50


CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Contenido

1 Datos genotípicos

2 Datos fenotípicos

3 Análisis de datos

4 Otros análisis



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Datos genotípicos

• Información a nivel molecular de 93 variedades de caña deazúcar.

• Información de marcadores obtenida por la compañíaDiversity Arrays Technology, Canberra, Au. La compañíainformó que las muestras pasaron sus controles de calidad.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


• Marcadores del tipo “presencia” (1) y ausencia (0).• 52,828 marcadores obtenidos.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Figura 1: Estructura del directorios con resultados DArT.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Figura 2: Archivo Report_DSc16-2426_SilicoDArT_1.csv



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

Las primeras 10 columnas del archivo contienen información delos marcadores,...



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

Los datos pueden ser analizados utilizando diferentes programas,en este caso se utilizó R, http://www.r-project.org,

#Clean workspacerm(list=ls())

library(cluster)

setwd("~/Regression models")source("rCode/Impute.R")

Geno=read.csv(file="data/Report_DSc16-2426_SilicoDArT_1.csv",skip=5,header=TRUE,na.strings="-")

La compañía no conoce el nombre de los materiales, lainformación se puede incluir posteriormente al momento derealizar los análisis.


http://www.r-project.org


CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

Figura 3: Relación entre GID y variedad.

En R:gids=read.csv(file="data/gids.csv",header=TRUE)CloneID=Geno[,1]Geno=Geno[,-c(1:10)]#Take the transpose of GenotypesGeno=as.matrix(Geno)



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Figura 4: Sub conjunto de marcadores.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Datos fenotípicos

• Información fenotípica de 137 variedades de caña.• Características de interés: Número de tallos molederos,

Altura (m) y Grosor (cm), grados Brix.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

Figura 5: Datos fenotípicos.

En R:

#PhenotypesPheno=read.csv(file="data/Pheno.csv",header=TRUE,na.strings="?")Pheno$Variedad=as.character(Pheno$Variedad)



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Contenido



3 Análisis de datosControl de calidadDiversidadPredicción

4 Otros análisis



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Control de calidadHistogram of colSums(is.na(Geno))/93

Proporción de faltantes

Núm

ero

de m

arca

dore

s

0.00 0.05 0.10 0.15 0.20

020

0040

0060

0080

0010

000

Figura 6: Distribución de valores faltantes.

Min. 1st Qu. Median Mean 3rd Qu. Max.0.00000 0.01075 0.03226 0.04403 0.06452 0.23660



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


En R:

hist(colSums(is.na(Geno))/93,xlab="Proporción de faltantes",ylab="Número de marcadores")

summary(colSums(is.na(Geno))/93)

Para cada marcador existe una pequeña proporción de valoresfaltantes, se desarrolló una rutina (“Impute.R”) para imputar estosvalores faltantes utilizando las frecuencias observadas. En R:

set.seed(123)out=Impute(Geno)#Markers already imputedX=out$X



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Histogram of maf

MAF

Núm

ero

de m

arca

dore

s

0.0 0.1 0.2 0.3 0.4 0.5

020

0040

0060

0080

00

Figura 7: Distribución de frecuencias del alelo menor (MAF).

pj , proporción de 1′s para marcador j = 1,2, ...,

mafj =

{pj si pj < 0.51− pj en caso contrario.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

en R:

#Allelic frequencyp=colMeans(X)quartz()hist(p)

#Minor allele frequencymaf=ifelse(p<0.5,p,1-p)

hist(maf,xlab="MAF",ylab="Número de marcadores")

#Drop markers with maf<0.05index=maf>0.05sum(index)

X=X[,index]p=p[index]maf=maf[index]



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Contenido




4 Otros análisis



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Matriz de relaciones genómicas

La matriz de relaciones genómicas(G) aparece de forma naturalen varios modelos usados en selección genómica. VanRaden(2008) estudió algunos métodos eficientes para obtenerpredicciones basados en esta matriz.

Existen varias maneras de calcular la matriz G,



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


1

G = XX ′,

donde X es la matriz de marcadores de dimensiones n × p.Para DArT xij ∈ {0,1}.

2

G =(X − E)(X − E)′

2∑p

j=1 pj(1− pj),

donde pj is la frecuencia del alelo menor para el marcadorj = 1, ...,p, y E es una matriz de frecuencias esperadas dexij bajo equilibrio de Hardy-Weinberg.

3

G =ZZ ′

p,

donde Z es la matriz de marcadores centrada yestandarizada y p es el número de marcadores, es decir,zij = (xij − pj)/

√pj(1− pj).



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

CP

92−

1401

CP

75−

1632

CP

89−

2377

CP

75−

1091

CP

80−

1743

CP

82−

2043

CP

70−

1527

CP

70−

1133

Mex

07−

1408

ITV

92−

1424

Mex

08−

1270

Mex

09−

1433

Mex

09−

1358

LGM

92−

156

LTM

ex 9

4−2

LTM

ex 9

6−10

CC

93−

3458

CP

72−

2086

EM

ex 0

2−05

EM

ex 0

5−22

5E

Mex

05−

222

CC

94−

5739

CC

94−

5168

CC

93−

4206

Mex

56−

294

HO

CP

93−

746

B 4

5181

CC

92−

2198

CC

SP

89−

43C

C 9

3−38

26C

OLP

OS

CT

Mex

05−

223

CO

LPO

SC

TM

ex 0

6−39

CB

36−

14C

OLP

OS

CT

Mex

05−

204

Co

453

Mex

58−

418

Mex

61−

1428

Co

421

Co

467

Mex

69−

290

Mex

56−

476

CC

92−

2358

CC

93−

4418

CO

LPO

SC

TM

ex 0

6−47

4C

C 8

6−29

CO

LPO

SC

TM

ex 0

6−27

62M

ex 5

6−10

5C

G 9

7−10

0C

C 9

3−34

23C

C 8

3−29

CB

40−

77B

351

87M

ex 6

4−64

9LC

P 8

1−10

CP

56−

63M

112

/34

ICA

76−

7C

C 8

4−59

CC

87−

505

CC

85−

92C

C 9

8−12

CP

88−

1508

CP

73−

1547

Col

Mex

02−

225

CP

78−

1610

CP

72−

1210

L 60

−14

CP

62−

374

CP

84−

730

Mex

62−

631

Mex

69−

749

Mex

64−

406

Mex

52−

17LT

Mex

93−

354

C 3

23−

68M

ex 6

6−12

35IC

PM

ex 9

2−14

20C

P 3

4−79

L 68

−40

Ja 6

4−20

Mex

57−

1456

Mex

59−

12AT

EM

ex 9

6−40

Mex

57−

473

EM

ex 0

1−32

3M

ex 5

3−14

2M

ex 6

8−13

45M

ex 5

9−42

8C

YZ

82−

154

Mex

73−

1278

Mex

65−

1418

CP

59−

22C

l 47−

83

CP 92−1401CP 75−1632CP 89−2377CP 75−1091CP 80−1743CP 82−2043CP 70−1527CP 70−1133Mex 07−1408ITV 92−1424Mex 08−1270Mex 09−1433Mex 09−1358LGM 92−156LTMex 94−2LTMex 96−10CC 93−3458CP 72−2086EMex 02−05EMex 05−225EMex 05−222CC 94−5739CC 94−5168CC 93−4206Mex 56−294HOCP 93−746B 45181CC 92−2198CCSP 89−43CC 93−3826COLPOSCTMex 05−223COLPOSCTMex 06−39CB 36−14COLPOSCTMex 05−204Co 453Mex 58−418Mex 61−1428Co 421Co 467Mex 69−290Mex 56−476CC 92−2358CC 93−4418COLPOSCTMex 06−474CC 86−29COLPOSCTMex 06−2762Mex 56−105CG 97−100CC 93−3423CC 83−29CB 40−77B 35187Mex 64−649LCP 81−10CP 56−63M 112/34ICA 76−7CC 84−59CC 87−505CC 85−92CC 98−12CP 88−1508CP 73−1547ColMex 02−225CP 78−1610CP 72−1210L 60−14CP 62−374CP 84−730 Mex 62−631Mex 69−749Mex 64−406Mex 52−17LTMex 93−354C 323−68Mex 66−1235ICPMex 92−1420CP 34−79L 68−40Ja 64−20Mex 57−1456Mex 59−12ATEMex 96−40Mex 57−473EMex 01−323Mex 53−142Mex 68−1345Mex 59−428CYZ 82−154Mex 73−1278Mex 65−1418CP 59−22Cl 47−83

Figura 8: Mapa de calor de la matriz de relaciones genómicas.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

En R:

Z=scale(X,center=TRUE,scale=TRUE)

G=tcrossprod(Z)/ncol(Z)

heatmap(G,cexCol=0.5,cexRow=0.5)



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Distancias

Una vez que se tienen los marcadores, es posible calculardiferentes tipos de distancias, por ejemplo Euclideana, Rogers,etc.

En el caso de distancias Euclideanas para dos individuoscualesquiera,i y j = 1, ...,93. con xij ∈ {0,1},

dij =√||x i − x j ||2 =

√√√√ p∑k=1

(xik − xjk )2

para Rogers,

dij =1p

√√√√ p∑k=1

(xik − xjk )2/2



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Notas para distancia Euclideana

• El valor mínimo de dij es 0.• El valor máximo de dij es

√p, donde p es el número de

marcadores.

Figura 9: Ejemplo de valores máximos y mínimos de dij .



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...En R:

D=dist(X,method = "euclidean")D=as.matrix(D)write.csv(D,file="Euclideanas.csv")

Figura 10: Distancias Euclideanas para 6 variedades.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Agrupamiento jerárquico

La idea es combinar las observaciones (es decir, la filas de X) engrupos relativamente homogéneos llamados conglomerados(clusters). Las observaciones del mismo grupo estarán, en algúnsentido, “cerca”.

Figura 11: Ejemplo de cluster jerárquico.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...En R:D=dist(X)out_hclust=hclust(D)plot(out_hclust)

CC

93−

3826

CO

LPO

SCTM

ex 0

5−22

3M

ex 5

6−47

6M

ex 6

9−29

0C

C 9

2−23

58C

OLP

OSC

TMex

06−

474

CC

93−

4418

CO

LPO

SCTM

ex 0

6−27

62C

OLP

OSC

TMex

06−

39C

B 36−1

4C

OLP

OSC

TMex

05−

204

CC

94−

5739

EMex

05−

222

EMex

05−

225

CC

93−

4206

CC

94−

5168 M

ex 5

6−29

4B

4518

1H

OC

P 93−7

46C

C 9

2−21

98C

CSP

89−

43C

o 45

3M

ex 5

8−41

8M

ex 6

1−14

28C

o 42

1C

o 46

7LG

M 9

2−15

6M

ex 0

7−14

08IT

V 92−1

424

Mex

08−

1270

Mex

09−

1358

Mex

09−

1433

LTM

ex 9

4−2

LTM

ex 9

6−10

CC

93−

3458

CP

72−2

086

EMex

02−

05C

C 8

4−59

CC

87−

505

CC

85−

92C

C 9

8−12

CP

72−1

210

L 60−1

4C

P 62−3

74C

P 84−7

30 C

P 78−1

610

CP

88−1

508

ICPM

ex 9

2−14

20M

ex 6

6−12

35C

P 34−7

9Ja

64−

20L

68−4

0C

YZ 8

2−15

4M

ex 5

9−42

8M

ex 5

3−14

2M

ex 6

8−13

45C

323−6

8LT

Mex

93−

354

Mex

65−

1418

Cl 4

7−83

CP

59−2

2C

C 8

3−29

CG

97−

100

Mex

56−

105

CC

86−

29C

C 9

3−34

23LC

P 81−1

0M

ex 6

4−64

9C

P 56−6

3IC

A 76−7

M 1

12/3

4EM

ex 0

1−32

3AT

EMex

96−

40C

B 40−7

7M

ex 5

7−47

3 B 35

187

Mex

73−

1278

CP

92−1

401

CP

75−1

091

CP

75−1

632

CP

89−2

377

CP

70−1

133

CP

70−1

527

CP

80−1

743

CP

82−2

043

Mex

62−

631

Mex

57−

1456

Mex

59−

12M

ex 6

9−74

9M

ex 5

2−17

Mex

64−

406

Col

Mex

02−

225

CP

73−1

547

2040

6080

100

120

Cluster Dendrogram

hclust (*, "complete")D

Hei

ght

Figura 12: Dendograma basado en distancias Euclideanas conencadenamiento completo.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Contenido




4 Otros análisis



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Modelos de predicción basados en marcadores

Figura 13: Esquema de selección genómica (Desta and Ortiz, 2014).



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

En Selección genómica, los valores genéticos son aproximadosutilizando regresión lineal (Meuwissen et al., 2001), esto es:

yi = gi + ei = µ+

p∑j=1

xijβj + ei (1)

Relación entre marcadores (x1i :0 and 1) and fenotipos (yi ) paraun conjunto de individuos(círculos sin relleno) en unapoblación de entrenamiento(Nakaya e Isobe, 2012).



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

Los valores de cría (GEBVs ) se obtienen como una combinaciónlineal de los marcadores con los pesos dados por los efectos delos mismos, es decir:

GEBVi =

p∑j=1

xij βj (2)



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


GBLUP-RR

El modelo más simple usado en selección genómica:

yi = gi + ei = µ+

p∑j=1

xijβj + ei

Los efectos de marcadores pueden obtenerse resolviendo elsiguiente problema de optimización,

min β, λ{(y −

∑Xjβj)

′(y −∑

Xjβj) + λ∑

β2j

}, (3)

donde λ > 0 es un parámetro de regularización.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continue...



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


BGLR

• A novel software for whole genomic regression an predictionfor continuous, discrete traits, censored and uncensored.

• Suitable for big p and small n problems.• Many non-parametric and parametric models implemented in

a consistent manner.• Large collection of Bayesian models included:

• Bayesian ridge regression.• Bayesian LASSO.• BayesA, BayesB, BayesC-π.• Reproducing Kernel Hilbert Spaces.• Reproducing Kernel Hilbert Spaces with Kernel-Averaging.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


En R

#Clean workspacerm(list=ls())

library(BGLR)#Load dataload("data/Pheno_Geno.RData")

#Compute the Genomic Relationship matrixZ=scale(X,center=TRUE,scale=TRUE)G=tcrossprod(X)/ncol(Z)

#Exploratory data analysishist(Pheno$Brix)

#Regression modelETA0=list(list(X=Z,model="BRR"))fm0=BGLR(y=Pheno$Brix,ETA=ETA0,nIter=10000)



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Predicción de grados Brix



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Heredabilidad genómica

Figura 14: Distribución de h2 =σ2

aσ2

a+σ2e

.CIDCA Mejoramiento de caña 38/50


CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Predicción valores fenotípicos de cruzas simples

• Predecir valores fenotípicos de cruzas usando informacióngenotípica de padres.

• Datos:• Información fenotípica de algunas cruzas.• Información genotípica de padres y madres.

• El modelo debe predecir cruzas que no se han hecho y no sehan probado en campo.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Lo que se hace en trigo y maíz...

Figura 15: Cruza simple



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Modelos



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

y = ZEβE + Z DgD + Z F gF + Z Hh + e

• ZE matriz de incidencia para ambientes, βE el efecto deambientes.

• Z D matriz de incidencia para machos.• gD vector de efectos aleatorios para la aptitud combinatoria

general de machos, gD ∼ N(0, σ2DGD).

• Z F matriz de incidencias para hembras.• gF vector de efectos aleatorios para aptitud combinatoria

general para hembras, gF ∼ N(0, σ2F GF ).



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continue...

• Z H matriz de incidencias para híbridos.• hF vector de efectos aleatorios asociada a aptitud

combinatoria específica de las cruzas, h ∼ N(0, σ2HH).

• H = GD ⊗GH .



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Otros análisis

• GWAS (Genome Wide Association Studies).• Resistencia a enfermedades.



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Modelo de umbrales para resistencia...

θ1 θ2 θ3 θk−2 θk−1

0.0

0.1

0.2

0.3

0.4

p1 p2 p3 ... ... pk

y~ = xit β + ei

Figura 16: Función de densidad de la variable latente



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...

Defina:

Yi =

0 Yi < θ1

1 θ1 < Yi < θ2...k Yi > θk−1



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Continuar...



CIDCA

Datosgenotípicos

Datos fenotípicos


Diversidad

Predicción

Otros análisis


Referencias

Endelman, J. B., 2011.Ridge Regression and Other Kernels for Genomic Selectionwith R package rrBLUP,The Plant Genome 4(3): 250-255.


mejoramiento genético de la caña de azúcar mediante el uso ...azúcar mediante el uso de...

Documents