mejoramiento genético de la caña de azúcar mediante el uso ...azúcar mediante el uso de...
TRANSCRIPT
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Mejoramiento Genético de la caña deazúcar mediante el uso de marcadores
moleculares
CIDCA, A.C.
Noviembre, 2017.
CIDCA Mejoramiento de caña 1/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Contenido
1 Datos genotípicos
2 Datos fenotípicos
3 Análisis de datos
4 Otros análisis
CIDCA Mejoramiento de caña 2/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Datos genotípicos
• Información a nivel molecular de 93 variedades de caña deazúcar.
• Información de marcadores obtenida por la compañíaDiversity Arrays Technology, Canberra, Au. La compañíainformó que las muestras pasaron sus controles de calidad.
CIDCA Mejoramiento de caña 3/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
• Marcadores del tipo “presencia” (1) y ausencia (0).• 52,828 marcadores obtenidos.
CIDCA Mejoramiento de caña 4/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Figura 1: Estructura del directorios con resultados DArT.
CIDCA Mejoramiento de caña 5/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Figura 2: Archivo Report_DSc16-2426_SilicoDArT_1.csv
CIDCA Mejoramiento de caña 6/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
Las primeras 10 columnas del archivo contienen información delos marcadores,...
CIDCA Mejoramiento de caña 7/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
Los datos pueden ser analizados utilizando diferentes programas,en este caso se utilizó R, http://www.r-project.org,
#Clean workspacerm(list=ls())
library(cluster)
setwd("~/Regression models")source("rCode/Impute.R")
Geno=read.csv(file="data/Report_DSc16-2426_SilicoDArT_1.csv",skip=5,header=TRUE,na.strings="-")
La compañía no conoce el nombre de los materiales, lainformación se puede incluir posteriormente al momento derealizar los análisis.
CIDCA Mejoramiento de caña 8/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
Figura 3: Relación entre GID y variedad.
En R:gids=read.csv(file="data/gids.csv",header=TRUE)CloneID=Geno[,1]Geno=Geno[,-c(1:10)]#Take the transpose of GenotypesGeno=as.matrix(Geno)
CIDCA Mejoramiento de caña 9/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Figura 4: Sub conjunto de marcadores.
CIDCA Mejoramiento de caña 10/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Datos fenotípicos
• Información fenotípica de 137 variedades de caña.• Características de interés: Número de tallos molederos,
Altura (m) y Grosor (cm), grados Brix.
CIDCA Mejoramiento de caña 11/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
Figura 5: Datos fenotípicos.
En R:
#PhenotypesPheno=read.csv(file="data/Pheno.csv",header=TRUE,na.strings="?")Pheno$Variedad=as.character(Pheno$Variedad)
CIDCA Mejoramiento de caña 12/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Contenido
1 Datos genotípicos
2 Datos fenotípicos
3 Análisis de datosControl de calidadDiversidadPredicción
4 Otros análisis
CIDCA Mejoramiento de caña 13/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Control de calidadHistogram of colSums(is.na(Geno))/93
Proporción de faltantes
Núm
ero
de m
arca
dore
s
0.00 0.05 0.10 0.15 0.20
020
0040
0060
0080
0010
000
Figura 6: Distribución de valores faltantes.
Min. 1st Qu. Median Mean 3rd Qu. Max.0.00000 0.01075 0.03226 0.04403 0.06452 0.23660
CIDCA Mejoramiento de caña 14/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
En R:
hist(colSums(is.na(Geno))/93,xlab="Proporción de faltantes",ylab="Número de marcadores")
summary(colSums(is.na(Geno))/93)
Para cada marcador existe una pequeña proporción de valoresfaltantes, se desarrolló una rutina (“Impute.R”) para imputar estosvalores faltantes utilizando las frecuencias observadas. En R:
set.seed(123)out=Impute(Geno)#Markers already imputedX=out$X
CIDCA Mejoramiento de caña 15/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Histogram of maf
MAF
Núm
ero
de m
arca
dore
s
0.0 0.1 0.2 0.3 0.4 0.5
020
0040
0060
0080
00
Figura 7: Distribución de frecuencias del alelo menor (MAF).
pj , proporción de 1′s para marcador j = 1,2, ...,
mafj =
{pj si pj < 0.51− pj en caso contrario.
CIDCA Mejoramiento de caña 16/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
en R:
#Allelic frequencyp=colMeans(X)quartz()hist(p)
#Minor allele frequencymaf=ifelse(p<0.5,p,1-p)
hist(maf,xlab="MAF",ylab="Número de marcadores")
#Drop markers with maf<0.05index=maf>0.05sum(index)
X=X[,index]p=p[index]maf=maf[index]
CIDCA Mejoramiento de caña 17/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Contenido
1 Datos genotípicos
2 Datos fenotípicos
3 Análisis de datosControl de calidadDiversidadPredicción
4 Otros análisis
CIDCA Mejoramiento de caña 18/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Matriz de relaciones genómicas
La matriz de relaciones genómicas(G) aparece de forma naturalen varios modelos usados en selección genómica. VanRaden(2008) estudió algunos métodos eficientes para obtenerpredicciones basados en esta matriz.
Existen varias maneras de calcular la matriz G,
CIDCA Mejoramiento de caña 19/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
1
G = XX ′,
donde X es la matriz de marcadores de dimensiones n × p.Para DArT xij ∈ {0,1}.
2
G =(X − E)(X − E)′
2∑p
j=1 pj(1− pj),
donde pj is la frecuencia del alelo menor para el marcadorj = 1, ...,p, y E es una matriz de frecuencias esperadas dexij bajo equilibrio de Hardy-Weinberg.
3
G =ZZ ′
p,
donde Z es la matriz de marcadores centrada yestandarizada y p es el número de marcadores, es decir,zij = (xij − pj)/
√pj(1− pj).
CIDCA Mejoramiento de caña 20/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
CP
92−
1401
CP
75−
1632
CP
89−
2377
CP
75−
1091
CP
80−
1743
CP
82−
2043
CP
70−
1527
CP
70−
1133
Mex
07−
1408
ITV
92−
1424
Mex
08−
1270
Mex
09−
1433
Mex
09−
1358
LGM
92−
156
LTM
ex 9
4−2
LTM
ex 9
6−10
CC
93−
3458
CP
72−
2086
EM
ex 0
2−05
EM
ex 0
5−22
5E
Mex
05−
222
CC
94−
5739
CC
94−
5168
CC
93−
4206
Mex
56−
294
HO
CP
93−
746
B 4
5181
CC
92−
2198
CC
SP
89−
43C
C 9
3−38
26C
OLP
OS
CT
Mex
05−
223
CO
LPO
SC
TM
ex 0
6−39
CB
36−
14C
OLP
OS
CT
Mex
05−
204
Co
453
Mex
58−
418
Mex
61−
1428
Co
421
Co
467
Mex
69−
290
Mex
56−
476
CC
92−
2358
CC
93−
4418
CO
LPO
SC
TM
ex 0
6−47
4C
C 8
6−29
CO
LPO
SC
TM
ex 0
6−27
62M
ex 5
6−10
5C
G 9
7−10
0C
C 9
3−34
23C
C 8
3−29
CB
40−
77B
351
87M
ex 6
4−64
9LC
P 8
1−10
CP
56−
63M
112
/34
ICA
76−
7C
C 8
4−59
CC
87−
505
CC
85−
92C
C 9
8−12
CP
88−
1508
CP
73−
1547
Col
Mex
02−
225
CP
78−
1610
CP
72−
1210
L 60
−14
CP
62−
374
CP
84−
730
Mex
62−
631
Mex
69−
749
Mex
64−
406
Mex
52−
17LT
Mex
93−
354
C 3
23−
68M
ex 6
6−12
35IC
PM
ex 9
2−14
20C
P 3
4−79
L 68
−40
Ja 6
4−20
Mex
57−
1456
Mex
59−
12AT
EM
ex 9
6−40
Mex
57−
473
EM
ex 0
1−32
3M
ex 5
3−14
2M
ex 6
8−13
45M
ex 5
9−42
8C
YZ
82−
154
Mex
73−
1278
Mex
65−
1418
CP
59−
22C
l 47−
83
CP 92−1401CP 75−1632CP 89−2377CP 75−1091CP 80−1743CP 82−2043CP 70−1527CP 70−1133Mex 07−1408ITV 92−1424Mex 08−1270Mex 09−1433Mex 09−1358LGM 92−156LTMex 94−2LTMex 96−10CC 93−3458CP 72−2086EMex 02−05EMex 05−225EMex 05−222CC 94−5739CC 94−5168CC 93−4206Mex 56−294HOCP 93−746B 45181CC 92−2198CCSP 89−43CC 93−3826COLPOSCTMex 05−223COLPOSCTMex 06−39CB 36−14COLPOSCTMex 05−204Co 453Mex 58−418Mex 61−1428Co 421Co 467Mex 69−290Mex 56−476CC 92−2358CC 93−4418COLPOSCTMex 06−474CC 86−29COLPOSCTMex 06−2762Mex 56−105CG 97−100CC 93−3423CC 83−29CB 40−77B 35187Mex 64−649LCP 81−10CP 56−63M 112/34ICA 76−7CC 84−59CC 87−505CC 85−92CC 98−12CP 88−1508CP 73−1547ColMex 02−225CP 78−1610CP 72−1210L 60−14CP 62−374CP 84−730 Mex 62−631Mex 69−749Mex 64−406Mex 52−17LTMex 93−354C 323−68Mex 66−1235ICPMex 92−1420CP 34−79L 68−40Ja 64−20Mex 57−1456Mex 59−12ATEMex 96−40Mex 57−473EMex 01−323Mex 53−142Mex 68−1345Mex 59−428CYZ 82−154Mex 73−1278Mex 65−1418CP 59−22Cl 47−83
Figura 8: Mapa de calor de la matriz de relaciones genómicas.
CIDCA Mejoramiento de caña 21/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
En R:
Z=scale(X,center=TRUE,scale=TRUE)
G=tcrossprod(Z)/ncol(Z)
heatmap(G,cexCol=0.5,cexRow=0.5)
CIDCA Mejoramiento de caña 22/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Distancias
Una vez que se tienen los marcadores, es posible calculardiferentes tipos de distancias, por ejemplo Euclideana, Rogers,etc.
En el caso de distancias Euclideanas para dos individuoscualesquiera,i y j = 1, ...,93. con xij ∈ {0,1},
dij =√||x i − x j ||2 =
√√√√ p∑k=1
(xik − xjk )2
para Rogers,
dij =1p
√√√√ p∑k=1
(xik − xjk )2/2
CIDCA Mejoramiento de caña 23/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Notas para distancia Euclideana
• El valor mínimo de dij es 0.• El valor máximo de dij es
√p, donde p es el número de
marcadores.
Figura 9: Ejemplo de valores máximos y mínimos de dij .
CIDCA Mejoramiento de caña 24/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...En R:
D=dist(X,method = "euclidean")D=as.matrix(D)write.csv(D,file="Euclideanas.csv")
Figura 10: Distancias Euclideanas para 6 variedades.
CIDCA Mejoramiento de caña 25/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Agrupamiento jerárquico
La idea es combinar las observaciones (es decir, la filas de X) engrupos relativamente homogéneos llamados conglomerados(clusters). Las observaciones del mismo grupo estarán, en algúnsentido, “cerca”.
Figura 11: Ejemplo de cluster jerárquico.
CIDCA Mejoramiento de caña 26/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...En R:D=dist(X)out_hclust=hclust(D)plot(out_hclust)
CC
93−
3826
CO
LPO
SCTM
ex 0
5−22
3M
ex 5
6−47
6M
ex 6
9−29
0C
C 9
2−23
58C
OLP
OSC
TMex
06−
474
CC
93−
4418
CO
LPO
SCTM
ex 0
6−27
62C
OLP
OSC
TMex
06−
39C
B 36−1
4C
OLP
OSC
TMex
05−
204
CC
94−
5739
EMex
05−
222
EMex
05−
225
CC
93−
4206
CC
94−
5168 M
ex 5
6−29
4B
4518
1H
OC
P 93−7
46C
C 9
2−21
98C
CSP
89−
43C
o 45
3M
ex 5
8−41
8M
ex 6
1−14
28C
o 42
1C
o 46
7LG
M 9
2−15
6M
ex 0
7−14
08IT
V 92−1
424
Mex
08−
1270
Mex
09−
1358
Mex
09−
1433
LTM
ex 9
4−2
LTM
ex 9
6−10
CC
93−
3458
CP
72−2
086
EMex
02−
05C
C 8
4−59
CC
87−
505
CC
85−
92C
C 9
8−12
CP
72−1
210
L 60−1
4C
P 62−3
74C
P 84−7
30 C
P 78−1
610
CP
88−1
508
ICPM
ex 9
2−14
20M
ex 6
6−12
35C
P 34−7
9Ja
64−
20L
68−4
0C
YZ 8
2−15
4M
ex 5
9−42
8M
ex 5
3−14
2M
ex 6
8−13
45C
323−6
8LT
Mex
93−
354
Mex
65−
1418
Cl 4
7−83
CP
59−2
2C
C 8
3−29
CG
97−
100
Mex
56−
105
CC
86−
29C
C 9
3−34
23LC
P 81−1
0M
ex 6
4−64
9C
P 56−6
3IC
A 76−7
M 1
12/3
4EM
ex 0
1−32
3AT
EMex
96−
40C
B 40−7
7M
ex 5
7−47
3 B 35
187
Mex
73−
1278
CP
92−1
401
CP
75−1
091
CP
75−1
632
CP
89−2
377
CP
70−1
133
CP
70−1
527
CP
80−1
743
CP
82−2
043
Mex
62−
631
Mex
57−
1456
Mex
59−
12M
ex 6
9−74
9M
ex 5
2−17
Mex
64−
406
Col
Mex
02−
225
CP
73−1
547
2040
6080
100
120
Cluster Dendrogram
hclust (*, "complete")D
Hei
ght
Figura 12: Dendograma basado en distancias Euclideanas conencadenamiento completo.
CIDCA Mejoramiento de caña 27/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Contenido
1 Datos genotípicos
2 Datos fenotípicos
3 Análisis de datosControl de calidadDiversidadPredicción
4 Otros análisis
CIDCA Mejoramiento de caña 28/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Modelos de predicción basados en marcadores
Figura 13: Esquema de selección genómica (Desta and Ortiz, 2014).
CIDCA Mejoramiento de caña 29/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
En Selección genómica, los valores genéticos son aproximadosutilizando regresión lineal (Meuwissen et al., 2001), esto es:
yi = gi + ei = µ+
p∑j=1
xijβj + ei (1)
Relación entre marcadores (x1i :0 and 1) and fenotipos (yi ) paraun conjunto de individuos(círculos sin relleno) en unapoblación de entrenamiento(Nakaya e Isobe, 2012).
CIDCA Mejoramiento de caña 30/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
Los valores de cría (GEBVs ) se obtienen como una combinaciónlineal de los marcadores con los pesos dados por los efectos delos mismos, es decir:
GEBVi =
p∑j=1
xij βj (2)
CIDCA Mejoramiento de caña 31/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
GBLUP-RR
El modelo más simple usado en selección genómica:
yi = gi + ei = µ+
p∑j=1
xijβj + ei
Los efectos de marcadores pueden obtenerse resolviendo elsiguiente problema de optimización,
min β, λ{(y −
∑Xjβj)
′(y −∑
Xjβj) + λ∑
β2j
}, (3)
donde λ > 0 es un parámetro de regularización.
CIDCA Mejoramiento de caña 32/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
CIDCA Mejoramiento de caña 33/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continue...
CIDCA Mejoramiento de caña 34/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
BGLR
• A novel software for whole genomic regression an predictionfor continuous, discrete traits, censored and uncensored.
• Suitable for big p and small n problems.• Many non-parametric and parametric models implemented in
a consistent manner.• Large collection of Bayesian models included:
• Bayesian ridge regression.• Bayesian LASSO.• BayesA, BayesB, BayesC-π.• Reproducing Kernel Hilbert Spaces.• Reproducing Kernel Hilbert Spaces with Kernel-Averaging.
CIDCA Mejoramiento de caña 35/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
En R
#Clean workspacerm(list=ls())
library(BGLR)#Load dataload("data/Pheno_Geno.RData")
#Compute the Genomic Relationship matrixZ=scale(X,center=TRUE,scale=TRUE)G=tcrossprod(X)/ncol(Z)
#Exploratory data analysishist(Pheno$Brix)
#Regression modelETA0=list(list(X=Z,model="BRR"))fm0=BGLR(y=Pheno$Brix,ETA=ETA0,nIter=10000)
CIDCA Mejoramiento de caña 36/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Predicción de grados Brix
CIDCA Mejoramiento de caña 37/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Heredabilidad genómica
Figura 14: Distribución de h2 =σ2
aσ2
a+σ2e
.CIDCA Mejoramiento de caña 38/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Predicción valores fenotípicos de cruzas simples
• Predecir valores fenotípicos de cruzas usando informacióngenotípica de padres.
• Datos:• Información fenotípica de algunas cruzas.• Información genotípica de padres y madres.
• El modelo debe predecir cruzas que no se han hecho y no sehan probado en campo.
CIDCA Mejoramiento de caña 39/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Lo que se hace en trigo y maíz...
Figura 15: Cruza simple
CIDCA Mejoramiento de caña 40/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Modelos
CIDCA Mejoramiento de caña 41/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
y = ZEβE + Z DgD + Z F gF + Z Hh + e
• ZE matriz de incidencia para ambientes, βE el efecto deambientes.
• Z D matriz de incidencia para machos.• gD vector de efectos aleatorios para la aptitud combinatoria
general de machos, gD ∼ N(0, σ2DGD).
• Z F matriz de incidencias para hembras.• gF vector de efectos aleatorios para aptitud combinatoria
general para hembras, gF ∼ N(0, σ2F GF ).
CIDCA Mejoramiento de caña 42/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continue...
• Z H matriz de incidencias para híbridos.• hF vector de efectos aleatorios asociada a aptitud
combinatoria específica de las cruzas, h ∼ N(0, σ2HH).
• H = GD ⊗GH .
CIDCA Mejoramiento de caña 43/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Otros análisis
• GWAS (Genome Wide Association Studies).• Resistencia a enfermedades.
CIDCA Mejoramiento de caña 44/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
CIDCA Mejoramiento de caña 45/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
CIDCA Mejoramiento de caña 46/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Modelo de umbrales para resistencia...
θ1 θ2 θ3 θk−2 θk−1
0.0
0.1
0.2
0.3
0.4
p1 p2 p3 ... ... pk
y~ = xit β + ei
Figura 16: Función de densidad de la variable latente
CIDCA Mejoramiento de caña 47/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
Defina:
Yi =
0 Yi < θ1
1 θ1 < Yi < θ2...k Yi > θk−1
CIDCA Mejoramiento de caña 48/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Continuar...
CIDCA Mejoramiento de caña 49/50
Mejoramiento decaña
CIDCA
Datosgenotípicos
Datos fenotípicos
Análisis de datosControl de calidad
Diversidad
Predicción
Otros análisis
Datos genotípicos Datos fenotípicos Análisis de datos Otros análisis
Referencias
Endelman, J. B., 2011.Ridge Regression and Other Kernels for Genomic Selectionwith R package rrBLUP,The Plant Genome 4(3): 250-255.
CIDCA Mejoramiento de caña 50/50