repaso de conceptos de álgebra lineal

16
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Luis Lago Ana González Escuela Politécnica Superior Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso de conceptos de álgebra lineal Notación vectorial y matricial V t Vectores Matrices Espacios de vectores Transformaciones lineales Autovalores y autovectores Autovalores y autovectores

Upload: buihanh

Post on 06-Jan-2017

228 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Repaso de conceptos de álgebra lineal

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL:

Í ÓTEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

Manuel Sánchez-MontañésLuis LagoLuis Lago

Ana GonzálezEscuela Politécnica SuperiorEscuela Politécnica Superior

Universidad Autónoma de Madrid

Repaso de conceptos de álgebra lineal

• Notación vectorial y matricial

V t• Vectores

• Matrices

• Espacios de vectores

• Transformaciones lineales

• Autovalores y autovectoresAutovalores y autovectores

Page 2: Repaso de conceptos de álgebra lineal

Notación vectorial y matricialNotación vectorial y matricial

• Un vector columna x de d dimensiones y su transpuesta se escriben así:• Un vector columna x de d dimensiones y su transpuesta se escriben así:

y

• Una matriz rectangular de n x d dimensiones y su transpuesta se escriben así:• Una matriz rectangular de n x d dimensiones y su transpuesta se escriben así:

y

• El producto de dos matrices es:

dondedonde

Vectores (1)Vectores (1)

• El producto interno de dos vectores (o “producto escalar”) se define por:• El producto interno de dos vectores (o producto escalar ) se define por:

• La norma de un vector (o “magnitud” “longitud”) es:• La norma de un vector (o magnitud , longitud ) es:

• La proyección ortogonal del vector y sobre el vector x es:• La proyección ortogonal del vector y sobre el vector x es:

Donde el vector ux tiene norma 1 y la misma dirección que x

• El ángulo entre los vectores x e y está definido por:

• Dos vectores x e y son:

Ortogonales si xT y = 0Ortonormales si xT y = 0 y |x| = |y| = 1Ortonormales si x y = 0 y |x| = |y| = 1

Page 3: Repaso de conceptos de álgebra lineal

Vectores (2)Vectores (2)

• Un conjunto de vectores x x x son linealmente dependientes si existe un conjunto de coeficientes• Un conjunto de vectores x1, x2, …, xn son linealmente dependientes si existe un conjunto de coeficientes a1, a2, …, an (con al menos uno diferente de cero) tales que

Intuitivamente, esto quiere decir que hay por lo menos un vector “redundante”, que podemos expresar como combinación de los otros.

Por ejemplo, si a1 ≠ 0:

x1 = c2 x2 + c3 x3 + … + cn xn

con

• Alternativamente un conjunto de vectores x x x son linealmente independientes si

ck = - ak / a1

• Alternativamente, un conjunto de vectores x1, x2, …, xn son linealmente independientes si

MatricesMatrices• El determinante de una matriz cuadrada A de d x d dimensiones es:

- donde Aik es el “menor”, matriz formada cogiendo A y eliminando su fila i y su columna kcolumna k- El determinante de una matriz es igual al de su transpuesta: |A| = |AT|

• La traza de una matriz cuadrada A de d x d dimensiones es la suma de los elementos de su diagonal:

• El rango de una matriz es el número de filas (o columnas) linealmente independientes

• Se dice de una matriz cuadrada que es no singular si y sólo si su rango esSe dice de una matriz cuadrada que es no singular si y sólo si su rango es igual al número de filas (o columnas)- El determinante de una matriz no singular es distinto de 0

• Se dice de una matriz cuadrada que es ortonormal si AAT = ATA = ISe dice de una matriz cuadrada que es ortonormal si AA A A I

Page 4: Repaso de conceptos de álgebra lineal

MatricesMatrices

• Dado una matriz cuadrada A:- Si xT A x > 0 para todo x ≠ 0, entonces se dice que A es definida positiva(ejemplo: matriz de correlación)

Si T A 0 d ≠ 0 di A id fi id- Si xT A x ≥ 0 para todo x ≠ 0, entonces se dice que A es semidefinida positiva

• La inversa de una matriz cuadrada A se denomina A-1, y es una matriz tal que A-1 A = A A-1 = I- La inversa de A existe si y sólo si A es no singular (su determinante no es cero)cero)

• En algunos problemas cuando la inversa de A no existe (porque A no es cuadrada o es singular) se utiliza la pseudoinversa A† que se definecuadrada, o es singular), se utiliza la pseudoinversa A†, que se define como:

A† = [AT A]-1 AT con A† A = I (notad que en general A A† ≠ I )

Espacios de vectoresEspacios de vectores

• El espacio n-dimensional en el cual todos los vectores de ndimensiones residen se denomina un “espacio de vectores”dimensiones residen se denomina un espacio de vectores

• Se dice que un conjunto de vectores { u1, u2, …, un } es una base de un espacio vectorial si cualquier vector x puede ser expresado como una combinación lineal de los { ui }expresado como una combinación lineal de los { ui }

- Los coeficientes { a1, a2, …, an } se denominan componentes del vector x con respecto a la base { ui }

- Para ser una base, es necesario y suficiente que los n

• Se dice que una base { ui } es ortogonal si

, y qvectores { ui } sean linealmente independientes

• Se dice que una base { ui } es ortonormal si

- Por ejemplo la base cartesiana de coordenadas es una base ortonormal

Page 5: Repaso de conceptos de álgebra lineal

Espacios de vectoresEspacios de vectores

• Dados n vectores {v1, v2, …, vn} linealmente independientes, podemos construir una base ortonormal {w1, w2, …, wn } por el procedimiento de ortonormalización de Gram-Schmidtortonormalización de Gram Schmidt

ijij

wwv

vw

vw

∑−

−=

= 11

ii i

jj ww

vw ∑=

=1

2

• La distancia entre dos puntos en un espacio vectorial se define como la norma del vector diferencia entre los dos puntos:

Transformaciones linealesTransformaciones lineales

Una transformación lineal es n mapeo del espacio ectorial XN al espacio ectorial YM se representa• Una transformación lineal es un mapeo del espacio vectorial XN al espacio vectorial YM, y se representa por una matriz

- Dado un vector x Є XN, el correspondiente vector y de YM se calcula así:

Notad que la dimensión de los dos espacios no tiene por qué ser la misma- Notad que la dimensión de los dos espacios no tiene por qué ser la misma- Para problemas de reconocimiento de patrones típicamente tendremos M < N (proyección en un espacio

de menor dimensión)

• Se dice que una transformación lineal representada por la matriz cuadrada A es ortonormal cuando AAT = ATA = I

- Esto implica que AT = A-1

- Las transformaciones ortonormales preservan la norma de los vectores:

- Las transformaciones ortonormales se pueden ver como rotaciones del sistema de ejes de referencia- Los vectores fila de una transformación ortonormal forman una base de vectores ortonormales

con

Page 6: Repaso de conceptos de álgebra lineal

Autovectores y autovalores (1)Autovectores y autovalores (1)• Dada una matriz cuadrada A de N x N dimensiones, decimos que v es un

autovector si existe un escalar λ tal queA λautovector si existe un escalar λ tal queA v = λ v

Entonces, se dice que λ es autovalor de A

Cál l d l t t• Cálculo de los autovectores

solución trivial

solución no trivial

“ecuación característica”

• La matriz formada por los autovectores columna se denomina matriz modal M

L t i Λ l f ó i d A t i di l l t lLa matriz Λ es la forma canónica de A: una matriz diagonal con los autovalores en su diagonal

0

0

0

Autovectores y autovalores (2)Autovectores y autovalores (2)

• Propiedades

- Si A es no singularSi A es no singular

Todos los autovalores son diferentes de cero

Si A l i é i- Si A es real y simétrica

Todos los autovalores son reales

Dos autovectores asociados a diferentes autovalores son ortogonales entre síg

- Si A es definida positiva

Todos los autovalores son positivosTodos los autovalores son positivos

- Si A es semidefinida positiva

Todos los autovalores son mayor o igual que cero

Page 7: Repaso de conceptos de álgebra lineal

Interpretación de los autovectores y autovalores (1)

• Si consideramos la matriz A como una transformación lineal entonces un autovector• Si consideramos la matriz A como una transformación lineal, entonces un autovector representa una dirección invariante en el espacio vectorial

Cualquier punto en la dirección de v es transformado por A en otro punto que está en la misma dirección y su módulo es multiplicado por el correspondiente autovalor λmisma dirección, y su módulo es multiplicado por el correspondiente autovalor λ

• Por ejemplo, la transformación que rota los vectores de 3 dimensiones en torno al eje Z tiene un solo autovector, que es [0 0 1]T, siendo 1 es su autovalor correspondiente

Repaso de conceptos de probabilidad y estadística

• Definición y propiedades de la probabilidad

• Variables aleatorias

- Definición de variable aleatoria- Función de distribución acumulada- Función de distribución acumulada- Función de densidad de probabilidad- Caracterización estadística de variables aleatorias

• Vectores aleatorios• Vectores aleatorios

- Vector promedio- Matriz de covarianzas

• Distribución de probabilidad gaussiana

Page 8: Repaso de conceptos de álgebra lineal

Variables aleatoriasVariables aleatorias

• Cuando consideramos un proceso aleatorio, normalmente nos interesa saber alguna medida o atributo numérico que genera una secuencia de valoresmodelizables.

Ejemplos:

• Cuando muestreamos una población nos puede interesar por ejemplo el peso y la altura

• Cuando calculamos el rendimiento de dos ordenadores nos interesa el tiempo• Cuando calculamos el rendimiento de dos ordenadores nos interesa el tiempo de ejecución de un programa de test

• Cuando tratamos de reconocer un avión intruso, nos puede interesar medir los parámetros que caracterizan la forma del aviónparámetros que caracterizan la forma del avión

Variables aleatoriasVariables aleatorias

Definimos una variable aleatoria X que puede tomar un conjunto de valores {xi} como una función X( · ) que asigna un número real x a cada resultado ζ en el

espacio de muestreo de un experimento aleatorio x= X( ζ ).

- Esta función X(·) realiza un mapeo de todos los posibles elementos en el espacio de muestreo a la recta real (números reales).

X( )- La función X(·) que asigna valores a cada resultado es fija y determinista

- La aleatoriedad en los valores observados se debe a la aleatoriedad del argumento de la función X(·) , es decir, el resultado ζ del experimento

- Las variables aleatorias pueden ser:

map

- Discretas: por ejemplo, el resultado en el lanzamiento de un dado - Continuas: por ejemplo, el peso de un individuo escogido al azar

Page 9: Repaso de conceptos de álgebra lineal

Función de distribución acumulada (fda)

• Dada una variable aleatoria X se define su función de 1 lb = 0 454 Kg• Dada una variable aleatoria X, se define su función de distribución acumulada Fx(x) como la probabilidad del evento {X < x}

Fx(x) = P[X < x] para -∞ < x < +∞

1 lb = 0.454 Kg

x( ) [ ] p

• De manera intuitiva, Fx(b) representa la proporción de veces en la que X( ζ ) < bq ( ζ )

• Propiedades de la función de distribución acumuladafda del peso de una persona

Función acotada y

si a ≤ bfd d l lt d d d d

Función acotada y

monótonamente

creciente

fda del resultado de un dado

Función de densidad de probabilidad (fdp)

• La función de densidad de probabilidad de una variable1 lb = 0.454 Kg

• La función de densidad de probabilidad de una variable aleatoria continua X, si existe, se define como la derivada de Fx(x)

pfd

p

fdp del peso de una persona

• El equivalente a la fdp para variables aleatorias discretas es la función de masa de probabilidad ( fmp ):es la función de masa de probabilidad ( fmp ):

fmp

f d l lt d d d dfmp del resultado de un dado

Page 10: Repaso de conceptos de álgebra lineal

Función de densidad de probabilidad (fdp)

• Propiedades de la función de densidad de probabilidad

donde si

Densidad de probabilidad versus probabilidad

• ¿ Cuál es la probabilidad de que alguien pese 200 libras =90.8 Kg ?- De acuerdo a la fdp es cerca de 0 62De acuerdo a la fdp, es cerca de 0.62- Suena razonable, ¿ no ?

p

• Ahora, ¿ cuál es la probabilidad de que alguien pese 124.876 libras = 56.70 Kg?

D d l fd d 0 43

fdp - De acuerdo a la fdp, es cerca de 0.43

- Pero, intuitivamente, la probabilidad debería ser cero Probabilidad en un punto es cero.

fdp del peso de una persona

• ¿ Cómo explicamos esta paradoja ?L fd d fi b bilid d i DENSIDAD d b bilid d!- La fdp no define una probabilidad, sino una DENSIDAD de probabilidad!

- Para obtener una verdadera probabilidad, debemos integrar en un intervalo- La pregunta original es incorrecta, nos deberían haber preguntado: ¿ Cuál es la probabilidad de que alguien pese 124.876 libras, más / menos 2 libras ?

Page 11: Repaso de conceptos de álgebra lineal

Caracterización estadística de variables aleatorias

• La fdp o fmp son SUFICIENTES para caracterizar completamente una variable aleatoria• La fdp o fmp son SUFICIENTES para caracterizar completamente una variable aleatoria.Sin embargo, una variable aleatoria puede ser PARCIALMENTE caracterizada por otras medidas

• Valor esperado (media)

• Representa el centro de masa de la densidad

• Varianza

• Representa la dispersión alrededor de la media

• Desviación estándar

• Es la raíz cuadrada de la varianza, por lo que tiene las mismas unidades que la variable aleatoria

• Momento de orden N

aleatoria

Vectores aleatoriosVectores aleatorios• La noción de vector aleatorio es una extensión de la noción de variable aleatoriaLa noción de vector aleatorio es una extensión de la noción de variable aleatoria

- Una variable vectorial aleatoria X es una función que asigna un número real a cada posiblevalor ζ del espacio de muestreo S

⎟⎞

⎜⎛ x

- Consideraremos siempre a un vector aleatorio como un vector columna

⎟⎟⎟

⎜⎜⎜

3

2

1

x

x

x

• Las nociones de fda y fdp se sustituyen por “fda conjunta” y “fdp conjunta”- Dado un vector aleatorio X = [x1 x2 … xN]T definimos

- La función de distribución acumulada conjunta como:La función de distribución acumulada conjunta como:

- La función de distribución de probabilidad conjunta como:La función de distribución de probabilidad conjunta como:

Page 12: Repaso de conceptos de álgebra lineal

Vectores aleatoriosVectores aleatorios• El término “fdp marginal” se usa para representar la fdp de un subconjunto de losEl término fdp marginal se usa para representar la fdp de un subconjunto de los

componentes del vector

- Se obtiene integrando la fdp en las componentes que no son de interés

- Por ejemplo, si tenemos un vector X = [x1 x2]T , la fdp marginal de x1, dado la fdp conjunta fx1 x2 (x1, x2) es:

Caracterización estadística de vectores aleatorios

• Al igual que en el caso escalar un vector aleatorio está completamente caracterizado por su fda• Al igual que en el caso escalar, un vector aleatorio está completamente caracterizado por su fda conjunta o su fdp conjunta

• Alternativamente, podemos describir parcialmente un vector aleatorio por medio de medidas similares a las definidas para el caso escalarp

• Vector promedio

T

• Matriz de covarianza

Page 13: Repaso de conceptos de álgebra lineal

Matriz de covarianzaMatriz de covarianza

• La matriz de covarianza indica la tendencia de cada par de atributos (las componentes del vector• La matriz de covarianza indica la tendencia de cada par de atributos (las componentes del vector aleatorio) de variar juntas, es decir, co-variar

• La matriz de covarianza C tiene varias propiedades importantes:

- Si xi y xk tienden a aumentar juntas, entonces cik > 0

- Si xi tiende a disminuir cuando xk aumenta, entonces cik < 0

- Si xi y xk no están correlacionadas, entonces cik = 0

- |cik| ≤ σi σk donde σi es la desviación estándar de xi

- cii = σi2 = VAR(xi)

Matriz de covarianzaMatriz de covarianza• Los componentes de la matriz de covarianza se pueden escribir como:p p

cii = σi2 y cik = ρik σi σk

- donde ρik es el llamado coeficiente de correlación

Page 14: Repaso de conceptos de álgebra lineal

Correlación versus independenciaCorrelación versus independencia

• Se dice que dos variables aleatorias x y x no están correlacionadas si• Se dice que dos variables aleatorias xi y xk no están correlacionadas si

E [xi · xk] = E [xi] · E [xk]

- En este caso también se dice que estas variables aleatorias son linealmente independientes (no confundir con la noción de independencia lineal devectores).

• Se dice que dos variables aleatorias x y x son independientes su distribución• Se dice que dos variables aleatorias xi y xk son independientes, su distribución conjunta será el producto de las marginales.

P [ ] P [ ] P [ ]P [xi , xk] = P [xi] · P [xk]

La distribución Gaussiana o “Normal” (1)La distribución Gaussiana o Normal (1)

• La distribución multivariable “Normal” o• La distribución multivariable Normal o “Gaussiana” N(μ , Σ) se define como

• En una sola dimensión, esta expresión se reduce a

Page 15: Repaso de conceptos de álgebra lineal

La distribución Gaussiana o “Normal” (2)La distribución Gaussiana o Normal (2)

• Las distribuciones gaussianas son muy utilizadas ya que:Las distribuciones gaussianas son muy utilizadas ya que:

- Los parámetros (μ , Σ) son suficientes para caracterizar completamente la distribución gaussiana

Si l t ib t tá l i d ( 0 ) t t bié- Si los atributos no están correlacionados ( cik = 0 ), entonces son también independientes La matriz de covarianza es entonces diagonal, con las varianzas individuales en la diagonal

- Las densidades marginales y condicionadas son también Gaussianas

- Cualquier transformación lineal de N variables conjuntamente Gaussianas, nos dat di t ib ió t bié G iun vector cuya distribución es también Gaussiana

- Si la distribución del vector X = [X1 X2 … XN]T es Gaussiana, y A es una matriz, entonces la distribución de Y=AX es también Gaussiana.Para el caso particular de que A sea una matriz invertible, entonces:

La distribución Gaussiana o “Normal” (3)La distribución Gaussiana o Normal (3)

• Dada la matriz de covarianza Σ de una distribución gaussiana- Los autovectores de Σ son las direcciones principales de la distribución- Los autovalores son las varianzas de las correspondientes direcciones principales

• La transformación lineal definida por los autovectores de Σ lleva a componentes que estánLa transformación lineal definida por los autovectores de Σ lleva a componentes que están descorrelacionadas, independientemente de la forma de la distribución

En el caso particular de que la distribución sea gaussiana, entonces las variables transformadas serán estadísticamente independientestransformadas serán estadísticamente independientes

con y

Estadísticamente Independientes

Page 16: Repaso de conceptos de álgebra lineal

El Teorema Central del LímiteEl Teorema Central del Límite

• El teorema dice que si y = Σ xk , siendo xk N variables aleatorias independientes q y k k pcon distribuciones individuales arbitrarias, entonces la distribución de y tiende a ser Gaussiana según se va haciendo mayor N.

En el límite N→∞ , termina siendo una Gaussiana perfecta.p

• En otras palabras, cualquier variable que sea la contribución de muchos factoresaleatorios independientes tiende a ser Gaussiana.

• Ejemplos: ruido en aparatos medidores, …

• Ejemplo numérico: calculamos un histograma• Ejemplo numérico: calculamos un histograma a partir de 500 valores de y generados cony = Σ xk