Álgebra matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 factorización qr por...

495

Upload: others

Post on 06-Mar-2021

31 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 2: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 3: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 4: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 5: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Álgebra matricial con aplicacionesen Estadística

Page 6: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 7: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

José Alfredo Jiménez Moscoso

Álgebra matricial con aplicacionesen Estadística

Bogotá D. C. Colombia, junio de 2012

FACULTAD DE CIENCIAS

Page 8: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

© Universidad Nacional de Colombia Facultad de Ciencias Departamento de Matemáticas © José Alfredo Jiménez Moscoso

ilustración portada y contraportada Profesor Gustavo RubianoDepartamento de Matemáticas

isbn 978-958-761-204-2

Primera edición, 2004Segunda edición, 2012

preparación editorial e impresión:Editorial Universidad Nacional de [email protected]

Bogotá, Colombia Prohibida la reproducción total o parcial por cualquier medio sin la autorización escrita del titular de los derechos patrimoniales

Catalogación en la publicación Universidad Nacional de Colombia Jiménez Moscoso, José Alfredo, 1973- Algebra matricial con aplicaciones en estadística / José Alfredo Jiménez Moscoso. -- Bogotá : Universidad Nacional de Colombia. Facultad de Ciencias, 2012 xiv, 478 p., il.

Incluye referencias bibliográficas ISBN : 978-958-761-204-2

1. Matrices (Matemáticas) 2. Inversión de matrices 3. Estadística matemática I. Tít. CDD-21 512.9434 / 2012

Page 9: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

AMi esposaMi hijaMis padres

Page 10: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 11: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Contenido

Prólogo ix

1 Preliminares 11.1 Matrices 1

1.1.1 Conceptos básicos 21.1.2 Operaciones con matrices 31.1.3 Operaciones elementales sobre los renglones 71.1.4 Traza de una matriz 9

1.2 Inversa de una matriz 101.2.1 Método de Gauss-Jordan para calcular la inversa 10

1.3 Determinantes 121.3.1 Algunas fórmulas útiles para inversas 16

1.4 Tipos especiales de matrices cuadradas 161.5 Matrices particionadas 25

1.5.1 Definiciones y operaciones 251.5.2 Determinantes de matrices particionadas 341.5.3 Inversas de matrices particionadas 37

1.6 Espacio vectorial 431.6.1 Axiomas de un espacio vectorial 441.6.2 Bases 471.6.3 Espacios con producto interno 501.6.4 Complemento ortogonal 531.6.5 Subespacios asociados a una matriz 53

1.7 Sistemas de ecuaciones lineales 561.7.1 Método de eliminación de Gauss 57

1.8 Transformaciones lineales 591.8.1 Representación matricial de una transformación 59

1.9 Matrices con entradas complejas 611.9.1 Definición y propiedades básicas 61

vix

xiii

Page 12: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

vi CONTENIDO

1.9.2 Espacios vectoriales complejos 641.9.3 Solución de sistemas lineales con entradas complejas 66

2 Vectores característicos y valores característicos 692.1 Valores propios y vectores propios 70

2.1.1 Descomposición de Sylvester 802.2 Matrices semejantes y diagonalización 882.3 Valores propios complejos 982.4 Diagonalización de matrices simétricas 1052.5 Vectores propios generalizados 115

3 Descomposición de matrices 1273.1 Triangularización de una matriz 1273.2 Factorización QR 1433.3 Polinomio mínimo 1483.4 Forma canónica de Jordan 1533.5 Raíces cuadradas 162

3.5.1 Raíces cuadradas de matrices simétricas 1803.5.2 Descomposición de Cholesky 183

3.6 Descomposición en valores singulares 1853.6.1 Descomposición en valores singulares 1883.6.2 Descomposición polar 192

4 Matrices complejas 1974.1 Clases especiales de matrices complejas 197

4.1.1 Matrices hermitianas 1974.1.2 Matrices antihermitianas 2034.1.3 Matrices unitarias 2054.1.4 Matrices normales 207

4.2 Factorizaciones 2084.2.1 Forma canónica de Jordan 2204.2.2 Descomposición en valores singulares 2224.2.3 Descomposición polar 224

5 Formas bilineales 2315.1 Formas bilineales 2315.2 Formas cuadráticas 2385.3 Diagonalización de una forma cuadrática 244

5.3.1 Diagonalización por completación de cuadrados 2445.3.2 Diagonalización por transformación ortogonal 255

5.4 Ley de la inercia para formas cuadráticas 259

x

Page 13: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

CONTENIDO vii

5.5 Clasificación de las formas cuadráticas 2635.6 Aplicaciones a la geometría analítica 271

5.6.1 Rotación de ejes en R2 2775.6.1.1 Cambio de dirección de ejes en R2 conser-

vando el mismo origen 2785.6.2 Clasificación de las ecuaciones cuadráticas 2835.6.3 Rotación de ejes en R3 290

5.6.3.1 Cambio de dirección de ejes en R3 conser-vando el mismo origen 291

5.6.3.2 Fórmulas de Euler 2915.6.4 Clasificación de las superficies cuádricas 296

6 Formas hermíticas 2996.1 Forma hermítica 2996.2 Forma cuadrática compleja 3036.3 Diagonalización de una forma hermítica 3056.4 Clasificación de formas cuadráticas complejas 3106.5 Orden parcial entre matrices 311

7 Normas matriciales 3157.1 Definición y resultados básicos 3157.2 Tipos de normas matriciales 3177.3 Condición de sistemas de ecuaciones lineales 324

8 Matrices idempotentes y productos especiales 3338.1 Definición y propiedades 333

8.1.1 Factorización QR por reflexiones de Householder 3388.2 Productos especiales 348

9 Inversa generalizada de matrices 3639.1 Definición y propiedades básicas 3639.2 Propiedades de las inversas generalizadas 3679.3 Métodos para calcular inversas generalizadas 3699.4 Vectores y valores propios 3969.5 Solución de sistemas de ecuaciones lineales 398

10 Aplicaciones 40910.1 Matrices estocásticas 40910.2 Modelos genéticos 417

10.2.1 Herencia autosómica 41810.2.2 Los cuadros de Punnett 421

xi

Page 14: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

viii CONTENIDO

10.3 Modelo de regresión lineal 42510.3.1 Métodos de estimación de los parámetros del

modelo 42810.3.1.1 Método de mínimos cuadrados ordinarios 42910.3.1.2 Forma operativa 43110.3.1.3 Propiedades de los elementos de la matriz

H 43210.4 Multicolinealidad 433

10.4.1 Soluciones al problema de la multicolinealidad 43410.4.1.1 Regresión por componentes principales 43410.4.1.2 Propiedades de los componentes 436

10.5 Selección de carteras 44110.5.1 Formulación matemática 44110.5.2 Cartera con rentabilidad preestablecida 44310.5.3 Cartera mínima con rentabilidad preestablecida 446

A Métodos iterativos para estimar valores propios y vectorespropios 451A.1 Valor propio y vector propio dominante 451

A.1.1 Método de la potencia 452

B Números complejos 459B.1 Álgebra de los números complejos 459

B.1.1 Operaciones fundamentales 460B.1.2 Representación polar 464

Bibliografía 469

Índice alfabético 473

xii

Page 15: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Prólogo

El álgebra de matrices es en la actualidad un elemento esencial de losconocimientos matemáticos necesarios para ingenieros y científicos. Ade-más, la comprensión de los métodos fundamentales del álgebra matriciales apropiada para sociólogos, economistas, estudiantes de pedagogía y decomercio.

A pesar de las diversas aplicaciones del álgebra matricial, la mayoríade textos de álgebra lineal no introducen estos temas, por eso en mu-chos casos no se encuentra un libro que se ajuste a los requerimientos ynecesidades de ciertas materias. Estas notas de clase están basadas en elcurso de álgebra matricial de la carrera de Estadística, las cuales han sidoredactadas usando diferentes textos, resaltando principalmente los librosreferenciados en la bibliografía como Apostol (1985), Asmar (1995), Bar-bolla & Sanz (1998), Bru et al. (2001), Graybill (1983), Schott (1997)y Searle (1982).

Este texto sirve de ayuda para aquellos estudiantes que toman diversasasignaturas en las cuales deben tener o les serían útiles los conocimientosdel álgebra de matrices. Aunque en estas circunstancias siempre es inade-cuado comenzar un curso de teoría de matrices, estas notas le permitiránal lector adquirir la práctica necesaria en el manejo de matrices.

El objetivo principal de estas notas consiste en capacitar al lector paraque adquiera la habilidad de usar el álgebra de matrices en diferentes ám-bitos, proporcionando conceptos como la diagonalización y factorizaciónmatricial, formas cuadráticas e inversas generalizadas de una manera sen-cilla; durante su desarrollo, se plantean ejemplos y ejercicios relacionadoscon la teoría.

Este material está escrito en forma secuencial, pues los contenidos pre-vios son importantes para tener una mejor comprensión del desarrollo de

xiii

Page 16: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

cada sección posterior, lo cual ayudará al lector a alcanzar su principal ob-jetivo. Asimismo, proporciona un medio individual para estudiar el temaexpuesto y es muy práctico como texto autodidáctico. Además, permitiráque el lector avance a su propio ritmo. De esta manera, este materialpuede ser usado por estudiantes con diferentes aptitudes, conocimientosy velocidades de lectura.

Espero que este material carezca de errores, sin embargo, “no importael cuidado que se ponga, siempre se comete algún error” (Ley de Murphy).Por lo tanto, los errores que posea deseo conocerlos para poderlos corregir,en una próxima edición. Esta es tal vez la única forma de avanzar en unambiente académico.

Agradezco la colaboración del Departamento de Matemáticas, que através de su oficina de publicaciones me permitió la divulgación de estematerial. También quiero dar las gracias tanto a los colegas que evalua-ron este manuscrito, en especial al profesor Leonardo Solanilla Chavarro,como a mis estudiantes del curso de Álgebra Matricial de la carrera deEstadística, por sus sugerencias y comentarios, los cuales fueron muyútiles en la redacción de este material. Adicionalmente, quiero agradeceral equipo editorial de la Universidad Nacional de Colombia, sede Bogotá,por la corrección de estilo.

José Alfredo Jiménez M.

xiv PRÓLOGO

Page 17: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 1

Preliminares

Este capítulo es una recopilación de conceptos, procedimientos y resulta-dos básicos que, por lo general, forman parte del primer curso de álgebralineal. Por consiguiente, una gran parte de estos resultados aparecen sinprueba; además, en algunos casos se consideran temas que el lector debemanejar y que por su importancia son retomados posteriormente.

El propósito fundamental de este material es servir como prerrequi-sito para los siguientes capítulos y, como ya se mencionó, no se pro-fundizará en los temas considerados en este capítulo. Si el lector tieneamplios conocimientos del contenido de este apartado, puede pasar deinmediato al siguiente capítulo, aunque es recomendable que desarrollelas Secciones 1.5 y 1.9.

1.1 Matrices

En esta sección se introducen los conceptos y las reglas básicas del álgebrade matrices. Entre los diferentes elementos estudiados por el álgebra line-al, uno de los más utilizados es el de matriz. Esto se debe a que la teoríade matrices ofrece, entre otras, la posibilidad de trabajar cómodamentecon modelos de gran dimensión, tanto en número de variables, como deecuaciones o datos, ya que brinda una notación simple y compacta paradesignar amplios conjuntos de información.

1

Page 18: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2 1. Preliminares

1.1.1 Conceptos básicos

En este apartado se presenta la definición formal del término matriz. Lasmatrices se denotan con letras mayúsculas y con minúsculas, los elementosque las constituyen.

Definición 1.1 Una matriz A de tamaño m×n es un arreglo rectangular

de m·n números reales (o complejos1) dispuestos en m filas y n columnas,

escritos entre corchetes (o paréntesis), como sigue:

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

a11 a12 . . . a1j . . . a1n

......

. . .... . . .

...

ai1 ai2 . . . aij . . . ain...

.... . .

... . . ....

am1 am2 . . . amj . . . amn

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦,

donde los subíndices indican la “fila” y la “columna” de localización en la

matriz de cada número real (o complejo). A los números a11, a12, . . . , amn

se les llama elementos o entradas de la matriz.

ObservaciónCuando m = n, la matriz recibe el nombre de cuadrada; si es m �= n,

se denomina rectangular. Al conjunto de todas las matrices de tamañom × n se le notará por Mmn.

Definición 1.2 Matrices iguales

Sean las matrices reales A = [aij ] y B = [bij ], se dice que son iguales

cuando teniendo el mismo tamaño, se verifica que

aij = bij∀ i = 1, 2, . . . , m;

∀ j = 1, 2, . . . , n.

1 Si el lector no está familiarizado con estos números, puede consultar elApéndice B.

Page 19: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.1. Matrices 3

1.1.2 Operaciones con matrices

En esta sección se consideran las operaciones con matrices; además, serecuerda que solo se pueden sumar matrices que tienen el mismo tamaño,y para que el producto sea posible, es preciso que el número de columnasde la primera matriz coincida con el número de filas de la segunda.

Definición 1.3 Dadas A = [aij ] y B = [bij ], matrices de tamaño m×n,

la suma A + B es una matriz C = [cij ] de tamaño m × n, donde

cij = aij + bij ∀ i = 1, 2, . . . , m; j = 1, 2, . . . , n.

Teorema 1.1 Propiedades básicas de la suma

Para todas A, B y C matrices de tamaño m × n, se verifica que

1 Conmutativa: A + B = B + A.

2 Asociativa:(A + B

)+ C = A +

(B + C

).

3 Existencia de elemento neutro o matriz nula: Existe una matriz O

de tamaño m× n en donde todos sus elementos son iguales a cero,

tal que ∀A de tamaño m × n, se verifica que

A + O = O +A = A.

4 Elemento opuesto: Para toda matriz A de tamaño m×n, existe una

matriz que llamaremos matriz opuesta de A y denotaremos por −A,

que verifica

A +(−A

)= O .

Page 20: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4 1. Preliminares

La última propiedad permite, dadas dos matrices A = [aij ] y B = [bij ] delmismo tamaño m×n, introducir el concepto de matriz diferencia A−B,la cual puede ser definida como sigue:

A − B = A +(−B

).

Demostración.Sean A = [aij ], B = [bij ] y C = [cij ] .

1. aij + bij = bij + aij .

2.(aij + bij

)+ cij = aij +

(bij + cij

).

3. Es evidente que, para toda A de tamaño m × n, se verifica que

aij + 0 = 0 + aij = aij .

4. Al tomar −A = [−aij ], se verifica que

aij +(−aij

)=

(−aij)

+ aij = 0.

Definición 1.4 El producto de una matriz A = [aij ] de tamaño m × n

por un escalar α ∈ R es una matriz C = [cij ] del mismo tamaño que A,

de elementos

cij = αaij ∀ i = 1, 2, . . . , m; j = 1, 2, . . . , n,

esto es, los elementos de C se obtienen multiplicando los elementos co-

rrespondientes de A por α.

El resultado de efectuar el producto de una matriz A por un escalar α sesimboliza por αA y se lee multiplicación de A por α.

Teorema 1.2 Propiedades de la multiplicación por un escalar

Para todas A y B de tamaño m × n y α, β ∈ R, se satisface que

a) α(A + B

)= αA + αB, b)

(α + β

)A = αA + βA,

c) α(βA

)=

(αβ

)A, d) 1A = A.

Page 21: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.1. Matrices 5

Demostración.Sean A = [aij ] y B = [bij ], entonces

a) α(A + B

)= α [aij + bij ] = α [aij ] + α [bij ] .

b)(α + β

)A =

(α + β

)[aij ] = α [aij ] + β [aij ] .

c) α(βA

)= α

(β [aij ]

)=

(αβ

)[aij ] .

d) 1A = 1 [aij ] = [aij ] .

Definición 1.5 Matriz identidad

Una matriz A = [aij ] de tamaño n × n cuyos elementos son

aij =

{1 si i = j

0 si i �= j

se llama matriz identidad y se denota por In.

Definición 1.6 Sean A = [aij ] y B = [bjk] matrices de tamaño m × n

y n × p, respectivamente. Entonces el producto de las matrices A y B,

operación que se denotará por A.B, es una matriz C de tamaño m × p,

cuyo elemento genérico cik (i = 1, 2, . . . , m; k = 1, 2, . . . , p) es

cik = ai1b1k + ai2b2k + . . . + ainbnk =n∑

j=1

aijbjk.

Teorema 1.3 Propiedades del producto de matrices

Sean A, B, C y D matrices reales tales que A ∈ Mmn, B, C ∈ Mnp y

D ∈ Mpq. Entonces se satisface que

1. Asociativa: A.(B.D

)=

(A.B

).D.

2. Distributiva:

a)A.(B + C

)= A.B + A.C b)

(B + C

).D = B.D + C.D.

Page 22: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6 1. Preliminares

3. El producto por una matriz nula O del tamaño adecuado es una

matriz nula.

4. En general, esta operación matricial no es conmutativa:

A.B �= B.A.

5. Existen matrices Im e In tales que

Im.A = A y A.In = A.

Demostración.Queda como ejercicio para el lector.

Definición 1.7 Transpuesta

Si A = [aij ] es una matriz real de tamaño m×n, se llama transpuesta

de A a la matriz B = [bij ] de tamaño n × m cuyo elemento bij = aji. Se

denota por At.

Teorema 1.4 Propiedades de la transpuesta

Sean A y B matrices de tamaño m × n, C una matriz de tamaño

n × m y sea α ∈ R. Entonces

1.(At

)t= A. 2.

(A ± B

)t= At ± Bt.

3.(αA

)t= αAt. 4.

(AC

)t= CtAt.

Demostración.Queda como ejercicio para el lector.

Page 23: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.1. Matrices 7

1.1.3 Operaciones elementales sobre los renglones

Sea A una matriz real de tamaño m × n, entonces las operaciones ele-mentales en las filas de la matriz son:

R1 Multiplicar cada elemento de la i-ésima fila por un escalar α �= 0.

R2 Sumar a la i-ésima fila un múltiplo de la k-ésima fila.

R3 Intercambiar (permutar) dos filas.

Y las operaciones elementales en las columnas de la matriz son:

C1 Multiplicar cada elemento de la j-ésima columna por un escalarα �= 0.

C2 Sumar a la j-ésima columna un múltiplo de la l-ésima columna.

C3 Intercambiar (permutar) dos columnas.

Definición 1.8 Matrices elementales

Una matriz Ekl

(α)

de tamaño m×m se llama matriz elemental si es

el resultado de aplicar una operación elemental a la matriz identidad Im.

Realizar una operación elemental en una fila (o columna) de una matrizA es equivalente a premultiplicar (o multiplicar) a A, respectivamente,por la matriz elemental adecuada. Esto se tiene de la definición de mul-tiplicación de matrices, la cual nos aclaró el hecho de que premultiplicar(o multiplicar) una matriz A por una matriz elemental daba el mismoresultado que aplicar la operación elemental a la fila correspondiente dela matriz A.

NotaciónLa notación que se usará para los tres tipos de operaciones R1, R2 y

R3 con matrices elementales es la siguiente:

• La matriz elemental tipo R1 es una matriz Ekl

(α)

= [νij ], cuyoselementos son

νij =k= l

⎧⎨⎩1 si i = j �= k,α si i = j = k,0 si i �= j.

Nótese que es una matriz diagonal.

Page 24: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8 1. Preliminares

• La matriz elemental tipo R2 es una matriz Ekl

(α)

= [νij ] :

νij =k �= l

⎧⎨⎩1 si i = j,α si i = k, j = l,0 en otro caso.

Esta matriz es triangular superior (inferior) dependiendo de la re-lación de orden que exista entre r y s. Además, si k = l coincidecon la matriz elemental tipo R1.

• Matriz elemental tipo R3 es una matriz Ekl

(1)

= [νij ] :

νij =α=1

⎧⎪⎪⎨⎪⎪⎩1 si i = j, i �= k, i �= l,1 si i = k, j = l,1 si i = l, j = k,0 en otro caso.

Definición 1.9 Matriz escalonada

Se dice que una matriz es escalonada si el número de ceros que precede

al primer elemento diferente de cero de una fila aumenta fila por fila hasta

tener posiblemente filas de solo ceros.

Definición 1.10 Forma escalonada reducida

Una matriz se dice que es escalonada reducida si verifica las siguientes

condiciones:

i. Es una matriz escalonada.

ii. El primer elemento no nulo (por la izquierda) de cada fila no nula es

un 1 y este es el único elemento diferente de cero que se encuentra

en la respectiva columna.

iii. Las filas nulas, si existen, están en la parte inferior de la matriz.

Page 25: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.1. Matrices 9

1.1.4 Traza de una matriz

En esta sección se estudiará una característica de las matrices cuadradas,la cual se expresa a través de un número llamado traza.

Definición 1.11 Traza de una matriz

Sea A = [aij ] una matriz real de tamaño n × n, la suma de los ele-

mentos de la diagonal principal se llama traza de A y se denota como

tr(A), o sea

tr(A)

=n∑

i=1

aii. (1.1)

Teorema 1.5 Propiedades

1. tr(In) = n, siendo In la matriz identidad de tamaño n × n.

2. tr(O) = 0 siendo O la matriz nula de tamaño n × n.

3. tr(A) = tr(At).

4. tr(A.At) = tr(At.A) =n∑

i=1

n∑j=1

a2ij .

5. tr(αA) = α tr(A), con α ∈ R.

6. Si A y B son del mismo tamaño, tr(A + B) = tr(A) + tr(B).

7. Si son posibles los productos A.B y B.A, entonces se verifica

tr(A.B) = tr(B.A).

8. tr(A.X) = 0, para toda X ∈ Mnn, implica que A = O.

Demostración.Queda como ejercicio para el lector.

Page 26: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10 1. Preliminares

1.2 Inversa de una matriz

Es sabido que todo número α �= 0 tiene un inverso α−1 tal que

αα−1 = α−1α = 1. (1.2)

Este hecho permite resolver las ecuaciones del tipo αx = β, ya que mul-tiplicando por α−1 se obtiene x = α−1β.

En este apartado se define un tipo de matriz que tiene una propiedadanáloga en la teoría de matrices, la matriz inversa.

Definición 1.12 Inversa de una matriz

Sea A una matriz real de tamaño n × n, si existe una matriz real B

de tamaño n × n tal que

A.B = B.A = In. (1.3)

Entonces B se denota por A−1 y recibe el nombre de matriz inversa.

NotaciónSi A tiene inversa, entonces A se llama matriz no singular o invertible;

en cambio, si A no tiene inversa, entonces A se llama matriz singular ono invertible.

1.2.1 Método de Gauss-Jordan para calcular la inversa

Para encontrar la inversa de una matriz cuadrada A de tamaño n×n, seprocede de la siguiente manera:

1. Se forma la matriz aumentada B =(A | In

)de tamaño n × 2n.

2. Se aplican operaciones elementales entre filas hasta llevar a B a unamatriz escalonada reducida C =

(A1 | A2

).

3. Se decide si A es no singular.

a. Si A1 = In, entonces A2 = A−1.

b. Si A1 �= In, entonces A1 tiene una fila de ceros. En este caso,A es singular, es decir A−1 no existe.

Page 27: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.2. Inversa de una matriz 11

Teorema 1.6 Propiedades de la inversa de una matriz

1. Si una matriz A tiene inversa, esta es única.

2. La inversa del producto de un escalar no nulo por una matriz es el

producto del inverso multiplicativo del escalar por la inversa de la

matriz. En símbolos,

(αA

)−1=

1

αA−1, con α ∈ R, α �= 0.

3. La inversa de la inversa es la matriz original. En símbolos,

(A−1

)−1= A.

4. La inversa de una matriz transpuesta es la transpuesta de la inversa.

En símbolos,

(At

)−1=

(A−1

)t.

5. Si A y B son dos matrices invertibles y del mismo tamaño, el pro-

ducto A.B es invertible y, además,

a)(A.B

)−1= B−1.A−1,

b)[(

A.B)−1

]t=

(At

)−1(Bt

)−1.

6. Si A es una matriz invertible,

a) B.A = O ⇒ B = O .

b) B.A = C.A ⇒ B = C.

Demostración.Queda como ejercicio para el lector.

Page 28: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

12 1. Preliminares

1.3 Determinantes

Los determinantes permiten determinar cuando una matriz cuadrada esinvertible. Un determinante de n-ésimo orden es una expresión asociadacon una matriz A = [aij ] de tamaño n×n, como se explica a continuaciónempezando con n = 2.

Definición 1.13 Sea A = [aij ] una matriz de tamaño 2 × 2. Entonces,

el determinante de A se define por

detA = a11.a22 − a12.a21. (1.4)

Con frecuencia, se denotará el detA por

|A| o

∣∣∣∣a11 a12

a21 a22

∣∣∣∣ ;aquí se usan barras (mientras que una matriz tiene corchetes).

Definición 1.14 Sea A = [aij ] una matriz de tamaño 3 × 3. Entonces,

el determinante de A se puede escribir en términos de los determinantes

de matrices 2 × 2, como sigue:

det A = a11.

∣∣∣∣∣∣∣a22 a23

a32 a33

∣∣∣∣∣∣∣− a12.

∣∣∣∣∣∣∣a21 a23

a31 a33

∣∣∣∣∣∣∣ + a13.

∣∣∣∣∣∣∣a21 a22

a31 a32

∣∣∣∣∣∣∣ (1.5)

o en la forma explícita siguiente:

|A| = a11 [a22a33 − a23a32] − a12 [a21a33 − a23a31] + a13 [a21a32 − a22a31] .

También hay un método para memorizar esta fórmula, llamado Regla deSarrus, que consiste en agregar las dos primeras columnas a la derechade A, y se suman todos los productos de los elementos que van de laizquierda superior a la derecha inferior y se restan todos los productos delos elementos que van de la izquierda inferior a la derecha superior. Así:

|A| =

∣∣∣∣∣∣∣∣∣∣

a11 a12 a13

↘ �↘a21 a22 a23

↗ �↘a31 a32 a33

∣∣∣∣∣∣∣∣∣∣

a11 a12

�↘ ↗a21 a22

�↘ ↘a31 a32

= a11a22a33 + a12a23a31 + a13a21a32 − a31a22a13 − a32a23a11 − a33a21a12.

Page 29: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.3. Determinantes 13

Nota 1.1 La Regla de Sarrus no se puede aplicar para calcular determi-

nantes de matrices de tamaño 4 × 4, 5 × 5 o para matrices de más alto

orden.

Hasta ahora, se ha evaluado los determinantes para matrices de ta-maño 2 × 2 y 3 × 3. El determinante de una matriz de tamaño n × n seobtiene usando un método en el cual se reduce el problema a la evalua-ción de determinantes de matrices de orden n − 1; el proceso se repitesucesivamente hasta llegar a las matrices de tamaño 2 × 2. Nótese queeste procedimiento fue empleado para calcular el determinante en la ex-presión (1.5), eliminando de A la fila y la columna, que indican el primery segundo subíndice del elemento aij por el que van multiplicados, losdeterminantes de las submatrices de tamaño 2 × 2, los cuales reciben elnombre de menores, y cuando se les asocia los signos +,−, + se denomi-nan cofactores o adjuntos. Las definiciones de estos conceptos son:

Definición 1.15 Menor y cofactor

Sea A = [aij ] una matriz real de tamaño n × n.

1. Se le llama menor complementario (i, j), al determinante de la sub-

matriz de tamaño(n−1

)×(n−1

), que resulta de suprimir la i-ésima

fila y la j-ésima columna de A y se denota por Mij(A).

2. El adjunto o cofactor (i, j) de A viene dado por

Cij(A) =(

1)i+ j

Mij(A) donde(

1)i+ j

=

⎧⎪⎨⎪⎩ 1 si i + j es par;

1 si i + j es impar.

Definición 1.16 Matriz de cofactores

La matriz C = [Cij(A)], donde el elemento Cij(A) es el cofactor (i, j)

de A, se denomina matriz de cofactores.

Page 30: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

14 1. Preliminares

Teorema 1.7 Fórmula o expansión de Laplace

Sea A = [aij ] una matriz de tamaño n×n. Entonces, el determinante

de A se puede desarrollar usando:

i) La expansión de Laplace por la i-ésima fila como

detA =n∑

j=1

aijCij(A)

=n∑

j=1

(−1)i+ j

aijMij

(A).

ii) La expansión de Laplace por la j-ésima columna como

det A =n∑

i=1

aijCij(A)

=n∑

i= 1

(−1)i+ j

aijMij

(A).

Demostración.Queda como ejercicio para el lector.

Teorema 1.8 Propiedades de los determinantes

Dadas A, B y C matrices de tamaño n × n y α ∈ R, se verifica que

i) det At = det A.

ii) Si se multiplica solo una fila (o columna) de la matriz A por un

escalar α, entonces el determinante queda multiplicado por α.

iii) El determinante de la matriz αA es

det(αA

)= αn det A.

iv) Si todos los elementos de una fila (o columna) de A son cero, el

valor del determinante es cero.

Page 31: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.3. Determinantes 15

v) Si las matrices A, B y C difieren exclusivamente en los elementos

de la j-ésima columna, siendo los elementos de esta columna para la

matriz C la suma de los respectivos elementos de la j-ésima columna

de las matrices A y B, entonces

detC = det A + det B.

El mismo resultado se cumple cuando las tres matrices difieren de

manera análoga en una fila.

vi) Si dos filas (o columnas) cualesquiera de A se intercambian, el valor

del determinante se multiplica por −1.

vii) Si dos filas (o columnas) de A son proporcionales o iguales, el valor

del determinante es cero.

viii) Si se suma un múltiplo escalar de una fila (o columna) de A a otra

fila (o columna) de A, entonces el determinante no cambia.

ix) a) det(A.B

)= detA. detB.

b) Para cualquier k ∈ N, k �= 0 det(Ak

)=

(detA

)k.

c) Si A es invertible, entonces det(A−1

)=

(det A

)−1.

Demostración.Queda como ejercicio para el lector.

Teorema 1.9 Sea A una matriz de tamaño n × n, A es invertible si y

solo si detA �= 0.

Demostración.Queda como ejercicio para el lector.

Page 32: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

16 1. Preliminares

Definición 1.17 Matriz adjunta

Sea A una matriz de tamaño n×n. La matriz transpuesta de la matriz

de cofactores Cij(A) es la adjunta de A y se representa por Adj(A) :

Adj(A) =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

C11(A) C21(A) . . . Cn1(A)

C12(A) C22(A) . . . Cn2(A)

......

. . ....

C1n(A) C2n(A) . . . Cnn(A)

⎤⎥⎥⎥⎥⎥⎥⎥⎦. (1.6)

Teorema 1.10 Sea A una matriz de tamaño n×n, si det A �= 0, entonces

A−1 = Adj(A)/det A.

Demostración.Queda como ejercicio para el lector.

1.3.1 Algunas fórmulas útiles para inversas

• Para una matriz invertible de tamaño 2 × 2, se obtiene

A−1 =1

detA

[a22 −a12

−a21 a11

]. (1.7)

• Para una matriz invertible de tamaño 3 × 3, se obtiene

A−1 =1

|A|

⎡⎣C11(A) C21(A) C31(A)C12(A) C22(A) C32(A)C13(A) C23(A) C33(A)

⎤⎦ (1.8)

1.4 Tipos especiales de matrices cuadradas

Los tipos de matrices que se analizan a continuación tienen característicasparticulares y, como se presentan frecuentemente en el desarrollo de lateoría y en las aplicaciones, han recibido denominaciones especiales.

Page 33: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.4. Tipos especiales de matrices cuadradas 17

Definición 1.18 Matrices triangulares

Una matriz cuadrada real A = [aij ] cuyos elementos abajo de la diago-

nal principal son todos cero, es decir aij = 0 para i > j, se llama matriz

triangular superior. De manera análoga, una matriz triangular inferior es

una matriz cuadrada real A cuyos elementos arriba de la diagonal prin-

cipal son cero, es decir aij = 0 para i < j.

Teorema 1.11 Propiedades de las matrices triangulares

Sean A, B ∈ Mnn matrices triangulares superiores (inferiores) y α ∈R, entonces:

i) Las matrices A + B y αA son triangulares superiores (inferiores).

ii) La matriz A.B es también triangular superior (inferior).

iii) El det(A) es igual al producto de los elementos de la diagonal prin-

cipal.

iv) La transpuesta de A es triangular inferior (superior).

v) La matriz A es no singular si y solo si cada uno de los elementos

de la diagonal es distinto de cero.

vi) Si A es invertible, entonces A−1 es triangular superior (inferior).

Demostración.Queda como ejercicio para el lector.

Definición 1.19 Matrices simétricas

Una matriz cuadrada real A = [aij ] se llama simétrica si la transposi-

ción la mantiene invariable, es decir [aij ] = [aji] .

Page 34: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

18 1. Preliminares

Teorema 1.12 Propiedades de las matrices simétricas

Sean A y B matrices simétricas de tamaño n × n y α ∈ R, entonces:

i) A + B y αA son simétricas.

ii) Cuando A.B = B.A, entonces A.B es simétrica. Sin embargo, esto

no es cierto si A y B no conmutan en el producto.

iii) Si A es invertible entonces su inversa A−1 también es simétrica.

iv) Dada una matriz cualquiera C de tamaño m × n,

a) Si m = n, la matriz 12

(C + Ct

)es simétrica.

b) Si m �= n o si m = n, las matrices(C.Ct

)y

(Ct.C

)son

simétricas.

Demostración.Queda como ejercicio para el lector.

Un tipo especial de matrices simétricas son las matrices escalares.

Definición 1.20 Matriz escalar

Una matriz real S de tamaño n× n se llama matriz escalar si resulta

de la multiplicación de In por un escalar c ∈ R, es decir

S = c.In.

Teorema 1.13 Propiedades de las matrices escalares

Si A = aIn y B = bIn son matrices de tamaño n × n escalares,

a, b ∈ R, entonces:

i) Las matrices A + B y A.B son también matrices escalares.

Page 35: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.4. Tipos especiales de matrices cuadradas 19

ii) El det(A) = an.

iii) La transpuesta de A es una matriz escalar.

iv) La matriz A es no singular si y solo si a �= 0.

v) Si A es invertible, entonces A−1 es también una matriz escalar.

vi) Si C es una matriz de tamaño n × n, entonces C conmuta con A,

es decir, CA = AC.

Demostración.Queda como ejercicio para el lector.

Cuando todos los elementos sii de S no son iguales al escalar c, se tieneun nuevo tipo de matrices simétricas: las matrices diagonales.

Definición 1.21 Matrices diagonales

Una matriz cuadrada real A = [aij ] cuyos elementos arriba y abajo de

la diagonal principal son todos cero, es decir que aij = 0 para toda i �= j,

se llama matriz diagonal.

Teorema 1.14 Propiedades de las matrices diagonales

Si D = [dii] es una matriz diagonal de tamaño n × n, entonces:

i) Su producto por otra matriz diagonal también corresponde a una

matriz diagonal.

ii) El detD es igual al producto de los elementos de la diagonal prin-

cipal.

iii) D es una matriz no singular si y solo si todos los elementos de la

diagonal son distintos de cero.

Page 36: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

20 1. Preliminares

iv) Si sus elementos de la diagonal principal d11, d22, . . . , dnn son todos

distintos de cero, D−1 es también una matriz diagonal con elemen-

tos en la diagonal principal iguales a 1/d11, 1/d22, . . . , 1/dnn.

Demostración.

i) Sea C = [cij ]. Entonces, el elemento ij de DC es

n∑k=1

dikckj ,

pero como D y C son matrices diagonales, entonces dik = 0 si i �= ky ckj = 0 si k �= j.

Luego, el término dikckj = 0 si i �= j. Por lo tanto, el único términoque posiblemente es distinto de cero en esta suma es cuando i =j = k, es decir el término djjcjj que corresponde al elemento jj deD.C.

ii) Se procede por inducción.

Si se desarrolla el det D = |D| por la primera columna, se obtiene|D| = d11|D′|, donde D′ es una submatriz real de tamaño (n− 1)×(n − 1) obtenida al borrar la primera fila y la primera columna deD. Ahora, obsérvese que D′ también es diagonal. Se deja al lectorcompletar los detalles de la prueba.

iii) Dado que una matriz real de tamaño n × n es no singular si y solosi su determinante es diferente de cero, si D es diagonal, de la parteii) se tiene que |D| = d11 · d22 · . . . · dnn, y este es distinto de cerosi y solo si cada dii �= 0.

iv) Esta se sigue inmediatamente a partir de i) y de iii). Si cada dii �= 0,⎡⎢⎢⎢⎣d11 0 . . . 00 d22 . . . 0...

.... . .

...0 0 . . . dnn

⎤⎥⎥⎥⎦⎡⎢⎢⎢⎣

1/d11 0 . . . 00 1/d22 . . . 0...

.... . .

...0 0 . . . 1/dnn

⎤⎥⎥⎥⎦ = In.

Page 37: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.4. Tipos especiales de matrices cuadradas 21

Definición 1.22 Matrices antisimétricas

Una matriz cuadrada real A = [aij ] se llama antisimétrica si la trans-

posición da como resultado la negativa de A, es decir At = −A.

Teorema 1.15 Propiedades de las matrices antisimétricas

Sean A y B matrices cuadradas antisimétricas y α ∈ R, entonces:

i) A + B y αA son antisimétricas.

ii) Cuando AB = BA, entonces AB es antisimétrica. Sin embargo,

esto no es cierto si A y B no conmutan en el producto.

iii) Si A es invertible, entonces su inversa A−1 también es antisimétri-

ca.

iv) Dada una matriz cualquiera C de tamaño n×n, entonces la matriz

12

(C − Ct

)es antisimétrica.

Demostración.Queda como ejercicio para el lector.

Definición 1.23 Matriz ortogonal

Sea A = [�a1 �a2 . . . �an] una matriz real de tamaño n×n, donde �ai es

un vector n × 1 formado con los elementos de la i-ésima columna de A.

Entonces, A es ortogonal si y solo si

�ati�aj = �ai · �aj =

⎧⎪⎨⎪⎩ 1 si i = j,

0 si i �= j.

Este producto en algunos casos se denota con el símbolo δij , el cual se lee

delta i j y se denomina Delta de Kronecker.

Page 38: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

22 1. Preliminares

Teorema 1.16 Propiedades de las matrices ortogonales

Sean A y B matrices ortogonales de tamaño n×n y α ∈ R, entonces:

i) A es ortogonal si y solo si At = A−1 o idénticamente si y solo si

AtA = In. (1.9)

ii) AB y BA son ortogonales pero, en general, A + B y αA no lo son.

iii) El valor absoluto del det A es 1.

iv) La transpuesta de una matriz ortogonal es ortogonal.

v) Dada una matriz antisimétrica C de tamaño n × n, entonces la

matriz A =(In − C

)(In + C

)−1es ortogonal.

Demostración.

i) Por la unicidad de la inversa de una matriz y sus propiedades, setiene que

A.At = In ⇒ A−1.A.At = A−1 ⇒ At = A−1

At = A−1 ⇒ A.At = A.A−1 ⇒ A.At = In.

ii) Si A y B son ortogonales, entonces A.B también lo es, ya que(A.B

)(A.B

)t= A.B.Bt.At = A.In.A

t = A.At = In.

Análogamente, se prueba para B.A.

iii) Si A es ortogonal, como At.A = In, se tiene que

det(In

)= det

(At.A

)= det

(At

)det A = 1

y como det(At

)= det A, se ve que

(detA

)2= 1, y por tanto,

det A = ±1.

Page 39: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.4. Tipos especiales de matrices cuadradas 23

iv) Obsérvese que At.A = In se puede escribir como At(At

)t= In.

v) Si C ∈ Mnn es antisimétrica, se tiene que Ct = −C, y por laspropiedades de la matriz transpuesta, resulta que

AtA =[(

In − C)(

In + C)−1

]t (In − C

)(In + C

)−1

=[(

In + C)−1

]t (In − C

)t(In − C

)(In + C

)−1

=(In − C

)−1(In + C

)(In − C

)(In + C

)−1= In,

porque(In + C

)(In − C

)=

(In − C

)(In + C

).

Así pues, A es ortogonal en virtud de la ecuación (1.9).

Definición 1.24 Una matriz ortogonal A tal que det A = 1 se llama

matriz ortogonal propia y si el det A = −1, se denomina matriz ortogonal

impropia.

Ejemplo 1.1 ¿Es ortogonal la matriz A =

⎡⎢⎣ cos θ sen θ

sen θ cos θ

⎤⎥⎦?

Solución.Al multiplicar a A por la derecha por At, se obtiene

AAt =

[cos θ sen θsen θ cos θ

] [cos θ sen θsen θ cos θ

]=

[1 00 1

].

Esto muestra, por la ecuación (1.9), que A es ortogonal.

Definición 1.25 Matriz de reflexión

Una matriz ortogonal A tal que A2 = In se llama matriz de reflexión.

Definición 1.26 Matriz de permutación

La matriz elemental tipo R3 de tamaño n× n se denomina matriz de

permutación, ya que resulta de intercambiar (permutar) el orden de las

filas de la matriz In.

Page 40: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

24 1. Preliminares

Teorema 1.17 Sea P una matriz de permutación, entonces:

a) Para cualquier matriz A, se puede obtener PA a partir de A per-

mutando las filas de A exactamente como se permutaron las filas de

In para obtener P.

b) P es no singular y ortogonal.

Demostración.

a) Esto se sigue fácilmente de las definiciones de la multiplicación dematrices y de matrices de permutación.

b) Separe P en sus respectivas filas �r1, �r2, . . . , �rn, que son tan solo lasfilas �e t

i de In en cierto orden. Entonces P t tiene como columnasa �r t

i . La definición de la multiplicación de matrices implica que elelemento

(i, j

)de PP t es simplemente �ri�r

tj , y esto es

�ri�rtj = δij =

{1 si i = j,0 si i �= j.

Es decir, PP t = In. De manera análoga, en términos de las colum-nas de P, se demuestra que P tP = In.

Definición 1.27 Una matriz N de tamaño n×n se dice que es nilpotente

de índice k, si Nk = O para algún k ∈ N, pero Nk− 1 �= O .

Teorema 1.18 Si N es una matriz cuadrada nilpotente, entonces:

detN = 0 y tr(N) = 0.

Demostración.Queda como ejercicio para el lector.

Page 41: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 25

1.5 Matrices particionadas

Una característica importante en el trabajo que se hace con matricesreales es el de considerar la matriz A como una lista de vectores columnaen lugar de simplemente una serie rectangular de números. Este méto-do ha sido tan útil que ahora se desea considerar otras particiones de lamatriz A, tomando por regla la división de A tanto horizontal como ver-ticalmente. En esta sección se estudia la forma de particionar una matrizen submatrices que nos permitan desarrollar de manera más sencilla lasmismas operaciones que definimos anteriormente para las matrices.

1.5.1 Definiciones y operaciones

Si A = [aij ] es la matriz que se obtiene después de que algunas filasy/o columnas de A se han eliminado es llamada una submatriz de A.Con frecuencia es conveniente particionar una matriz en submatrices yconsiderarla como una matriz cuyos elementos son estas submatrices.

Definición 1.28 Una matriz A de tamaño m×n puede particionarse de

la siguiente manera

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

A11 A12 . . . A1s

A21 A22 . . . A2s

......

. . ....

Ar1 Ar2 . . . Ars

⎤⎥⎥⎥⎥⎥⎥⎥⎦, (1.10)

donde A11 es la submatriz real de tamaño m1 × n1 formada por los ele-

mentos de A que ocupan las m1 primeras filas y las n1 primeras columnas;

A12 es la submatriz real de tamaño m1×n2 formada por los elementos de

A que ocupan las m1 primeras filas y las columnas n1 + 1, . . . , n1 + n2, y

así sucesivamente. En general, Aij es la submatriz real de tamaño mi×nj

formada por los elementos de A que ocupan las filas

m1 + . . . + mi− 1 + 1, m1 + . . . + mi− 1 + 2, . . . , m1 + . . . + mi− 1 + mi

Page 42: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

26 1. Preliminares

y las columnas

n1 + . . . + nj− 1 + 1, n1 + . . . + nj− 1 + 2, . . . , n1 + . . . + nj− 1 + nj ,

siendo mi y nj números naturales tales que

m =

r∑i=1

mi y n =

s∑j=1

nj .

Se denotará el tamaño de la partición de A por bloques de la siguiente

manera:

(m1 + m2 + . . . + mr) × (n1 + n2 + . . . + ns) .

Ejemplo 1.2 Sea la matriz

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

a11 a12 a13 a14 a15

a21 a22 a23 a24 a25

a31 a32 a33 a34 a35

a41 a42 a43 a44 a45

⎤⎥⎥⎥⎥⎥⎥⎥⎦.

Obtenga una partición de A de tamaños

(i) (2 + 2) × (2 + 2 + 1) y (ii) (1 + 2 + 1) × (2 + 3).

Solución.En el primer caso,

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

a11 a12... a13 a14

... a15

a21 a22... a23 a24

... a25

. . . . . . . . . . . . . . . . .

a31 a32... a33 a34

... a35

a41 a42... a43 a44

... a45

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

Page 43: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 27

la cual puede ser escrita de la forma

A =

⎡⎢⎢⎣A11... A12

... A13

. . . . . . . . . . .

A21... A22

... A23

⎤⎥⎥⎦ ,

donde

A11 =

[a11 a12

a21 a22

], A12 =

[a13 a14

a23 a24

], A13 =

[a15

a25

],

A21 =

[a31 a32

a41 a42

], A22 =

[a33 a34

a43 a44

], A23 =

[a35

a45

].

En el segundo caso,

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

a11 a12... a13 a14 a15

. . . . . . . . . . . . . . . .

a21 a22... a23 a24 a25

a31 a32... a33 a34 a35

. . . . . . . . . . . . . . . .

a41 a42... a43 a44 a45

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦,

la cual puede ser escrita de la forma

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣A′

11

... A′12

. . . . . . .

A′21

... A′22

. . . . . . .

A′31

... A′32

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

donde

A′11 =

[a11 a12

], A′

12 =[a13 a14 a15

],

A′21 =

[a21 a22

a31 a32

], A′

22 =

[a23 a24 a25

a33 a34 a35

],

A′31 =

[a41 a42

], A′

32 =[a43 a44 a45

].

Page 44: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

28 1. Preliminares

Definición 1.29 Submatriz principal

Si A es una matriz cuadrada de tamaño n× n, se le llama submatriz

principal a toda submatriz de A formada eligiendo los mismos índices para

las filas y las columnas. Si k es un subconjunto propio de {1, 2, . . . , n},denotamos por A(k) la submatriz principal de A resultante de seleccionar

las respectivas filas y columnas indicadas por k.

El hecho de tomar las mismas filas y columnas es equivalente a que los ele-mentos de la diagonal principal de la submatriz han de ser elementos queya formaban parte de la diagonal principal de la matriz original. Luegosi A es simétrica, cualquier submatriz principal también es simétrica.

Nota 1.2 El número total de submatrices principales de orden r que se

pueden obtener de una matriz A de orden n es igual a(

n

r

).

Ejemplo 1.3 Obtenga algunas submatrices principales de la matriz

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

−5 3 5 1 0

−4 8 10 0 −1

2 13 11 2 1

0 1 1 3 2

3 1 0 7 5

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦.

Solución.Las siguientes matrices son submatrices principales de orden 2 de A:

A({1,2}) =

[−5 3−4 8

], A({1,3}) =

[−5 52 11

];

el número total de submatrices de orden 2 que se pueden obtener de Aes

(52

)= 10. Algunas submatrices principales de orden 3 de A son

A({1,4,5}) =

⎡⎣−5 1 00 3 23 7 5

⎤⎦ , A({3,4,5}) =

⎡⎣11 2 11 3 20 7 5

⎤⎦ ;

Page 45: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 29

el número total de submatrices de orden 3 que se pueden obtener de Aes

(53

)= 10. Nótese que la submatriz

B =

⎡⎣−5 1 0−4 0 −12 2 1

⎤⎦no es principal, porque se ha obtenido con las filas 1, 2 y 3 y con lascolumnas 1, 4 y 5.

Definición 1.30 Submatriz angular

La submatriz principal que es formada con las primeras k filas y k

columnas de la matriz A y que denotaremos por A[k], siendo k el orden

de la submatriz, se denomina submatriz angular.

Si A es la matriz cuadrada de tamaño n × n:

A =

⎡⎢⎢⎢⎣a11 a12 . . . a1n

a21 a22 . . . a2n...

.... . .

...an1 an2 . . . ann

⎤⎥⎥⎥⎦ ,

entonces las submatrices angulares de A vienen dadas por

A[1] =[a11

], A[2] =

[a11 a12

a21 a22

], A[3] =

⎡⎣a11 a12 a13

a21 a22 a23

a31 a32 a33

⎤⎦ , . . . , A[n] = A.

Así, en el Ejemplo 1.3, la submatriz A({1,2}) sería una submatriz angular,concretamente A[2].

Definición 1.31 Dos matrices A y B están particionadas idénticamente

si las submatrices resultantes contienen el mismo número de filas y de co-

lumnas y si, además, las partes correspondientes tienen el mismo tamaño.

Por tanto, dos matrices particionadas idénticamente son iguales si y solo

si las submatrices correspondientes son iguales.

Page 46: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

30 1. Preliminares

Definición 1.32 Suma de matrices particionadas

Sean A y B dos matrices particionadas idénticamente. Entonces la

suma de A y B tendrá igual partición. En este caso, cada bloque de A + B

es obtenido de los correspondientes bloques de A y de B, es decir,

A + B = [Aij ] + [Bij ] =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

A11 + B11 A12 + B12 . . . A1s + B1s

A21 + B21 A22 + B22 . . . A2s + B2s

......

. . ....

Ar1 + Br1 Ar2 + Br2 . . . Ars + Brs

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

donde las submatrices Aij y Bij son de tamaño mi × nj .

Definición 1.33 Multiplicación por un escalar

Si A es una matriz real de tamaño m × n particionada y α ∈ R, en-

tonces la multiplicación de un escalar por A es una matriz real de tamaño

m×n obtenida de multiplicar cada bloque de A por el número α. En otras

palabras,

αA = α

⎡⎢⎢⎢⎢⎢⎢⎢⎣

A11 A12 . . . A1s

A21 A22 . . . A2s

......

. . ....

Ar1 Ar2 . . . Ars

⎤⎥⎥⎥⎥⎥⎥⎥⎦=

⎡⎢⎢⎢⎢⎢⎢⎢⎣

αA11 αA12 . . . αA1s

αA21 αA22 . . . αA2s

......

. . ....

αAr1 αAr2 . . . αArs

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

donde Aij son submatrices de tamaño mi × nj para i = 1, 2, . . . , r, j =

1, 2, . . . , s, donde m1 + m2 + . . . + mr = m y n1 + n2 + . . . + ns = n.

Definición 1.34 Transpuesta

Sea A una matriz real de tamaño m × n particionada de alguna ma-

nera. Entonces la transpuesta de A que se escribe At es una matriz real

Page 47: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 31

de tamaño n×m obtenida de intercambiar los renglones por las columnas

en cada uno de los bloques Aij . En otras palabras,

si A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

A11 A12 . . . A1s

A21 A22 . . . A2s

......

. . ....

Ar1 Ar2 . . . Ars

⎤⎥⎥⎥⎥⎥⎥⎥⎦, entonces At =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

At11 At

21 . . . Atr1

At12 At

22 . . . Atr2

......

. . ....

At1s At

2s . . . Atrs

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

donde Aij son submatrices de tamaño mi × nj para i = 1, 2, . . . , r, j =

1, 2, . . . , s, donde m1 + m2 + . . . + mr = m y n1 + n2 + . . . + ns = n.

Ejemplo 1.4 Obtenga la transpuesta de A para una partición de tamaño

(2 + 1) × (2 + 2) :

A =

⎡⎢⎢⎢⎢⎣8 9 3 −5

20 10 −10 8

21 −5 13 5

⎤⎥⎥⎥⎥⎦ .

Solución.Consideremos la partición (2 + 1) × (2 + 2) de A, es decir,

A =

⎡⎢⎢⎣A11... A12

. . . . . . .

A21... A22

⎤⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎣8 9

... 3 −5

20 10... −10 8

. . . . . . . . . . . . .

21 −5... 13 5

⎤⎥⎥⎥⎥⎥⎦ .

Luego,

At11 =

[8 920 10

]t=

[8 209 10

], At

12 =

[3 −5

−10 8

]t=

[3 −10−5 8

],

At21 =

[21 −5

]t=

[21−5

], At

22 =[13 5

]t=

[135

],

Page 48: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

32 1. Preliminares

por consiguiente,

⎡⎢⎢⎢⎢⎢⎣8 9

... 3 −5

20 10... −10 8

. . . . . . . . . . . . .

21 −5... 13 5

⎤⎥⎥⎥⎥⎥⎦t

=

⎡⎢⎢⎢⎢⎢⎢⎢⎣

8 20... 21

9 10... −5

. . . . . . . . . .

3 −10... 13

−5 8... 5

⎤⎥⎥⎥⎥⎥⎥⎥⎦.

Teorema 1.19 Multiplicación

Sean A y B matrices particionadas compatibles para el producto, di-

gamos entonces

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

A11 A12 . . . A1s

A21 A22 . . . A2s

......

. . ....

Ar1 Ar2 . . . Ars

⎤⎥⎥⎥⎥⎥⎥⎥⎦y B =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

B11 B12 . . . B1t

B21 B22 . . . B2t

......

. . ....

Bs1 Bs2 . . . Bst

⎤⎥⎥⎥⎥⎥⎥⎥⎦.

Por tanto, la multiplicación de las dos matrices es

A.B =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

C11 C12 . . . C1t

C21 C22 . . . C2t

......

. . ....

Cr1 Cr2 . . . Crt

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

donde Cik =s∑

j=1AijBjk.

Demostración.Consideremos (m1+m2+ . . .+mr)×(n1+n2+ . . .+ns) una partición

de A y (n1 + n2 + . . . + ns) × (p1 + p2 + . . . + pt) una partición de B.Entonces,

Aij =[ahl

]�m1 +m2 + ...+mi − 1 +1≤h≤m1 +m2 + ...+mi − 1 +mi

n1 +n2 + ...+nj − 1 +1≤ l≤n1 +n2 + ...+nj − 1 +nj

Page 49: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 33

Bjk =[blq

]�n1 +n2 + ...+nj − 1 +1≤ l≤n1 +n2 + ...+nj − 1 +nj

p1 + p2 + ...+ pk − 1 +1≤ q≤ p1 + p2 + ...+ pk − 1 + pk

AijBjk =

[n1+...+nj−1+nj∑l=n1+...+nj−1+1

ahlblq

]�m1+...+mi−1+1≤h≤m1+...+mi−1+mi

p1+p2+...+pk−1+1≤q≤p1+p2+...+pk−1+pk

�,

y por tanto

Cik =s∑

j=1

AijBjk

=

[n∑

l=1

ahlblq

]�m1 +m2 + ...+mi − 1 +1≤h≤m1 +m2 + ...+mi − 1 +mi

p1 + p2 + ...+ pk − 1 +1≤ q≤ p1 + p2 + ...+ pk − 1 + pk

�,

es decir, Cik es el bloque (i, k) correspondiente a la partición

(m1 + m2 + . . . + mr) × (p1 + p2 + . . . + pt)

de la matriz A.B.

Ejemplo 1.5 Calcular A.B asumiendo una partición para A de tamaño

(2 + 1) × (2 + 2) y otra para B de tamaño (2 + 2) × (2 + 2), donde

A =

⎡⎢⎢⎢⎢⎣8 9 3 −5

20 10 −10 8

21 −5 13 5

⎤⎥⎥⎥⎥⎦ y B =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

2 1 3 1

1 1 −1 −1

1 −1 1 1

−1 1 2 −1

⎤⎥⎥⎥⎥⎥⎥⎥⎦.

Solución.La partición de tamaño (2 + 1) × (2 + 2) para A es

A =

⎡⎢⎢⎣A11... A12

. . . . . . .

A21... A22

⎤⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎣8 9

... 3 −5

20 10... −10 8

. . . . . . . . . . . . .

21 −5... 13 5

⎤⎥⎥⎥⎥⎥⎦

Page 50: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

34 1. Preliminares

y la partición de tamaño (2 + 2) × (2 + 2) para B es

B =

⎡⎢⎢⎣B11... B12

. . . . . . .

B21... B22

⎤⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

2 1... 3 1

1 1... −1 −1

. . . . . . . . . . . . .

1 −1... 1 1

−1 1... 2 −1

⎤⎥⎥⎥⎥⎥⎥⎥⎦. (1.11)

Luego,

A11B11 + A12B21 =

[25 1750 30

]+

[8 −8

−18 18

]=

[33 932 48

],

A11B12 + A12B22 =

[15 −150 10

]+

[−7 86 −18

]=

[8 7

56 −8

],

A21B11 + A22B21 =[37 16

]+

[8 −8

]=

[45 8

],

A21B12 + A22B22 =[68 26

]+

[23 8

]=

[91 34

].

Por consiguiente,

A.B =

⎡⎢⎢⎢⎢⎢⎣33 9

... 8 7

32 48... 56 −8

. . . . . . . . . . . . .

45 8... 91 34

⎤⎥⎥⎥⎥⎥⎦ .

1.5.2 Determinantes de matrices particionadas

En esta sección se muestran algunos resultados para encontrar el deter-minante de una matriz cuadrada particionada en bloques.

Teorema 1.20 Sea A una matriz real de tamaño n × n particionada

como sigue:

A =

⎡⎢⎣A11 A12

A21 A22

⎤⎥⎦ , (1.12)

Page 51: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 35

donde Aij son submatrices de tamaño ni × nj para i, j = 1, 2, con n1 +

n2 = n, 0 < n1 < n. Si A12 = O o si A21 = O, entonces

det(A) = det(A11) det(A22).

Demostración.El resultado se prueba por inducción sobre k. Sin pérdida de gene-

ralidad, supongamos que A12 = O y asumamos que el teorema es válidopara todas las matrices de tamaño (n− 1)× (n− 1) de la forma apropia-da. Como el determinante de una matriz A de tamaño n × n, se puedecalcular mediante la expansión de Laplace (método de cofactores) por laprimera fila, como sigue

detA =n∑

j=1

(−1)1 + ja1jM1j

(A)

(1.13)

= a11M11

(A)− a12M12

(A)

+ . . . + (−1)n+1a1nM1n

(A),

donde cada uno de los menores complementarios M1j

(A)

son de la forma

M1j

(A)

=

∣∣∣∣∣[A

[j]11

]O

[A21]j A22

∣∣∣∣∣ , j = 1, 2, . . . , k.

Aquí,[A

[j]11

]se consigue borrando de A11 la primera fila y la j-ésima co-

lumna y [A21]j se obtiene de suprimir de A21 la j-ésima columna. Porinducción sobre k,

M1j

(A)

= det

([A

[j]11

])det (A22) .

Si se reemplaza en (1.13), se tiene que

detA =

[k∑

j=1

(−1)1+ ja1j det([

A[j]11

])]det

(A22

)= det

(A11

)det

(A22

),

como se deseaba.

Page 52: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

36 1. Preliminares

Definición 1.35 Complemento de Schur

Sea A una matriz de tamaño n × n particionada como en (1.12), si

A11 es una submatriz principal no singular de A, se define el complemento

de Schur de A11 en A, denotado(A/A11

)como sigue:

(A/A11

)= A22 − A21A

−111 A12. (1.14)

Teorema 1.21 Fórmula de Schur

Sea A una matriz real de tamaño n× n particionada como en (1.12).

Si A11 y A22 son submatrices cuadradas, entonces:

1. Si A11 es no singular se verifica que

detA = det(A11) det[(

A/A11

)], (1.15)

donde la submatriz(A/A11

)= A22 − A21A

−111 A12.

2. Si A22 es no singular se cumple que

detA = det(A22) det[(

A/A22

)], (1.16)

donde la submatriz(A/A22

)= A11 − A12A

−122 A21.

Demostración.

1. Consideremos que en la partición (1.12) la submatriz A11 es nosingular, luego la matriz A se puede factorizar como sigue[

A11 A12

A21 A22

]︸ ︷︷ ︸ =

[A11 OA21

(A/A11

)]︸ ︷︷ ︸[I A−1

11 A12

O I

]︸ ︷︷ ︸ .

A = L U

Fácilmente, el lector puede probar que A = LU. Por otra parte,como det(LU) = det(L) det(U) para matrices cuadradas L y U ,por el Teorema 1.20 se tiene que

det A = det(LU) = det(A11) det[(

A/A11

)].

Page 53: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 37

2. Queda como ejercicio para el lector.

Ejemplo 1.6 Obtenga el determinante de la matriz B dada en el Ejem-

plo 1.5, asumiendo una partición de tamaño (2 + 2) × (2 + 2).

Solución.Usando la partición dada en (1.11) de la matriz B, se tiene que B11

es no singular ya que su determinante es 1. Luego

B21B−111 B12 =

[1 −1−1 1

] [2 11 1

]−1 [3 1−1 −1

]=

[9 5

−9 −5

].

Nótese que esta matriz no es invertible, por otra parte,(B/B11

)= B22 − B21B

−111 B12 =

[1 12 −1

]−

[9 5

−9 −5

]=

[−8 −411 4

],

tiene determinante igual a 12. Usando la expresión (1.15) se tiene que

detB = 1 · 12 = 12.

1.5.3 Inversas de matrices particionadas

Para determinar la inversa de una matriz cuadrada, usualmente se empleael método de Gauss-Jordan o el método del determinante y la matrizadjunta. En esta sección se ilustra la manera en que se pueden calcularlas inversas de las matrices usando particiones.

Teorema 1.22 Sea A una matriz real no singular particionada como

en (1.12), con A11 y A22 submatrices cuadradas no singulares. Entonces:

1. Si A12 = O, la inversa de A es⎡⎢⎣A11 O

A21 A22

⎤⎥⎦−1

=

⎡⎢⎣ A−111 O

−A−122 A21A

−111 A−1

22

⎤⎥⎦ .

2. Si A21 = O, la inversa de la matriz dada en (1.12) es⎡⎢⎣A11 A12

O A22

⎤⎥⎦−1

=

⎡⎢⎣A−111 −A−1

11 A12A−122

O A−122

⎤⎥⎦ .

Page 54: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

38 1. Preliminares

Demostración.Si A−1 es la inversa de A, entonces se debe cumplir que AA−1 = I.

1. Supóngase que A12 es una submatriz nula, entonces

AA−1 =

[A11 OA21 A22

] [A−1

11 O

−A−122 A21A

−111 A−1

22

]=

[A11A

−111 O

A21A−111 − A22A

−122 A21A

−111 A22A

−122

]=

[In1

OO In2

].

2. De manera análoga, cuando A21 = O, se tiene que

AA−1 =

[A11 A12

O A22

] [A−1

11 −A−111 A12A

−122

O A−122

]=

[A11A

−111 A12A

−122 − A11A

−111 A12A

−122

O A22A−122

]=

[In1

OO In2

].

Nótese que en ambos casos se obtiene la matriz identidad.

Teorema 1.23 Inversa de una matriz particionada

Sea A una matriz no singular particionada como sigue:

A =

⎡⎢⎣A11 A12

A21 A22

⎤⎥⎦ ,

donde Aij son submatrices de tamaño ni × nj para i, j = 1, 2, con n1 +

n2 = n y 0 < n1 < n, denotando A−1 por G y particionando G como

G =

⎡⎢⎣(A/A22

)−1G12

G21

(A/A11

)−1

⎤⎥⎦ ,

donde Gij son submatrices de tamaño ni × nj para i, j = 1, 2. Si

det(A11

) �= 0 y det(A22

) �= 0, se tienen los siguientes resultados:

1.(A/A22

)= A11 − A12A

−122 A21 existe y es no singular.

Page 55: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 39

2.(A/A11

)= A22 − A21A

−111 A12 existe y es no singular.

3. A−1 puede escribirse como

a) A−1 =

⎡⎢⎣ (A/A22

)−1 −(A/A22

)−1A12A

−122

−(A/A11

)−1A21A

−111

(A/A11

)−1

⎤⎥⎦ ,

b) A−1 =

⎡⎢⎣ (A/A22

)−1 −A−111 A12

(A/A11

)−1

−A−122 A21

(A/A22

)−1 (A/A11

)−1

⎤⎥⎦ .

Demostración.Para probar que

(A/A22

)es no singular, se multiplica A por la iz-

quierda por la matriz no singular A∗1

A∗1 =

[In1

−A12A−122

O A−122

].

Fácilmente, el lector puede probar que A∗1A = C, donde

C =

[(A/A22

)O

A−122 A21 In2

],

pero por el Teorema 1.20 se tiene que

det(C) = det[(

A/A22

)]det

(In2

)= det(A∗

1A) = det(A∗1) det(A) �= 0.

En consecuencia, (A/A22

)= A11 − A12A

−122 A21

es una matriz no singular.Para probar que

(A/A11

)es no singular, se multiplica la matriz A

por la izquierda por la matriz no singular:

A∗2 =

[A−1

11 O

−A21A−111 In2

].

Por otra parte, del resultado GA = In se tiene que[(A/A22

)−1G12

G21

(A/A11

)−1

] [A11 A12

A21 A22

]=

[In1

OO In2

]

Page 56: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

40 1. Preliminares

y de estas se obtienen las siguientes cuatro ecuaciones matriciales(A/A22

)−1A11 + G12A21 = In1

, (1.17a)(A/A22

)−1A12 + G12A22 = O, (1.17b)

G21A11 +(A/A11

)−1A21 = O, (1.17c)

G21A12 +(A/A11

)−1A22 = In2

. (1.17d)

Si se multiplica por la derecha de la ecuación (1.17b) por A−122 , se tiene

G12 = −(A/A22

)−1A12A

−122 .

Si se reemplaza en la ecuación (1.17a) y se factoriza, se obtiene(A/A22

)−1[A11 − A12A

−122 A21

]= In1

. (1.18)

Así,(A/A22

)existe y es igual a A11 − A12A

−122 A21.

De manera análoga, si se utilizan las ecuaciones (1.17c) y (1.17d), sepuede probar que(

A/A11

)−1[A22 − A21A

−111 A12

]= In2

, (1.19)

es decir,(A/A11

)existe y es igual a A22 − A21A

−111 A12.

De reemplazar en G12 y G21, se sigue la prueba de 3. a).

Corolario 1.23.1 Sean A y G como en el Teorema 1.23, entonces se

satisfacen las siguientes condiciones:

1.(A/A22

)−1= A−1

11 + A−111 A12

(A/A11

)−1A21A

−111 ,

2.(A/A11

)−1= A−1

22 + A−122 A21

(A/A22

)−1A12A

−122 ,

3. A−122 A21

(A/A22

)−1=

(A/A11

)−1A21A

−111 ,

4. A−111 A12

(A/A11

)−1=

(A/A22

)−1A12A

−122 ,

donde(A/A22

)= A11 − A12A

−122 A21 y

(A/A11

)= A22 − A21A

−111 A12.

Page 57: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.5. Matrices particionadas 41

Demostración.Como A11 es invertible, la matriz A se puede factorizar como sigue[

A11 A12

A21 A22

]︸ ︷︷ ︸ =

[A11 OA21

(A/A11

)]︸ ︷︷ ︸[In1

A−111 A12

O In2

]︸ ︷︷ ︸ .

A = L U

Luego A−1 = G = U−1L−1, y por el Teorema 1.22, se obtiene

A−1 =

[In1

−A−111 A12

O In2

] [A−1

11 O

−(A/A11

)−1A21A

−111

(A/A11

)−1

]

=

[A−1

11 + A−111 A12

(A/A11

)−1A21A

−111 −A−1

11 A12

(A/A11

)−1

−(A/A11

)−1A21A

−111

(A/A11

)−1

].

Como en el Teorema 1.23 se obtuvo A−1, comparando los términos seobtienen las condiciones 1. y 3.(

A/A22

)−1= A−1

11 + A−111 A12

(A/A11

)−1A21A

−111 ,

A−122 A21

(A/A22

)−1=

(A/A11

)−1A21A

−111 .

Por otra parte, como A22 es no singular, la matriz A puede factorizarsede la siguiente manera[

A11 A12

A21 A22

]︸ ︷︷ ︸ =

[(A/A22

)A12

O A22

]︸ ︷︷ ︸

[In1

O

A−122 A21 In2

]︸ ︷︷ ︸ .

A = R S

Por lo tanto, A−1 = G = S−1R−1, y en virtud del Teorema 1.22, se tieneque

A−1 =

[In1

O

−A−122 A21 In2

] [(A/A22

)−1 −(A/A22

)−1A12A

−122

O A−122

]

=

[ (A/A22

)−1 −(A/A22

)−1A12A

−122

−A−122 A21

(A/A22

)−1A−1

22 + A−122 A21

(A/A22

)−1A12A

−122

].

Aquí se comparan de nuevo los términos con los de la matriz A−1, paraobtener las condiciones 2. y 4.(

A/A11

)−1= A−1

22 + A−122 A21

(A/A22

)−1A12A

−122 ,

A−111 A12

(A/A11

)−1=

(A/A22

)−1A12A

−122

y el corolario queda probado.

Page 58: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

42 1. Preliminares

Ejemplo 1.7

Obtenga la inversa de la matriz B dada en el Ejemplo 1.5, asumiendo

una partición de tamaño (2 + 2) × (2 + 2).

Solución.En el Ejemplo 1.6, se obtuvo que detB = 12, es decir B es invertible.

Asumiendo la partición dada en (1.11) de la matriz B, se tiene que

B−111 =

[2 11 1

]−1

=

[1 −1−1 2

], B−1

22 =

[1 12 −1

]−1

=1

3

[1 12 −1

],

B12B−122 B21 =

[3 1

−1 −1

] [1 12 −1

]−1 [1 −1

−1 1

]=

[1 −1

−1 1

].

Aunque B12B−122 B21 no es invertible, el primer bloque

(B/B22

)−1 de lamatriz B−1 viene dado por(

B/B22

)−1=

[B11 − B12B

−122 B21

]−1=

[1 22 0

]−1

=1

4

[0 22 −1

].

La submatriz G21 = −B−122 B21

(B/B22

)−1 está dada por

G21 = −1

4

[1 12 −1

]−1 [1 −1−1 1

] [0 22 −1

]=

1

4

[0 02 −3

]y

B21B−111 B12 =

[1 −1−1 1

] [2 11 1

]−1 [3 1−1 −1

]=

[9 5−9 −5

].

A pesar de que B21B−111 B12 no es invertible, el bloque

(B/B11

)−1 seobtiene como sigue(

B/B11

)−1=

[B22 − B21B

−111 B12

]−1=

[−8 −411 4

]−1

=1

12

[4 4

−11 −8

],

y finalmente, se tiene que G12 = −B−111 B12

(B/B11

)−1, es decir,

G12 = − 1

12

[2 11 1

]−1 [3 1−1 −1

] [4 4

−11 −8

]=

1

12

[6 0

−13 −4

].

Por tanto,⎡⎢⎢⎣2 1 3 11 1 −1 −11 −1 1 1

−1 1 2 −1

⎤⎥⎥⎦−1

=1

12

⎡⎢⎢⎣0 6 6 06 −3 −13 −40 0 4 46 −9 −11 −8

⎤⎥⎥⎦ .

Page 59: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.6. Espacio vectorial 43

Ejercicios 1.1

1. Utilizando particiones, encuentre el determinante y la inversa de la

matriz dada en el Ejemplo (1.3).

2. Si A y C son no singulares, pruebe que

i) det(I + AB) = det(I + BA).

ii) det(A + CBCt) = det(A) det(I + BCtA−1C).

3. Demuestre que⎡⎢⎣P Q

R S

⎤⎥⎦⎡⎢⎣I O

O O

⎤⎥⎦⎡⎢⎣X Y

Z W

⎤⎥⎦ =

⎡⎢⎣P

R

⎤⎥⎦[X Y

].

4. Muestre que la inversa de una matriz no singular particionada es⎡⎢⎣A B

C D

⎤⎥⎦−1

=

⎡⎢⎣A−1 O

O O

⎤⎥⎦ +

⎡⎢⎣−A−1B

I

⎤⎥⎦E−1

[−CA−1 I

],

donde A es no singular y E = D − CA−1B.

1.6 Espacio vectorial

Los conjuntos R2 (vectores en el plano) y R3 (vectores en el espacio) juntocon las operaciones de suma de vectores y multiplicación por un escalarse llaman espacios vectoriales. Las propiedades algebraicas de un espaciovectorial arbitrario son muy semejantes a las de los elementos de R2 y R3.En consecuencia, se acostumbra llamar vectores también a los elementosde un espacio vectorial arbitrario.

Page 60: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

44 1. Preliminares

Definición 1.36 Un espacio vectorial real2 V es un conjunto no vacío

de vectores, dotado de dos operaciones:

Suma Multiplicación por un escalar

V × V → V R × V → V(�x, �y

) → �x + �y(α, �x

) → α�x

que satisfacen los diez axiomas enumerados a continuación.

1.6.1 Axiomas de un espacio vectorial

Dado V un espacio vectorial real, se verifica que

• Para la suma en V:

(i) Clausurativa: si �x, �y ∈ V entonces �x + �y ∈ V.

(ii) Asociativa: para todo �x, �y y �z ∈ V,(�x + �y

)+ �z = �x +

(�y + �z

).

(iii) Conmutativa: si �x, �y ∈ V, entonces �x + �y = �y + �x.

(iv) Existencia de elemento neutro: existe un vector de V denotadopor �0 tal que para todo �x ∈ V, �x +�0 = �0 + �x = �x.

(v) Elemento opuesto: si �x ∈ V, existe un vector −�x en V tal que�x +

(−�x)

= �0.

• Para el producto por un escalar de R:

(vi) Clausurativa: si �x ∈ V y α es un escalar, entonces α�x ∈ V.

(vii) Distributiva respecto a la suma de vectores: si �x, �y ∈ V y α esun escalar, entonces α

(�x + �y

)= α�x + α�y.

(viii) Distributiva respecto a la suma de escalares: si �x ∈ V y α y βson escalares, entonces

(α + β

)�x = α�x + β�x.

(ix) Asociativa respecto a la multiplicación de escalares: si �x ∈ V

y α y β son escalares, entonces α(β�x

)=

(αβ

)�x.

(x) Existencia del elemento unidad: para cada vector �x ∈ V,1�x = �x.

2 La palabra “real” significa que los escalares que se usan son números reales.

Page 61: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.6. Espacio vectorial 45

Definición 1.37 Sea V un espacio vectorial y W un subconjunto no vacío

de V. Se dice que W es un subespacio vectorial de V si W dotado de las

mismas operaciones definidas en V es, a su vez, espacio vectorial.

Teorema 1.24 Un subconjunto no vacío W de un espacio vectorial V es

un subespacio vectorial de V si cumple que:

i) La suma de elementos de W es un elemento de W.

ii) El producto de un escalar por un elemento de W pertenece a W.

Una condición equivalente para que W sea subespacio vectorial es que para

todo par de elementos �v y �w de W, y cualesquiera α y β de R, se verifique

que α�v + β �w pertenece a W.

Demostración.Queda como ejercicio para el lector.

Definición 1.38 Si U y W son subespacios de un espacio vectorial real

V, entonces se define la suma U + W como

U + W = {�u + �w | �u ∈ U, �w ∈ W}.

Teorema 1.25 Si U y W son subespacios de un espacio vectorial real V,

entonces la suma U + W es un subespacio de V.

Demostración.Se debe probar que U+W satisface las condiciones del Teorema 1.24:

i) Si �u1, �u2 ∈ U y �w1, �w2 ∈ W, entonces(�u1 + �w1

)+

(�u2 + �w2

)= �u1 + �u2 + �w1 + �w2 ∈ U + W.

Page 62: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

46 1. Preliminares

ii) Si α ∈ R, entonces

α(�u1 + �w1

)= α�u1 + α�w1 ∈ U + W.

Finalmente, �0 +�0 ∈ U + W. Esto prueba que U + W es un subespacio.

Definición 1.39 Se dice que V es una suma directa de U y W, si todo

�v ∈ V tiene una representación única de la forma

�v = �u + �w,

con �u ∈ U y �v ∈ V. Esta suma directa se denotará como V = U⊕

W.

Teorema 1.26 Si U y W son subespacios no nulos de un espacio vecto-

rial real V, su suma U+W es una suma directa si y solo si U⋂

W = {�0}.Demostración.

Queda como ejercicio para el lector.

Definición 1.40 Combinación lineal

Sean �v1, �v2, . . . , �vn vectores en un espacio vectorial real V. Un vector

�v en V es una combinación lineal de �v1, �v2, . . . , �vn si

�v = c1�v1 + c2�v2 + . . . + cn�vn

para ciertos números reales c1, c2, . . . , cn.

Definición 1.41 Sea S = {�v1, �v2, . . . , �vn} un conjunto de vectores en un

espacio vectorial V, entonces se dice que S es:

1. Linealmente dependiente o ligado si y solo si existen escalares ci ∈ R

no todos nulos, tales que

c1�v1 + c2�v2 + . . . + cn�vn = �0.

Page 63: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.6. Espacio vectorial 47

2. Linealmente independiente o libre si y solo si no es ligado. Esto es

c1�v1 + c2�v2 + . . . + cn�vn = �0.

Se cumple solo para c1 = c2 = . . . = cn = 0.

Definición 1.42 Espacio generado

Si S = {�v1, �v2, . . . , �vn} es un conjunto de vectores en un espacio vec-

torial V, entonces el conjunto de todos los vectores en V que son combi-

naciones lineales de los vectores en S se denomina espacio generado y se

denota por gen S

gen {�v1, �v2, . . . , �vn} = {α1�v1 + α2�v2 + . . . + αn�vn|αi ∈ R} . (1.20)

1.6.2 Bases

En esta sección se continúa con el estudio de la estructura de un espa-cio vectorial V determinando un conjunto mínimo de vectores de V quedescriba completamente a V.

Definición 1.43 Base

Si V es cualquier espacio vectorial y B = {�v1, . . . , �vn} es un conjunto

finito de vectores en V, entonces B se denomina base para V si es un

conjunto generador para V con el número más pequeño de elementos en

un conjunto generador para V.

El teorema principal acerca de las bases es:

Teorema 1.27 Base

Sea B = {�v1, . . . , �vn} un conjunto de vectores en un espacio vecto-

rial V. El conjunto B es una base para V si y solo si B es linealmente

independiente y genera a V.

Page 64: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

48 1. Preliminares

Demostración.Queda como ejercicio para el lector.

Definición 1.44 Dimensión

Si un espacio vectorial V tiene una base B con n elementos (n ∈ N),

entonces se define a n como la dimensión del espacio vectorial V y se

escribe

n = dim V.

Si V ={�0}, entonces se tiene que dim V = 0.

Teorema 1.28 Sea S = {�v1, �v2, . . . , �vn} un conjunto de vectores en un

espacio vectorial V de dimensión n. Sea

A = [�v1 �v2 . . . �vn] ,

entonces S es un conjunto de vectores linealmente independiente si y solo

si detA �= 0.

Demostración.Queda como ejercicio para el lector.

Teorema 1.29 Suponga que dim V = n. Si �v1, �v2, . . . , �vm es un conjunto

de m vectores linealmente independientes en V, entonces m ≤ n.

Demostración.Queda como ejercicio para el lector.

Teorema 1.30 Cualesquiera n vectores linealmente independientes en

un espacio vectorial V de dimensión n constituyen una base para V.

Demostración.Queda como ejercicio para el lector.

Page 65: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.6. Espacio vectorial 49

Definición 1.45 Sea B = {�v1, �v2, . . . , �vn} una base para el espacio vec-

torial V de dimensión n. Las coordenadas de cualquier vector �x ∈ V en

B se relacionan por (�x)B

= M−1B �x, (1.21)

donde MB = [�v1 �v2 . . . �vn] .

Ejemplo 1.8 Muestre que los vectores �v t1 = (2,−1) y �v t

2 = (1, 5) for-

man una base de R2, y luego halle las componentes del vector �x t = (7, 4)

con relación a esta base.

Solución.Fórmese A = [�v1 �v2] y calcúlese su determinante

det A =∣∣�v1 �v2

∣∣ =

∣∣∣∣ 2 1−1 5

∣∣∣∣ = 11 �= 0.

Luego, S = {�v1, �v2} es un conjunto de vectores linealmente independien-tes y como R2 tiene dimensión dos, se deduce que forman una base.

Para hallar las componentes de �x en términos de esta base, se hace(�x)B

= M−1B �x = A−1�x

=

[2 1

−1 5

]−1 [74

]=

1

11

[5 −11 2

] [74

]=

1

11

[3115

].

Estas son las componentes de �x relativas a la base �v1, �v2.

Teorema 1.31 Cambio de Base

Sean B1 = {�v1, �v2, . . . , �vn} y B2 = {�w1, �w2, . . . , �wn} bases para el

espacio vectorial V de dimensión n. Dado cualquier vector �x ∈ V, sus

coordenadas en B1,(�x)B1

y sus coordenadas en B2,(�x)B2

se relacionan

por (�x)B2

= M−1B2

MB1

(�x)B1

. (1.22)

Demostración.Queda como ejercicio para el lector.

Page 66: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

50 1. Preliminares

1.6.3 Espacios con producto interno

En esta sección se define una operación que no puede ser clasificada comoexterna o interna, pues aunque se opera con los elementos de un espaciovectorial, el resultado es un escalar el cual no pertenece al conjunto sobreel que se define la operación.

Definición 1.46 Espacio con producto interno

Un espacio vectorial real V de dimensión finita se dice que es un es-

pacio con producto interno si a cada par de vectores �u, �v ∈ V le asigna

un número real denotado por 〈�u,�v〉, tal que

〈�u,�v〉 = �u · �v = �u t�v =n∑

i=1

uivi. (1.23)

Debido a la notación en (1.23), el producto interno se llama con frecuen-

cia producto escalar o producto punto entre vectores.

Teorema 1.32 Propiedades del producto interno

Sea V un espacio vectorial real con un producto interno 〈 , 〉. Entonces

para todo �u,�v, �w ∈ V y todo α ∈ R, se tiene

i) 〈�u,�v〉 = 〈�v, �u〉.

ii)⟨(

�u + �v), �w

⟩= 〈�u, �w〉 + 〈�v, �w〉.

iii)⟨�u,

(�v + �w

)⟩= 〈�u,�v〉 + 〈�u, �w〉.

iv)⟨(

α�u), �v

⟩= α〈�u,�v〉 =

⟨�u,

(α�v

)⟩.

v) 〈�u, �u〉 ≥ 0 y 〈�u, �u〉 = 0 si y solo si �u = �0.

Demostración.Queda como ejercicio para el lector.

Page 67: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.6. Espacio vectorial 51

Definición 1.47 Longitud o norma

Sea V un espacio vectorial real, con un producto interno 〈 , 〉. Una

norma en V es una función de V en R, tal que a cada �v ∈ V, le asigna

un número real no negativo, denotado por ‖�v‖ y definido como:

‖�v‖ =√

〈�v,�v〉. (1.24)

Teorema 1.33 Propiedades de la norma

Para todo �u,�v ∈ V y todo α ∈ R,

(i) ‖�u‖ ≥ 0. (ii) ‖�u‖ = 0 si y solo si �u = �0.

(iii) ‖α�u‖ = |α|‖�u‖. (iv) ‖〈�u,�v〉‖ ≤ ‖�u‖‖�v‖.

(v) ‖�u + �v‖ ≤ ‖�u‖ + ‖�v‖.

Demostración.Queda como ejercicio para el lector.

Teorema 1.34 Sea 〈 , 〉 un producto interno en un espacio vectorial V

de dimensión finita. Sean �u y �v dos vectores diferentes de cero. Si θ es el

ángulo entre ellos, entonces:

cos θ = cos �(�u,�v) =〈�u,�v〉‖�u‖‖�v‖ . (1.25)

Demostración.Queda como ejercicio para el lector.

Definición 1.48 Vectores ortogonales

1. Sea V un espacio vectorial con un producto interno y sean dos vec-

tores �u,�v ∈ V. Se dice que �u y �v son ortogonales(�u ⊥ �v

)si y solo

Page 68: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

52 1. Preliminares

si:

〈�u,�v〉 = 0.

2. Un conjunto de vectores S = {�v1, �v2, . . . , �vm} de un espacio vectorial

V se dice que es ortogonal si y solo si los vectores son ortogonales

dos a dos, es decir:

〈�vi, �vj〉 = 0 siempre que i �= j.

3. El conjunto de vectores S (en 2) se dice que es ortonormal si y solo

si:

a) S es ortogonal. b) ‖�vi‖ = 1, para todo i.

Teorema 1.35 Todo conjunto ortogonal de un espacio vectorial V es li-

nealmente independiente.

Demostración.Queda como ejercicio para el lector.

Teorema 1.36 Proceso de ortonormalización de Gram-Schmidt

Todo subespacio H de dimensión k de Rn tiene al menos una base

ortogonal y una base ortonormal. Si B = {�v1, �v2, . . . , �vk} es cualquier

base de H, entonces:

�w1 = �v1

�w2 = �v2 − 〈�v2, �w1〉‖�w1‖2

�w1

�w3 = �v3 − 〈�v3, �w1〉‖�w1‖2

�w1 − 〈�v3, �w2〉‖�w2‖2

�w2,

Page 69: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.6. Espacio vectorial 53

así sucesivamente:

�wk = �vk −k− 1∑i=1

〈�vk, �wi〉‖�wi‖2

�wi

forman una base B′ = {�w1, �w2, . . . , �wk} ortogonal y

gen{�v1, . . . , �vk} = gen{�w1, . . . , �wk}, i = 1, . . . , k.

La base ortonormal B′′ se obtiene normalizando B′:

B′′ =

{�w1

‖�w1‖ , . . . ,�wk

‖�wk‖}

.

Demostración.Queda como ejercicio para el lector.

1.6.4 Complemento ortogonal

Consideremos un subespacio V ⊆ Rn. Para V puede haber muchos sub-espacios de Rn que son ortogonales a V (por ejemplo, en R3 si V es eleje Z, todas las rectas en el plano XY que pasan por el origen y el pro-pio plano XY son ortogonales a V). Entre todos los subespacios que sonortogonales a V hay uno de particular importancia: aquel subespacio V∗

tal que Rn = V ⊕ V∗.

Definición 1.49 Complemento ortogonal

Sea W un subespacio del espacio con producto interno V. Entonces el

complemento ortogonal de W, denotado por W⊥, está dado por:

W⊥ ={�u ∈ V :

⟨�u, �w

⟩= 0, para todo �w ∈ W

}.

1.6.5 Subespacios asociados a una matriz

Hay cuatro subespacios asociados a una matriz, los cuales se considerana continuación.

Page 70: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

54 1. Preliminares

Definición 1.50 Espacio nulo y nulidad de una matriz

Sea A una matriz de tamaño m × n. Entonces el conjunto

ker(A) = {�u ∈ Rn|A�u = �0} (1.26)

se llama el espacio nulo de A y ν(A)

= dim[ker(A)

]se denomina nulidad

de A.

El espacio nulo de una matriz también se conoce como núcleo.

Definición 1.51 Imagen de una matriz

Sea A una matriz de tamaño m× n. Entonces la imagen de A, deno-

tada por ImA, está dada por:

ImA = {�v ∈ Rm|A�u = �v para algún �u ∈ Rn}. (1.27)

Definición 1.52 Espacio de los renglones (o de las filas) de una

matriz

Sea A una matriz de tamaño m×n, sean {�r1, �r2, . . . , �rm} los renglones

(o filas) de A. Entonces se define:

R(A) = espacio de los renglones de A = gen{�r1, �r2, . . . , �rm}. (1.28)

Definición 1.53 Espacio de las columnas de una matriz

Sea A una matriz de tamaño m×n, sean {�c1,�c2, . . . ,�cn} las columnas

de A. Entonces se define:

Col(A) = espacio de las columnas de A = gen{�c1,�c2, . . . ,�cn}. (1.29)

Page 71: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.6. Espacio vectorial 55

Definición 1.54 Rango de una matriz

Sea A = [aij ] una matriz real de tamaño m×n. Se llama rango de A,

denotado por ρ(A), al número máximo de vectores fila (o columna) line-

almente independientes o también a la dimensión del subespacio generado

por los vectores fila (o columna) de A.

Teorema 1.37 Propiedades del rango

Sea A una matriz real de tamaño m × n, entonces se cumple que:

(i) 0 ≤ ρ(A) ≤ mın{m, n}.

(ii) Si ρ(A) = m < n, se dice que A tiene rango completo fila.

(iii) Si ρ(A) = n < m, se dice que A tiene rango completo columna.

(iv) Si ρ(A) = r ≤ mın{m, n}, entonces existen matrices K y L de

rango r y tamaños m×r y r×n, respectivamente, tales que A = KL.

(v) ρ(In) = n, con In la matriz identidad de tamaño n × n.

(vi) ρ(O)

= 0, con O la matriz nula de tamaño n × n.

(vii) ρ(A) = ρ(At).

(viii) ρ(A.B) ≤ mın{ρ(A), ρ(B)}.

(ix) Si A es diagonal, entonces ρ(A) es el número de elementos no nulos

en su diagonal.

(x) Si A es no singular, entonces ρ(A.B) = ρ(B) y ρ(B.A) = ρ(B).

Demostración.Queda como ejercicio para el lector.

Page 72: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

56 1. Preliminares

1.7 Sistemas de ecuaciones lineales

En esta sección se mencionan las relaciones lineales, pues gran parte delálgebra lineal estudia y desarrolla relaciones lineales, las cuales son unageneralización de la ecuación de una recta.

Definición 1.55 Un sistema de ecuaciones se dice que es lineal si todas

las ecuaciones que lo componen son lineales en los escalares desconocidos

o incógnitas x1, x2, . . . , xn. Es decir, son de la forma:

α1x1 + α2x2 + . . . + αjxj + . . . + αnxn = β,

donde αi, i = 1, 2, . . . , n y β habitualmente son números reales, números

complejos o funciones. Entonces, en una ecuación lineal no pueden apare-

cer productos o potencias de las incógnitas x1, x2, . . . , xj , . . . , xn.

Definición 1.56 Se llama sistema lineal de m ecuaciones con n incóg-

nitas al conjunto de m igualdades:

bi =n∑

j=1

aijxj para i = 1, 2, . . . , m, (1.30)

donde aij, i = 1, 2, . . . , m j = 1, 2, . . . , n son los coeficientes del sistema;

bi, i = 1, 2, . . . , m son los términos independientes, y x1, x2, . . . , xj , . . . ,

xn son las incógnitas del sistema.

El sistema de ecuaciones (1.30) puede escribirse en forma matricial comosigue: ⎡⎢⎢⎢⎢⎢⎢⎣

a11 . . . a1j . . . a1n...

. . .... . . .

...ai1 . . . aij . . . ain...

. . .... . . .

...am1 . . . amj . . . amn

⎤⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎣x1...xi...

xn

⎤⎥⎥⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎣b1...bj...

bn

⎤⎥⎥⎥⎥⎥⎥⎦ , (1.31)

A �X = �b

Page 73: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.7. Sistemas de ecuaciones lineales 57

donde A es la matriz de coeficientes de tamaño m × n; �X ∈ Rn es elvector columna de las incógnitas y �b ∈ Rm es el vector columna de lostérminos independientes.

El sistema (1.31) se dice que es homogéneo cuando el vector �b detérminos independientes es nulo. Es decir,

A �X = �0.

Se conoce como sistema lineal no homogéneo general al sistema de laforma:

A �X =�b con �b �= �0.

Definición 1.57 Sistemas consistentes e inconsistentes

Un sistema de ecuaciones lineales

A �X = �b (1.32)

con A una matriz de tamaño m×n, �X ∈ Rn y �b ∈ Rm, se puede clasificar

según el número de soluciones que tenga, como:

• Inconsistente si no tiene solución.

• Consistente si admite al menos una solución. En este caso el siste-

ma (1.32) puede clasificarse en:

– Consistente determinado si la solución es única.

– Consistente indeterminado cuando hay infinitas soluciones.

1.7.1 Método de eliminación de Gauss

Para resolver un sistema de m ecuaciones con n incógnitas de la forma

A �X = �b,

se procede de la siguiente manera:

Page 74: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

58 1. Preliminares

1. Se forma la matriz aumentada B =(A | �b

).

2. Se aplican operaciones elementales entre filas, hasta llevar a B auna matriz escalonada reducida C.

3. Se halla el sistema de ecuaciones que representa la matriz C.

4. El último sistema determina la solución.

Por último, en esta sección se presenta la aplicación de determinantes,bien conocida para resolver sistemas de ecuaciones lineales A �X = �b, dondeA es una matriz invertible de tamaño n × n. Sean

A =

⎡⎢⎢⎢⎣a11 . . . a1j . . . a1n

a21 . . . a2j . . . a2n...

. . ....

. . ....

an1 . . . anj . . . ann

⎤⎥⎥⎥⎦ y �b =

⎡⎢⎢⎢⎣b1

b2...

bn

⎤⎥⎥⎥⎦ .

Para j = 1, 2, . . . , n, denotemos por Bj la matriz que resulta de sustituirla columna j-ésima de A por el vector �b:

Bj =

⎡⎢⎢⎢⎣a11 . . . a1,j− 1 b1 a1,j+1 . . . a1n

a21 . . . a2,j− 1 b2 a2,j+1 . . . a2n...

. . ....

......

. . ....

an1 . . . an,j− 1 bn an,j+1 . . . ann

⎤⎥⎥⎥⎦ . (1.33)

Teorema 1.38 Regla de Cramer

Consideremos el sistema A �X = �b, donde A es invertible. Entonces, la

solución del sistema viene dada por

�X =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

x1

x2

...

xn

⎤⎥⎥⎥⎥⎥⎥⎥⎦=

1

det A

⎡⎢⎢⎢⎢⎢⎢⎢⎣

detB1

detB2

...

detBn

⎤⎥⎥⎥⎥⎥⎥⎥⎦, (1.34)

donde las matrices B1, B2, . . . , Bn, están definidas en (1.33).

Demostración.Queda como ejercicio para el lector.

Page 75: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.8. Transformaciones lineales 59

1.8 Transformaciones lineales

Definición 1.58 Sean V y W espacios vectoriales reales. Sea T : V →W una función de V en W. Se dice que T es una transformación lineal

de V en W si y solo si para cualquier �u, �v vectores de V y α escalar, se

tiene que:

T(�u + �v

)= T

(�u)

+ T(�v)

y T(α�u

)= αT

(�u). (1.35)

Teorema 1.39 Sea T una transformación lineal de V en W. Entonces:

1. T(�0)

= �0.

2. T(−�u

)= −T

(�u), para todo �u ∈ V.

3. Si �v =n∑

i=1αi�ui, con �ui ∈ V y αi escalares, entonces:

T

(n∑

i=1

αi�ui

)=

n∑i=1

αiT(�ui).

4. Si el conjunto {�v1, �v2, . . . , �vm} es linealmente dependiente en V, en-

tonces el conjunto{T(�v1

), T

(�v2

), . . . , T

(�vm

)}es linealmente de-

pendiente en W.

Demostración.Queda como ejercicio para el lector.

1.8.1 Representación matricial de una transformación

En este apartado se verá que para toda transformación lineal T : V → W,existe una matriz A de tamaño m × n con m = dim W y n = dim V talque:

T(�x)

= A�x para todo �x ∈ V.

Este hecho es sumamente útil, ya que permite determinar de manera fácilel núcleo, la imagen, la nulidad y el rango de una transformación lineal.

Page 76: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

60 1. Preliminares

Teorema 1.40 Sean V y W espacios vectoriales reales de dimensiones

n y m, respectivamente. Sea T : V → W una transformación lineal.

Entonces existe una matriz única de tamaño m × n, AT tal que:

T(�x)

= AT�x para todo �x ∈ V.

Demostración.Queda como ejercicio para el lector.

Definición 1.59 Matriz de transformación

La matriz AT en el Teorema 1.40 se llama matriz de transformación

correspondiente a T o representación matricial de T.

Teorema 1.41 Sea AT la matriz de transformación correspondiente a la

transformación lineal T. Entonces:

i) ImT = ImAT= Col

(AT

). ii) ρ

(T)

= ρ(AT

).

iii) ker(T)

= ker(AT

). iv) ν

(T)

= ν(AT

).

Demostración.Queda como ejercicio para el lector.

Definición 1.60 Transformación uno a uno

Dada una transformación lineal T : V → W, se dice que es uno a uno

si satisface que:

T(�v1

)= T

(�v2

)implica que �v1 = �v2. (1.36)

Es decir, T es uno a uno (escrito 1 − 1) si y solo si todo vector �v en la

imagen de T es la imagen de exactamente un vector en V.

Page 77: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.9. Matrices con entradas complejas 61

Definición 1.61 Transformación sobre

Sea T : V → W una transformación lineal. Entonces T es sobre, si

para todo �w ∈ W existe al menos una �v ∈ V tal que T(�v)

= �w. Es decir,

T es sobre si y solo si ImT = W.

Definición 1.62 Isomorfismo

Sea T : V → W una transformación lineal. Entonces T es un isomor-

fismo si T es uno a uno y sobre.

1.9 Matrices con entradas complejas

En esta sección se desarrollarán algunas de las propiedades de las matricescuyos elementos son números complejos. Toda la aritmética y los teoremasque se han expuesto se aplican a matrices complejas. Estas matrices tienenimportantes aplicaciones, por ejemplo, en la mecánica cuántica.

1.9.1 Definición y propiedades básicas

Definición 1.63 Matriz compleja

Una matriz A de tamaño m × n se dice que es una matriz compleja

si sus elementos son números complejos.

Definición 1.64 Matriz conjugada

Sea A = [aij ] una matriz compleja, se llama matriz conjugada de A a

la matriz A = [aij ], donde aij es el conjugado complejo de aij .

Page 78: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

62 1. Preliminares

Ejemplo 1.9 Determine la matriz conjugada de la matriz compleja

A =

⎡⎢⎣2 − 3i 2 + i

2 − i 2i

⎤⎥⎦ .

Solución.

A =

[2 − 3i 2 + i2 − i 2i

]=

[2 + 3i 2 − i2 + i −2i

].

Teorema 1.42 Propiedades de la conjugada compleja

Sean A y B matrices de componentes complejas de tamaño m × n y

sea α ∈ C. Entonces:

1. A + B = A + B. 2. A = A. 3. At = At.

4. αA = αA. 5. AB = A B, m = n.

Demostración.Sean A = [aij ] y B = [bij ], entonces

1. A + B =[aij + bij

]=

[aij + bij

]= A + B.

2. A = [aij ] = [aij ] = A.

3. Queda como ejercicio para el lector.

4. αA = [αaij ] = [α aij ] = αA.

5. Definamos C = AB, luego el conjugado del elemento cik es

cik = ai1b1k + ai2b2k + . . . + ainbnk

=n∑

j=1

aijbjk =n∑

j=1

aijbjk =n∑

j=1

aij bjk

= ai1b1k + ai2b2k + . . . + ainbnk.

Page 79: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.9. Matrices con entradas complejas 63

Definición 1.65 Transpuesta conjugada La transpuesta conjugada

de una matriz compleja A, denotada por AH , se define como:

AH = At, (1.37)

donde los elementos de A son los conjugados complejos de los elementos

correspondientes de A.

Ejemplo 1.10 Determine AH para la matriz

A =

⎡⎢⎢⎢⎢⎣4 + 3i 2 + i

2 − i 6i

−1 1 + 3i

⎤⎥⎥⎥⎥⎦ .

Solución.

A =

⎡⎣ 4 + 3i 2 + i2 − i 6i−1 1 + 3i

⎤⎦ =

⎡⎣ 4 − 3i 2 − i2 + i −6i−1 1 − 3i

⎤⎦AH = A

t=

[4 − 3i 2 + i −12 − i −6i 1 − 3i

].

Teorema 1.43 Propiedades de la transpuesta conjugada

Si A y B son matrices complejas de tamaño m×n y α ∈ C, entonces

se cumplen las siguientes propiedades:

1. (AH)H = A. 2. (A + B)H = AH + BH .

3. (α A)H = α AH . 4. (A B)H = BH AH , m = n.

Demostración.Queda como ejercicio para el lector.

Teorema 1.44 Sea A una matriz compleja de tamaño n × n, entonces:

det(A) = det(A).

Page 80: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

64 1. Preliminares

Demostración.La prueba se hará por inducción sobre n. Sea A = [a] una matriz de

tamaño 1 × 1, entonces es claro que

det(A) = a = det(A).

Ahora, supongamos que el teorema es cierto para matrices de tamaño(n − 1) × (n − 1).

Sea A = [aij ] una matriz de tamaño n×n. Si se calcula el det(A) porla k-ésima fila, se tiene que

det(A) =n∑

j=1

akjCkj(A) =n∑

j=1

(−1)k+ jakjMkj(A),

donde Mkj(A) es el menor complementario(k, j

). Por la hipótesis de

inducción, se verifica que

Mkj(A) = Mkj(A).

Por lo tanto,

det(A) =n∑

j=1

(−1)k+ jakjMkj(A) =n∑

j=1

(−1)k+ jakjMkj(A)

=n∑

j=1

(−1)k+ jakjMkj(A) =n∑

j=1

(−1)k+ jakjMkj(A)

= det(A).

1.9.2 Espacios vectoriales complejos

Las propiedades algebraicas de un espacio vectorial complejo arbitrarioson muy semejantes a las estudiadas para los espacios vectoriales reales.

Page 81: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.9. Matrices con entradas complejas 65

Definición 1.66 Espacios vectoriales complejos

Un espacio vectorial complejo se define exactamente como un espacio

vectorial real (definición 1.36), excepto que los escalares en los axiomas

(vi) a (ix) pueden ser números complejos. Los términos espacio vectorial

complejo y espacio vectorial real destacan el conjunto del cual se eligen

los escalares.

Los conceptos de combinaciones lineales, conjuntos generadores, de-pendencia lineal, independencia lineal y base no cambian para los espaciosvectoriales complejos, excepto que utilizamos escalares complejos.

Definición 1.67 Producto interno en Cn

Sean �u,�v ∈ Cn, se define el producto punto �u · �v como

�u · �v = �uH�v =n∑

i=1

uivi,

donde ui es el i-ésimo elemento conjugado de �u y vi es el i-ésimo elemento

de �v.

Teorema 1.45 Propiedades del producto punto en Cn

Para todo �u,�v, �w ∈ Cn y todo α ∈ C:

i) �u · �u ≥ 0. ii) �u · �u = 0 si y solo si �u = �0.

iii) �u · �v = �v · �u. iv)(�u + �v

) · �w = �u · �w + �v · �w.

v)(α�u

) · �v = α(�u · �v).

Demostración.Queda como ejercicio para el lector.

Page 82: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

66 1. Preliminares

Definición 1.68 Partes real e imaginaria de un vector complejo

El complejo conjugado de un vector complejo �u ∈ Cn es el vector �u ∈Cn, cuyas componentes son los complejos conjugados de las componentes

de �u. Las partes real e imaginaria de un vector complejo �u son los vectores

Re(�u) ∈ Rn y Im(�u) ∈ Rn, respectivamente, formados a partir de las

partes reales e imaginarias de cada una de las componentes de �u.

Ejemplo 1.11 Determine las partes real e imaginaria y el correspon-

diente vector conjugado del vector �u t = (−i, 1 + i, 1) .

Solución.Como

�u =

⎡⎣ −i1 + i

1

⎤⎦ =

⎡⎣011

⎤⎦ + i

⎡⎣−110

⎤⎦ ,

entonces

Re(�u) =

⎡⎣011

⎤⎦ y Im(�u) =

⎡⎣−110

⎤⎦ .

Luego, el vector conjugado es

�u =

⎡⎣011

⎤⎦− i

⎡⎣−110

⎤⎦ =

⎡⎣ i1 − i

1

⎤⎦ .

1.9.3 Solución de sistemas lineales con entradas complejas

Los resultados y las técnicas para resolver sistemas lineales, presentadosen la sección 1.7, se pueden aplicar de manera directa a los sistemaslineales con coeficientes complejos. En este apartado, se muestra cómotransformar un sistema lineal de n × n con coeficientes complejos en unsistema lineal 2n × 2n con coeficientes reales.

Consideremos el sistema

A �X = �b, (1.38)

Page 83: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

1.9. Matrices con entradas complejas 67

donde A es una matriz compleja de tamaño n × n, �X,�b ∈ Cn. Entonces,el sistema dado en (1.38) se puede escribir como[

Re(A) −Im

(A)

Im(A)

Re(A) ] [

Re(�x)

Im(�x)] =

[Re

(�b)

Im(�b)] ,

donde Re(·) y Im

(·) denotan las partes real e imaginaria, respectivamen-te. Este nuevo sistema lineal con coeficientes reales es de 2n ecuacionescon 2n incógnitas. Si se emplean los resultados de la sección 1.5, se tieneque el sistema dado en (1.38) tiene una única solución si y solo si

det{Re

(A)} �= 0 y det

{Re

(A)

+ Im(A)[

Re(A)]−1

Im(A)} �= 0.

En cuyo caso la solución está dada por[Re

(�x)

Im(�x)] =

[In

[Re

(A)]−1

Im(A)

−[Re

(A)]−1

Im(A)

In

][C−1Re

(�b)

C−1Im(�b)] ,

donde In es la matriz identidad de tamaño n × n y la matriz

C = Re(A)

+ Im(A)[

Re(A)]−1

Im(A).

Ejemplo 1.12 Determine una solución del sistema de ecuaciones:(2 − i

)x1 +

(1 − i

)x2 = 3 − 6i(

3 + i)x1 +

(2 + 2i

)x2 = 7 + i.

(1.39)

Solución.Al expresar matricialmente (1.39), se llega a[

2 − i 1 − i3 + i 2 + 2i

] [x1

x2

]=

[3 − 6i7 + i

]. (1.40)

Como

A =

[2 − i 1 − i3 + i 2 + 2i

]=

[2 13 2

]+ i

[1 11 2

]= Re

(A)

+ i Im(A).

De manera análoga, el término independiente se puede expresar[3 − 6i7 + i

]=

[37

]+ i

[61

].

Page 84: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

68 1. Preliminares

Si x1 = a1 + ib1 y x2 = a2 + ib2, entonces (1.39) se puede reescribir como⎡⎢⎢⎣Re(A) ... −Im

(A)

. . . . . . .

Im(A) ... Re

(A)

⎤⎥⎥⎦⎡⎣Re

(�x)

. . .Im

(�x)⎤⎦ =

⎡⎣Re(�b)

. . .

Im(�b)⎤⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎣

2 1... 1 1

3 2... 1 2

. . . . . . . . . . . . .

1 1... 2 1

1 2... 3 2

⎤⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎣a1

a2

. . .b1

b2

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎣37

. . .61

⎤⎥⎥⎥⎥⎦ .

Para hallar C, se realizan los respectivos productos y se llega a

C =

[0 −210 12

]y det C = 20 �= 0.

Por otra parte, el determinante de Re(A)

= 1 �= 0. Luego, el sistematiene única solución y está dada por

⎡⎢⎢⎢⎢⎣a1

a2

. . .b1

b2

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

1 0... 3 4

0 1... 5 7

. . . . . . . . . . . . .

3 4... 1 0

5 7... 0 1

⎤⎥⎥⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎣5232

. . .723

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎣12

. . .21

⎤⎥⎥⎥⎥⎦ .

Por tanto, la solución del sistema lineal dado es

x1 = 1 − 2i y x2 = 2 + i.

Page 85: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 2

Vectores característicosy valores característicos

En una gran variedad de aplicaciones, dada una transformación linealT : V → V, resulta útil encontrar un vector �v en V tal que T�v y �v seanparalelos. Esto es, se busca un vector �v y un escalar λ tal que

T�v = λ�v (2.1)

tenga una solución �v �= �0. En este caso, λ se denomina valor caracterís-tico de T y �v se llama vector característico de T correspondiente al valorcaracterístico λ. Si dim(V) = n, el problema de determinar los respec-tivos valores característicos de T puede resolverse con la ayuda de losdeterminantes. Nótese que la ecuación (2.1) puede escribirse en la forma(

T − λIn)�v = �0,

donde In es la transformación identidad. Si denotamos Tλ = T − λIn,entonces λ es un valor característico si y solo si la ecuación

Tλ(�v) = �0 (2.2)

tiene una solución �v no nula, en cuyo caso Tλ no es invertible, pues unasolución no nula de (2.2) existe si y solo si la matriz de Tλ es singular.Si AT es una representación matricial de T , entonces AT − λIn es unarepresentación matricial para Tλ. Por esta razón, en este capítulo se estu-diarán algunas de las propiedades de los valores y vectores característicosde las matrices de tamaño n × n.

69

Page 86: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

70 2. Vectores característicos y valores característicos

2.1 Valores propios y vectores propios

Definición 2.1 Valor característico y vector característico

Un vector característico de una matriz A de tamaño n×n es un vector

�v diferente de cero, que cumple:

A�v = λ�v (2.3)

para algún escalar λ. El escalar λ es llamado valor característico de A

si existe una solución no trivial �v del sistema A�v = λ�v. También, �v se

denomina vector característico correspondiente a λ.

Nota 2.1 Los valores característicos se llaman también autovalores, va-

lores propios o eigenvalores, y los vectores característicos, autovectores,

vectores propios o eigenvectores.

Teorema 2.1 Sea �v un vector propio de una matriz A asociado al valor

propio λ. Sea α �= 0, entonces α�v también es un vector propio de A

correspondiente al valor propio λ.

Demostración.Se debe probar que α�v satisface (2.3). Utilizando el hecho de que

A�v = λ�v, se tiene que

A(α�v) = α(A�v) = α(λ�v) = λ(α�v),

lo cual completa la prueba.

Ejemplo 2.1 Verifique si los vectores �u t = (−1, 1) y �v t = (2, 1) son

vectores propios de la siguiente matriz:

A =

⎡⎢⎣1 2

5 4

⎤⎥⎦ .

Page 87: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 71

Solución.Se tiene que

A�u =

[1 25 4

] [11

]=

[11

]= −1

[11

]= −1�u.

A�v =

[1 25 4

] [21

]=

[414

]�= λ

[21

].

Así, �u es un vector propio correspondiente al valor propio λ = −1, pero �vno es un vector propio de A porque A�v no es un múltiplo de �v, es decir noexiste un escalar λ tal que 2λ = 4 y λ = 14 se verifiquen simultáneamente.

Ejemplo 2.2 Considere la matriz A dada en el Ejemplo 2.1, muestre que

6 es un valor propio de A y encuentre el vector propio correspondiente.

Solución.El escalar 6 es un valor propio de A si y solo si la ecuación

A�v = 6�v, (2.4)

tiene una solución no trivial. Pero (2.4) es equivalente a A�v − 6�v = �0, o(A − 6I

)�v = �0 (2.5)

Para resolver esta ecuación homogénea, se forma la matriz

A − 6I =

[1 25 4

]−

[6 00 6

]=

[5 25 2

].

Las columnas de A−6I son linealmente dependientes, es decir (2.4) tienesolución no trivial; luego, 6 es un valor propio de A. Para encontrar elvector propio correspondiente, se realizan operaciones por fila[

5 2 | 05 2 | 0

]∼

F2 +F1

[5 2 | 00 0 | 0

].

La solución general tiene la forma[152

]x. Según el Teorema 2.1, cada

vector de esta forma con x �= 0 es un vector propio correspondiente aλ = 6.

Page 88: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

72 2. Vectores característicos y valores característicos

Teorema 2.2 Sea A = [aij ] una matriz real de tamaño n × n e In la

matriz identidad de tamaño n× n, entonces la función pA(λ) es definida

por la ecuación

pA(λ) = det(A − λIn) =

n∑k= 0

trk(A)(−λ

)n− k, (2.6)

donde trk(A) denota la suma de los determinantes de las submatrices

principales de orden k,[tr0(A) = 1 y trn(A) = det(A)] , es un polinomio

en λ de grado n y el término independiente es pA(0) = det(A).

Demostración.Vamos a demostrar que pA(λ) es un polinomio de grado n únicamente

para el caso n ≤ 3. La demostración para el caso general puede hacersepor inducción.

Para n = 1, el determinante es el polinomio lineal pA(λ) = a11 − λ.Para n = 2, se tiene que

pA(λ) = det(A − λI2) =

∣∣∣∣a11 − λ a12

a21 a22 − λ

∣∣∣∣ = (a11 − λ)(a22 − λ) − a12a21

= λ2 − (a11 + a22)λ + (a11a22 − a12a21) = λ2 − tr1(A)λ + det(A).

Obsérvese que el polinomio obtenido es de segundo grado en λ. Paran = 3 tenemos

pA(λ) = det(A − λI3) =

∣∣∣∣∣∣a11 − λ a12 a13

a21 a22 − λ a23

a31 a32 a33 − λ

∣∣∣∣∣∣= (a11 − λ)(a22 − λ)(a33 − λ) + a12a23a31 + a13a21a32

− [a32a23(a11 − λ) + a13a31(a22 − λ) + a21a12(a33 − λ)]

= − λ3 + tr1(A)λ2 − ( 3∑i=1

Mii(A))λ + det(A),

donde Mii(A) denota el menor complementario (i, i) de A. Nótese que eneste caso se obtiene un polinomio de tercer grado, siendo el término demayor grado −λ3.

La afirmación pA(0) = det(A) resulta inmediata de la definición de pA.

Page 89: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 73

Teorema 2.3 Sea A una matriz real de tamaño n×n. Entonces λ es un

valor propio de A si y solo si

pA(λ) = det(A − λIn

)= 0. (2.7)

Demostración.Supóngase que λ es un valor propio de A. Entonces existe un elemento

�v �= �0 tal que A�v = λ�v, de donde A�v − λ�v = �0 o(A − λIn

)�v = �0. Por

lo tanto, A − λIn tiene un núcleo no nulo y A − λIn no es invertible, esdecir det

(A − λIn

)= 0.

Recíprocamente, supóngase que det(A − λIn

)= 0, es decir A − λIn

no es invertible. Entonces A − λIn debe tener un núcleo no nulo, lo quesignifica que existe un elemento �v �= �0 tal que

(A − λIn

)�v = �0. Por lo

tanto, A�v − λ�v = �0 o A�v = λ�v. Así, λ es un valor propio de A.

Definición 2.2 Ecuación y polinomio característico

La ecuación (2.6) se llama polinomio característico de A. La ecuación

(2.7) se llama ecuación característica de A.

Definición 2.3 Multiplicidad algebraica

Sea λk un valor propio de una matriz A de tamaño n×n. Entonces, la

multiplicidad algebraica de λk es el número de veces que λk aparece como

raíz del polinomio característico de A; es decir, es igual a su multiplicidad

como raíz de la ecuación característica.

Ejemplo 2.3 Encuentre el polinomio y la ecuación característica de

A =

⎡⎢⎢⎢⎢⎣4 1 6

2 1 6

2 1 8

⎤⎥⎥⎥⎥⎦ .

Page 90: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

74 2. Vectores característicos y valores característicos

Solución.Fórmese A − λI y calcúlese su determinante

det(A − λI) =

∣∣∣∣∣∣4 − λ 1 6

2 1 − λ 62 1 8 − λ

∣∣∣∣∣∣= (4 − λ)

∣∣∣∣1 − λ 61 8 − λ

∣∣∣∣− ( 1)

∣∣∣∣2 62 8 − λ

∣∣∣∣ + 6

∣∣∣∣2 1 − λ2 1

∣∣∣∣= (4 − λ)[(1 − λ)(8 − λ) + 6] + [2(8 − λ) − 12] + 6[−2 − 2(1 − λ)].

Simplificando el producto, se obtiene el polinomio característico

pA(λ) = −λ3 + 13λ2 − 40λ + 36.

Los resultados del Teorema 2.2 se cumplen, ya que la tr1(A) = 13,3∑

i=1Mii(A) = 40 y el det(A) = 36, y factorizando pA, se llega a

pA(λ) = −(λ − 2)2(λ − 9).

En este caso, la ecuación característica es

(λ − 2)2(λ − 9) = 0.

Nótese que el valor propio 2 tiene multiplicidad algebraica 2 pues (λ− 2)aparece dos veces como factor del polinomio característico.

Teorema 2.4 Sea A una matriz real de tamaño n×n con valores propios

distintos λ1, λ2, . . . , λm. Sea

Bk = {�v ∈ Cn : A�v = λk�v} para k = 1, 2, . . . , m, (2.8)

entonces para cada k, Bk = ker{A − λkI

}es un subespacio de Cn.

Demostración.Como A�0 = λk�0 para todo k, �0 ∈ Bk. Si λk no es un valor propio, no

existen vectores �v �= �0 excepto �0 que satisface A�v = λk�v. En este caso,Bk es el subespacio trivial.

Ahora supongamos que λk es un valor propio. Entonces existe un�v �= �0 tal que A�v = λk�v, en otras palabras (A − λkI)�v = �0. De estamanera, Bk = {�v ∈ Cn : (A − λkI)�v = �0} es el espacio solución delsistema homogéneo (A − λkI)�v = �0, el cual es un subespacio de Cn.

Page 91: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 75

Definición 2.4 Espacio propio

Sea λk un valor propio de A. El subespacio Bk se denomina espacio

propio de A correspondiente al valor propio λk.

Teorema 2.5 Sea A una matriz real de tamaño n × n. Entonces los

espacios propios correspondientes a valores propios distintos de A tienen

al vector nulo en común. Es decir, Bk ∩ Br ={�0}

si λk �= λr.

Demostración.Supongamos que existe un vector propio de A tal que �v ∈ Bk y �v ∈ Br,

entonces por (2.8) se tiene que

A�v = λk�v y A�v = λr�v.

Luego,

(λk − λr)�v = �0,

pero como λk �= λr, se concluye que �v = �0; por lo tanto, Bk ∩ Br ={�0}

y la prueba queda completa.

Teorema 2.6 Si �v1, . . . , �vm son vectores propios correspondientes a va-

lores propios distintos λ1, . . . , λm de una matriz A de tamaño n × n,

entonces el conjunto {�v1, . . . , �vm} es linealmente independiente.

Demostración.La demostración es por inducción sobre m. El resultado es tri-

vial cuando m = 1. Entonces supongamos que se ha demostrado paracualquier conjunto m = k de vectores propios. Sean �v1, . . . , �vk+1, k + 1vectores propios pertenecientes a valores propios distintos y supongamosque existen escalares ci tales que

k+1∑i=1

ci�vi = �0. (2.9)

Page 92: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

76 2. Vectores característicos y valores característicos

Si se multiplica por A a ambos lados de (2.9) y se utiliza el hecho de queA�vi = λi�vi, se obtiene

k+1∑i=1

ciλi�vi = �0. (2.10)

Al restar de (2.10) el producto de (2.9) por λk+1, se obtiene la ecuación

k∑i=1

ci(λi − λk+1)�vi = �0.

Como los vectores �v1, . . . , �vk son linealmente independientes por hipótesisde inducción, se debe tener que ci(λi−λk+1) = 0 para cada i = 1, 2, . . . , k.Además, como los valores propios son distintos, se tiene que λi �= λk+1

para i �= k + 1, así que ci = 0 para i = 1, 2, . . . , k, y de (2.9) se tieneque ck+1 es también 0. Por lo tanto, el conjunto de vectores propios�v1, . . . , �vk+1 es también linealmente independiente.

Teorema 2.7 Los vectores no nulos tomados de espacios propios distin-

tos son linealmente independientes. En otras palabras, los espacios pro-

pios B1,B2, . . . ,Bm (correspondientes a los valores propios λ1, λ2, . . . , λm

distintos) cumplen que

“Si �u1 + . . . + �um = �0 con �uk ∈ Bk entonces �u1 = . . . = �um = �0.”

Demostración.Supongamos que �u1 + . . . + �um = �0 con �uk ∈ Bk, esto es A�uk = λk�uk.

Si algunos �uk no fueran �0, ellos serían vectores propios de A, correspon-dientes a valores propios distintos, entonces el que la suma de ellos sea �0contradice el Teorema 2.6.

Definición 2.5 Multiplicidad geométrica

Sea λk un valor propio de una matriz A de tamaño n×n. Entonces la

multiplicidad geométrica de λk es el número máximo de vectores propios

de A linealmente independientes que tienen un valor propio igual a λk.

Es decir, es igual a la dimensión del espacio propio correspondiente a λk

(lo cual es la nulidad de la matriz A − λkI). En consecuencia,

Page 93: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 77

multiplicidad geométrica de λk = dim(Bk) = ν(A − λkIn

).

Nota 2.2 La multiplicidad geométrica de un valor propio nunca es cero.

Esto se establece de la Definición 2.1, la cual expresa que si λ es un valor

propio, entonces existe un vector propio no nulo correspondiente a λ.

A continuación, se presenta un procedimiento para calcular los valorespropios y vectores propios de una matriz A de tamaño n × n.

Determinación de valores propios y vectores propios

i) Encuentre pA(λ) = det(A − λI).

ii) Halle las raíces λ1, λ2, . . . , λm de pA(λ) = 0.

iii) Resuelva el sistema homogéneo (A − λkI)�v = �0, correspon-diente a cada valor propio λk.

Ejemplo 2.4 Encuentre los vectores propios y espacios propios asociados

a la matriz dada en el Ejemplo 2.3.

Solución.En el Ejemplo 2.3, se obtuvo que la ecuación característica era

(λ − 2)2(λ − 9) = 0.

De esta manera, los valores propios de A son λ1 = 9 y λ2 = 2 (conmultiplicidad algebraica 2).

Para λ1 = 9, se tiene

(A − 9I)�v =

⎡⎣ 5 1 62 8 62 1 1

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣000

⎤⎦ .

Para determinar el vector propio correspondiente, se realizan operacionespor filas⎡⎣ 5 1 6 | 0

2 8 6 | 02 1 1 | 0

⎤⎦ ∼F1↔

1

2F2

⎡⎣ 1 4 3 | 05 1 6 | 02 1 1 | 0

⎤⎦ ∼F2 + 5F1

F3 − 2F1

⎡⎣1 4 3 | 00 21 21 | 00 7 7 | 0

⎤⎦

Page 94: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

78 2. Vectores característicos y valores característicos

∼F2 + 3F3=F ′

2

F ′

2↔

1

7F3

⎡⎣1 4 3 | 00 1 1 | 00 0 0 | 0

⎤⎦ ∼F1 + 4F2

⎡⎣1 0 1 | 00 1 1 | 00 0 0 | 0

⎤⎦ .

La solución general corresponde a x = z, y = z, luego el vector propio

tiene la forma

⎡⎣111

⎤⎦ z. Cada vector de esta forma con z �= 0 es un vector

propio correspondiente a λ1 = 9. Por lo que B1 = gen

⎧⎨⎩⎡⎣1

11

⎤⎦⎫⎬⎭ .

Para λ2 = 2, se obtiene

(A − 2I)�v =

⎡⎣2 1 62 1 62 1 6

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣000

⎤⎦ .

Para encontrar el vector propio correspondiente, se realizan operacionespor filas ⎡⎣2 1 6 | 0

2 1 6 | 02 1 6 | 0

⎤⎦ ∼F2 −F1

F3 −F1

⎡⎣2 1 6 | 00 0 0 | 00 0 0 | 0

⎤⎦ .

La solución general corresponde a y = 2x + 6z, luego el vector propio tiene

la forma

⎡⎣120

⎤⎦x+

⎡⎣061

⎤⎦ z. Cada vector de esta forma con x, z �= 0 es un vec-

tor propio correspondiente a λ2 = 2. Por lo que B2 = gen

⎧⎨⎩⎡⎣1

20

⎤⎦ ,

⎡⎣061

⎤⎦⎫⎬⎭ .

Teorema 2.8 Sean λ1, λ2, . . . , λm valores propios distintos de la matriz

A. Si para cada k = 1, 2, . . . , m, Sk es un conjunto linealmente indepen-

diente de vectores propios de A correspondientes a λk, entonces:

S = S1 ∪ S2 ∪ . . . ∪ Sm

es todavía un conjunto de vectores linealmente independiente.

Page 95: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 79

Demostración.Sea Sk = {�xk1, . . . , �xkrk} un conjunto linealmente independiente de

vectores propios de la matriz A, correspondiente al valor propio λk (paracada k ∈ {1, 2, . . . , m}).

Para probar que S = S1 ∪S2 ∪ . . .∪Sm es linealmente independiente,consideremos una combinación lineal de los vectores en esa unión tal que(

a11�x11 + . . . + a1r1�x1r1

)︸ ︷︷ ︸+ . . .+(am1�xm1 + . . . + amrm�xmrm

)︸ ︷︷ ︸ = �0.

en B1 en BmPor el Teorema 2.7, se puede afirmar que cada suma entre paréntesis es�0. Como los vectores que participan en cada una de esas sumas son line-almente independientes, entonces se concluye que los coeficientes tienenque ser nulos, lo cual prueba que S es linealmente independiente.

La prueba del siguiente enunciado no es difícil si se explican algunosotros resultados. Su demostración se realiza en la siguiente sección.

Teorema 2.9 Si λk es un valor propio de una matriz real A de tamaño

n × n, con multiplicidad algebraica r, entonces:

1 ≤ multiplicidad geométrica de λk ≤ multiplicidad algebraica de λk.

Teorema 2.10 Sea A una matriz no singular de tamaño n × n, con

valores propios no nulos λ1, λ2, . . . , λn y vectores propios �v1, �v2, . . . , �vn.

La matriz inversa A−1 tiene:

i) Los valores propios de la forma 1/λ1, 1/λ2, . . . , 1/λn.

ii) Los mismos vectores propios de A.

Demostración.

i) Si los valores propios de A son diferentes de cero, entonces

pA(λ) = det(A − λIn

)= det

[A(In − λA−1

)]= detA det

[−λ

(A−1 − 1

λIn

)]

Page 96: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

80 2. Vectores característicos y valores característicos

pA(λ) =(−λ

)ndet(A) det

(A−1 − 1

λIn

)=

(−1)n

λn det(A)pA−1

(1

λ

).

Luego, se deduce que 1/λ es un valor propio de A−1 por cada valorλ de A.

ii) Si A�u = λ�u entonces premultiplicando por A−1, se tiene

A−1(A�u

)= A−1

(λ�u

)�u = λA−1�u puesto que λ �= 0.

1

λ�u = A−1�u,

por lo tanto, �u es también un vector propio de A−1.

2.1.1 Descomposición de Sylvester

En la siguiente sección se presenta una descomposición útil para matricescuadradas; esta importante descomposición fue dada por Sylvester.

Definición 2.6 Matriz de proyección espectral

Sea A una matriz real de tamaño n × n que no tiene valores propios

múltiples y sean �vk, �wk los vectores propios a derecha e izquierda de A, es

decir los vectores propios de A y At asociados al valor propio real λk. Se

define la matriz de proyección espectral correspondiente a cada λk como:

E(λk

)=

�vk �wtk

〈�wk, �vk〉 =�vk �wt

k

�wtk�vk

. (2.11)

Ejemplo 2.5 Encuentre las matrices de proyección espectral de la si-

guiente matriz:

A =

⎡⎢⎢⎢⎢⎣4 1 6

8 1 0

3 1 7

⎤⎥⎥⎥⎥⎦ .

Page 97: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 81

Solución.La ecuación característica asociada a la matriz A es

−λ3 + 12λ2 − 29λ + 18 = −(λ − 1

)(λ − 2

)(λ − 9

)= 0.

De esta manera, los valores propios de A son λ1 = 1, λ2 = 2 y λ3 = 9.

Para λ1 = 1, se tiene

(A − I)�v =

⎡⎣3 1 68 0 03 1 6

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣000

⎤⎦ .

Para determinar el vector propio correspondiente, se realizan operacionespor filas⎡⎣3 1 6 | 0

8 0 0 | 03 1 6 | 0

⎤⎦ ∼F3 −F1

F2↔ 1

8F2

⎡⎣3 1 6 | 01 0 0 | 00 0 0 | 0

⎤⎦ ∼F1 − 3F2

⎡⎣0 1 6 | 01 0 0 | 00 0 0 | 0

⎤⎦ .

La solución general corresponde a x = 0 y y = 6z, luego el vector propio

tiene la forma

⎡⎣061

⎤⎦ z. Cada vector de esta forma con z �= 0 es un vector

propio correspondiente a λ1 = 1. Por lo que B1 = gen

⎧⎨⎩⎡⎣0

61

⎤⎦⎫⎬⎭ .

Para λ2 = 2, se obtiene

(A − 2I)�v =

⎡⎣2 1 68 1 03 1 5

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣000

⎤⎦ .

Para encontrar el vector propio correspondiente, se realizan operacionespor filas ⎡⎣2 1 6 | 0

8 1 0 | 03 1 5 | 0

⎤⎦ ∼F3 −F1

F1 −F2

⎡⎣ 6 0 6 | 08 1 0 | 01 0 1 | 0

⎤⎦ .

La solución general corresponde a y = 8x y z = x, luego el vector propio

tiene la forma

⎡⎣181

⎤⎦x. Cada vector de esta forma con x �= 0 es un vector

propio correspondiente a λ2 = 2. Por lo que B2 = gen

⎧⎨⎩⎡⎣1

81

⎤⎦⎫⎬⎭ .

Page 98: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

82 2. Vectores característicos y valores característicos

Para λ3 = 9, se tiene

(A − 9I)�v =

⎡⎣ 5 1 68 8 03 1 2

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣000

⎤⎦ .

Para encontrar el vector propio correspondiente, se realizan operacionespor filas ⎡⎣ 5 1 6 | 0

8 8 0 | 03 1 2 | 0

⎤⎦ ∼F3 −F1

1

8F2

⎡⎣ 5 1 6 | 01 1 0 | 08 0 8 | 0

⎤⎦ .

La solución general corresponde a y = x, z = x, luego el vector propio

tiene la forma

⎡⎣111

⎤⎦x. Cada vector de esta forma con x �= 0 es un vector

propio correspondiente a λ3 = 9. Por lo que B3 = gen

⎧⎨⎩⎡⎣1

11

⎤⎦⎫⎬⎭ .

Las matrices A y At tienen los mismos valores propios y realizandoel mismo procedimiento descrito anteriormente, se tienen los siguientesvectores propios para la matriz At asociados a los valores propios λ1 =1, λ2 = 2 y λ3 = 9, respectivamente,

�w1 =

⎡⎣ 101

⎤⎦ , �w2 =

⎡⎣ 516

⎤⎦ y �w3 =

⎡⎣ 216

⎤⎦ .

Luego, las matrices de proyección espectral E(λk

)son

E(1) =

⎡⎣ 0 0 06 0 61 0 1

⎤⎦ , E(2) =1

7

⎡⎣ 5 1 640 8 485 1 6

⎤⎦ y E(9) =1

7

⎡⎣2 1 62 1 62 1 6

⎤⎦ .

El lector puede verificar que3∑

i=1E(λi)

= I3.

Teorema 2.11 Sea A una matriz real de tamaño n×n que no tiene valo-

res propios múltiples, entonces los vectores propios a derecha e izquierda

asociados a valores propios reales distintos de A son ortogonales.

Page 99: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 83

Demostración.Sean �vi y �wj los vectores propios a derecha e izquierda asociados a

valores propios reales distintos λi y λj , respectivamente. Para comprobarque �vi · �wj = 0, se calcula

λi(�vi · �wj

)=

(λi�vi

)t�wj

=(A�vi

)t�wj puesto que �vi es un vector propio de A

=(�vti At

)�wj = �vti

(At �wj

)reagrupando términos

= �vti(λj �wj

)ya que �wj es un vector propio de At

= λj�vti �wj = λj

(�vi · �wj

).

Luego (λi − λj)�vi · �wj = 0 y como λi − λj �= 0, entonces �vi · �wj = 0.

Teorema 2.12 Sea A una matriz real de tamaño n× n con valores pro-

pios reales distintos λ1, λ2, . . . , λn, entonces las matrices de proyección

espectral E(λk

)definidas en (2.11) satisfacen las siguientes propiedades:

a) E(λi)E(λj

)=

⎧⎪⎨⎪⎩ E(λi)

si i = j,

O si i �= j.b)

n∑k=1

E(λk

)= In,

c) CadaE(λk

)conmuta con A, es decir AE

(λk

)= E

(λk

)A.

Demostración.

a) Sean �vi y �wj los vectores propios a derecha e izquierda asociadosa valores propios reales distintos λi y λj , respectivamente. Por elTeorema 2.11 estos vectores son ortogonales, por lo tanto de ladefinición de E

(λk

)dada en (2.11), se tiene

E(λi)E(λj

)=

�vi �wti

�wti�vi

�vj �wtj

�wtj�vj

=�vi

�wti�vi

�wti�vj

�wtj

�wtj�vj

= O,

de manera análoga

E(λi)E(λi)

=�vi �w

ti

�wti�vi

�vi �wti

�wti�vi

= �vi�wti�vi

�wti�vi

�wti

�wti�vi

= E(λi).

Page 100: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

84 2. Vectores característicos y valores característicos

b) Queda como ejercicio para el lector.

c) Al premultiplicar por A cualquier matriz E(λk

), se obtiene

AE(λk

)= A�vk

�wtk

�vtk �wk= λk

�vk �wtk

�vtk �wk= λkE

(λk

), (2.12)

y al multiplicar por A cualquier matriz E(λk

), se llega a

E(λk

)A =

�vk�vtk �wk

(At �wk

)t= λk

�vk �wtk

�vtk �wk= λkE

(λk

). (2.13)

Luego, AE(λk

)= E

(λk

)A para k = 1, 2, . . . , n.

Teorema 2.13 Descomposición de Sylvester

Sea A una matriz real de tamaño n × n con valores propios reales

distintos λ1, λ2, . . . , λn, entonces A se puede escribir como

A =n∑

k=1

λkE(λk

), (2.14)

donde la matriz E(λk

)es dada en (2.11).

Demostración.Puesto que cada E

(λk

)conmuta con A, al sumar las expresiones

obtenidas en (2.12) y (2.13), se tiene

n∑k=1

AE(λk

)︸ ︷︷ ︸ =

n∑k=1

E(λk

)A︸ ︷︷ ︸ =

n∑k=1

λkE(λk

)

An∑

k=1

E(λk

)=

[n∑

k=1

E(λk

)]A =

n∑k=1

λkE(λk

),

empleando la propiedad b) del Teorema 2.12 se completa la prueba.

Page 101: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 85

En virtud del Teorema 2.13, se tiene que:

1. La descomposición de Sylvester de la matriz simétrica AtA es

AtA =

n∑i=1

λ2i ‖�vi‖2 �wi �w

ti(

�wti�vi

)2 +

m∑i=1

m∑j > i

λiλj‖�vi‖ ‖�vj‖ �wi �w

tj(

�wti�vi

)(�wtj�vj

) cos θij ,

donde θij = �(�vi, �vj).

2. La descomposición de Sylvester de la matriz simétrica AAt es

AAt =n∑

i=1

λ2i ‖�wi‖2 �vi�v

ti(

�vti �wi)2 +

m∑i=1

m∑j > i

λiλj‖�wi‖ ‖�wj‖�vi�v

tj(

�vti �wi)(

�vtj �wj) cos ϕij ,

donde ϕij = �(�wi, �wj).

Ejemplo 2.6 Encuentre la descomposición de Sylvester para la matriz

dada en el Ejemplo 2.5.

Solución.En el Ejemplo 2.5 se obtuvo que los valores propios de A eran λ1 = 1,

λ2 = 2 y λ3 = 9, y las matrices E(λk

)fueron

E(1) =

⎡⎣ 0 0 06 0 61 0 1

⎤⎦ , E(2) =1

7

⎡⎣ 5 1 640 8 485 1 6

⎤⎦ y E(9) =1

7

⎡⎣2 1 62 1 62 1 6

⎤⎦ .

El lector puede verificar que A =3∑

i=1λiE

(λi).

Corolario 2.13.1 Si A es una matriz real de tamaño n × n con valores

propios reales λk de multiplicidad algebraica rk y multiplicidad geométrica

igual a rk, entonces A se puede escribir como

A =∑k

λkE∗(λk), (2.15)

donde las matrices E∗(λk) vienen dadas por:

E∗(λk) = P(λk

){[P ∗(λk)]tP (

λk)}−1[

P ∗(λk)]t, (2.16)

Page 102: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

86 2. Vectores característicos y valores característicos

con P(λk

)= [�vk1 �vk2 . . . �vkr] y P ∗(λk) = [�wk1 �wk2 . . . �wkr] matri-

ces de tamaño n × rk cuyas respectivas columnas son los vectores propios

de A y At asociados a λk.

Demostración.Queda como ejercicio para el lector.

Ejemplo 2.7 Encuentre la descomposición de Sylvester para la matriz

dada en el Ejemplo 2.3.

Solución.En el Ejemplo 2.4, se obtuvo que los valores propios asociados a la

matriz A eran λ1 = 9 y λ2 = λ3 = 2, y los respectivos vectores propiosde A eran

�v1 =

⎡⎣111

⎤⎦ , �v2 =

⎡⎣120

⎤⎦ y �v3 =

⎡⎣061

⎤⎦ .

Por otra parte, los vectores propios de At son

�w1 =

⎡⎣ 216

⎤⎦ , �w2 =

⎡⎣ 110

⎤⎦ y �w3 =

⎡⎣ 011

⎤⎦ .

Luego la matriz P(2)

=[�v2 �v3

]y P ∗(2) =

[�w2 �w3

], por lo tanto

[P ∗(2)]tP (

2)

= −[1 62 5

],

{[P ∗(2)]tP (

2)}−1

=1

7

[5 62 1

],

entonces

E(9) =1

7

⎡⎣2 1 62 1 62 1 6

⎤⎦ , E∗(2) =1

7

⎡⎣ 5 1 62 8 62 1 1

⎤⎦ .

El lector puede verificar que

E(9) + E∗(2) = I3 y 9E(9) + 2E∗(2) = A.

Page 103: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.1. Valores propios y vectores propios 87

Ejercicios 2.1

1. Para cada una de las siguientes matrices:

a.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . b.

⎡⎢⎣1 1

3 1

⎤⎥⎦ . c.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . d.

⎡⎢⎣1 2

4 3

⎤⎥⎦ .

e.

⎡⎢⎢⎢⎢⎣2 2 1

1 3 1

1 2 2

⎤⎥⎥⎥⎥⎦ . f.

⎡⎢⎢⎢⎢⎣3 1 4

4 1 5

5 3 2

⎤⎥⎥⎥⎥⎦ . g.

⎡⎢⎢⎢⎢⎣3 1 1

2 2 1

2 2 0

⎤⎥⎥⎥⎥⎦ . h.

⎡⎢⎢⎢⎢⎣1 3 2

3 1 2

1 1 1

⎤⎥⎥⎥⎥⎦ .

i) Calcule los valores propios y los espacios propios.

ii) Determine las respectivas proyecciones espectrales.

iii) Encuentre la correspondiente descomposición de Sylvester.

2. Sea la matriz A =

⎡⎢⎣1 k

1 1

⎤⎥⎦, con k una constante arbitraria. ¿Para

qué valores de k la matriz A tiene dos valores propios reales distin-

tos?

3. Si A es una matriz diagonal de tamaño n × n, muestre que sus

valores propios son las entradas de su diagonal.

4. Si A es una matriz triangular de tamaño n × n, muestre que sus

valores propios son las entradas de su diagonal principal.

5. Si A es una matriz real de tamaño n× n, muestre que es invertible

si y solo si el número 0 no es un valor propio de A.

6. Si A es una matriz real de tamaño n × n con la propiedad de que

la suma de los elementos de sus filas es siempre igual a un número

s, muestre que s es un valor propio de A.

Page 104: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

88 2. Vectores característicos y valores característicos

7. Sea A una matriz de tamaño n × n y λ1, λ2, . . . , λn sus valores

propios, demuestre que:

a) La matriz At tiene los mismos valores propios.

b) La matriz kA tiene valores propios kλ1, kλ2, . . . , kλn.

c) La matriz Ak (donde k es un entero positivo) tiene valores

propios λk1, λk2, . . . , λ

kn.

2.2 Matrices semejantes y diagonalización

En la sección anterior se desarrolló parte de la terminología y de laspropiedades de los valores propios y vectores propios. En este apartadocontinuaremos estudiando los valores propios, debido a que estos númerosson cruciales en muchas consideraciones, incluyendo las representacionesde matrices en ciertas formas que permiten trabajar la solución de pro-blemas de manera más fácil.

Definición 2.7 Matrices congruentes

Dos matrices reales A y B de tamaño n×n son congruentes si existe

una matriz P no singular de componentes reales de tamaño n×n tal que

A = P tBP. (2.17)

Ejemplo 2.8 Determine si las siguientes matrices son congruentes:

A =

⎡⎢⎣1 4

4 1

⎤⎥⎦ y B =

⎡⎢⎣1 1

1 14

⎤⎥⎦ .

Page 105: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.2. Matrices semejantes y diagonalización 89

Solución.Veamos si existe una matriz P tal que B = P tAP. En particular, P

puede ser una matriz triangular superior o en otras palabras,[1 11 14

]=

[a b0 d

]t [1 44 1

] [a b0 d

]=

[a2 a

(b + 4d

)a(b + 4d

)b2 + 8bd + d2

].

En consecuencia,

a2 = 1, a(b + 4d) = 1 y b2 + 8bd + d2 = − 14.

Si se despeja b de la segunda ecuación y se reemplaza en la tercera, setiene que (

1

a− 4d

)2

+8d

(1

a− 4d

)+ d2 =

1

a2− 15d2

1 − 15d2 = −14.

Luego d2 = 1, por lo tanto la matriz P puede ser[1 30 1

[1 50 1

[1 50 1

].

Teorema 2.14 Dos matrices reales A y B de tamaño n×n son congru-

entes si y solo si tienen el mismo rango.

Demostración.Como A y B son matrices congruentes de tamaño n × n, existe una

matriz no singular P tal que B = P tAP , entonces:

ρ(B) = ρ[(

P tA)P]

= ρ(P tA

)puesto que P es no singular,

= ρ(A)

por ser P t también no singular.

Aquí se utilizó la propiedad (x) dada en el Teorema 1.37.

Teorema 2.15 La congruencia de matrices de tamaño n× n cumple las

propiedades de relación de equivalencia, es decir es

Page 106: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

90 2. Vectores característicos y valores característicos

a) Reflexiva: A es congruente a A.

b) Simétrica: si A es congruente a B, entonces B es congruente a A.

c) Transitiva: si A es congruente a B y B es congruente a C, entonces

A es congruente a C.

Demostración.Queda como ejercicio para el lector.

Para las matrices cuadradas, además del concepto de congruencia, setiene otro de mayor utilidad o generalidad: el de similaridad.

Definición 2.8 Matrices semejantes

Una matriz A de tamaño n×n es semejante (o similar) a una matriz

B de tamaño n × n si existe una matriz no singular P de tamaño n × n

tal que

B = P−1AP. (2.18)

De manera análoga, se dice que A y B son semejantes si y solo si existe

una matriz no singular P tal que

PB = AP. (2.19)

Ejemplo 2.9 Determine si A y B son semejantes, dado que

A =

⎡⎢⎣ 1 0

1 2

⎤⎥⎦ , B =

⎡⎢⎣ 3 5

2 4

⎤⎥⎦ y P =

⎡⎢⎣ 1 1

1 2

⎤⎥⎦ .

Solución.Se realizan los productos AP y PB:

AP =

[1 01 2

] [1 11 2

]=

[1 11 3

].

PB =

[1 11 2

] [3 52 4

]=

[1 11 3

].

Page 107: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.2. Matrices semejantes y diagonalización 91

Así, AP = PB. Como det(P ) = 1 �= 0, entonces P es no singular. Y porla ecuación (2.19), se tiene que A y B son semejantes.

Teorema 2.16 Las matrices semejantes tienen el mismo polinomio ca-

racterístico y, por tanto, los mismos valores propios.

Demostración.Como A y B son matrices semejantes de tamaño n×n, B = P−1AP.

Entonces

B − λI = P−1AP − λP−1P = P−1[AP − λP ] = P−1[A − λI]P.

Por consiguiente,

det(B − λI) = det[P−1(A − λI)P

]= det

(P−1

)det(A − λI) det(P )

= det(P−1

)det(P ) det(A − λI) = det(A − λI).

Esto significa que A y B tienen la misma ecuación característica, y comolos valores propios son raíces de la ecuación característica, entonces tienentambién los mismos valores propios.

Ejemplo 2.10 Para las matrices A y B dadas en el Ejemplo 2.9, muestre

que tienen el mismo polinomio característico.

Solución.Tenemos que

det(A − λI) =

∣∣∣∣ 1 − λ 01 2 − λ

∣∣∣∣ = λ2 − λ − 2,

y

det(B − λI) =

∣∣∣∣ 3 − λ 52 4 − λ

∣∣∣∣ = λ2 − λ − 2.

Como det(A − λI) = det(B − λI), las matrices A y B tienen el mismopolinomio característico, y por lo tanto los mismos valores propios.

Teorema 2.17 La semejanza de matrices de tamaño n × n cumple las

propiedades de relación de equivalencia, es decir es

Page 108: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

92 2. Vectores característicos y valores característicos

a) Reflexiva: A es semejante a A.

b) Simétrica: si A es semejante a B, entonces B es semejante a A.

c) Transitiva: si A es semejante a B y B es semejante a C, entonces

A es semejante a C.

Demostración.Queda como ejercicio para el lector.

Teorema 2.18 Si B es una matriz semejante a A con B = P−1AP ,

entonces �v es un vector propio de A asociado con el valor propio λ si y

solo si P−1�v es un vector propio de B asociado con el valor propio λ.

Demostración.Si �v es un vector propio de A, se tiene que

A�v = λ�v(PBP−1

)�v = λ�v puesto que B es semejante a A,

B(P−1�v

)= λP−1�v puesto que P es no singular,

lo cual completa la prueba.

Ejemplo 2.11 Para cada una de las matrices A y B dadas en el Ejem-

plo 2.9, determine sus vectores propios.

Solución.Para la matriz A, se tiene que los valores propios son λ1 = −1 y λ2 = 2

y sus correspondientes vectores propios son[

31

]y[01

], respectivamente.

Para la matriz B, se tiene que los valores propios son λ1 = −1 y λ2 = 2

y sus correspondientes vectores propios son[

52

]y[11

], respectivamente.

El lector puede verificar que los vectores propios de B son iguales alos vectores propios de A premultiplicados por la inversa de la matriz Pdada en el Ejemplo 2.9.

Page 109: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.2. Matrices semejantes y diagonalización 93

Con lo que se ha estudiado hasta ahora en esta sección, se puedepresentar una demostración del Teorema 2.9.

Demostración. Teorema 2.9Sea Bk = {�v1, �v2, . . . , �vm} base del espacio propio correspondiente al

valor propio λk, donde m es la multiplicidad geométrica de λk. Se extiendeBk hasta completar una base de Rn, digamos

B = {�v1, �v2, . . . , �vm, �vm+1, �vm+2, . . . , �vn}.

En esta base, la matriz A está particionada como

[A]B =

[λkIm A12

0 A22

].

Luego A y [A]B son matrices semejantes, es decir tienen el mismo poli-nomio característico y los mismos valores propios con idénticas multipli-cidades algebraicas. Así que el polinomio característico de A es

pA(λ) = p[A]B (λ) = (λk − λ)mpD(λ),

por lo tanto λk aparece como raíz de pA(λ) por lo menos m veces y, porconsiguiente, la multiplicidad algebraica de λk es mayor o igual a m.

Definición 2.9 Matriz diagonalizable

Una matriz A de tamaño n× n es diagonalizable si existe una matriz

diagonal D tal que A es semejante a D.

Este resultado es muy importante ya que las matrices diagonales poseenmuchas propiedades que permiten trabajar fácilmente con ellas, véase elTeorema 1.14.

Teorema 2.19 Una matriz A de tamaño n×n es diagonalizable si y solo

si A tiene n vectores propios linealmente independientes. En tal caso, si

A = PDP−1 donde D es diagonal, entonces los elementos de la diagonal

de D son los valores propios de A y las columnas de P son los vectores

propios correspondientes.

Page 110: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

94 2. Vectores característicos y valores característicos

Demostración.Primero se supone que A es diagonalizable. Entonces existe una matriz

no singular P tal que P−1AP = D es diagonal. Sean λ1, λ2, . . . , λn loselementos de la diagonal principal de D y sean �v1, �v2, . . . , �vn los vectorescolumna de la matriz P , entonces

PD =[�v1 �v2 . . . �vn

]⎡⎢⎢⎢⎣

λ1 0 . . . 00 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦=

[λ1�v1 λ2�v2 . . . λn�vn

].

Pero como AP =[A�v1 A�v2 . . . A�vn

]y por otra parte P−1AP = D,

se tiene que AP = PD, lo cual implica[A�v1 A�v2 . . . A�vn

]=

[λ1�v1 λ2�v2 . . . λn�vn

].

En otras palabras, A�vi = λi�vi para todo vector columna �vi. Esto significaque los vectores columna �vi de P son vectores propios de A. Además,como P es una matriz no singular, entonces sus vectores columna sonlinealmente independientes. Así, A tiene n vectores propios linealmenteindependientes.

Recíprocamente, suponga que A tiene n vectores propios linealmenteindependientes �v1, �v2, . . . , �vn con valores propios asociados λ1, λ2, . . . , λn.Sea P la matriz cuyas columnas son estos n vectores propios, es decir,P = [�v1 �v2 . . . �vn]. Como todo �vi es un vector propio de A, entoncesse tiene que A�vi = λi�vi y

AP = A[�v1 �v2 . . . �vn

]=

[λ1�v1 λ2�v2 . . . λn�vn

].

Nótese que la matriz del lado derecho de esta ecuación puede escribirsecomo el siguiente producto de matrices

AP =[�v1 �v2 . . . �vn

]⎡⎢⎢⎢⎣

λ1 0 . . . 00 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦ = PD.

Por último, como los vectores �v1, �v2, . . . , �vn son linealmente independien-tes, entonces P es no singular y se puede escribir la ecuación AP = PDcomo P−1AP = D, lo cual significa que A es diagonalizable.

Page 111: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.2. Matrices semejantes y diagonalización 95

Corolario 2.19.1 Si una matriz A de tamaño n × n tiene n valores

propios distintos, entonces A es diagonalizable.

Demostración.Sean �v1, �v2, . . . , �vn los vectores propios correspondientes a los n valores

propios distintos de la matriz A. Entonces por el Teorema 2.6, se tieneque el conjunto {�v1, �v2, . . . , �vn} es linealmente independiente. Luego porel Teorema 2.19, A es diagonalizable.

A continuación, se presenta un procedimiento para diagonalizar una ma-triz A de tamaño n × n.

Procedimiento para diagonalizar una matriz cuadrada

Sea A una matriz real de tamaño n × n.

i) Determine n vectores propios �v1, �v2, . . . , �vn de A, con valorespropios correspondientes λ1, λ2, . . . , λn. Si no existen n vectorespropios linealmente independientes, entonces A no es diagona-lizable.

ii) Obtenga P como la matriz cuyas columnas son los vectores pro-pios obtenidos en el paso i. Es decir,

P =[�v1 �v2 . . . �vn

].

iii) La matriz diagonal D = P−1AP tendrá los valores propiosλ1, λ2, . . . , λn en su diagonal principal (y ceros en el resto). Laubicación de los vectores propios en la matriz P determina laposición en que aparecen los valores propios sobre la diagonalde D.

Ejemplo 2.12 Determine si la matriz dada a continuación es diagona-

lizable:

A =

⎡⎢⎢⎢⎢⎣3 2 3

3 4 9

1 2 5

⎤⎥⎥⎥⎥⎦ .

Page 112: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

96 2. Vectores característicos y valores característicos

Solución.La ecuación característica asociada a la matriz A es

−λ3 + 4λ2 − 4λ = −λ(λ − 2)2 = 0.

Luego, los valores propios son λ1 = 0 y λ2 = 2 (de multiplicidad alge-

braica 2). El vector propio correspondiente a λ1 = 0 es �v1 =

⎡⎣ 131

⎤⎦ y los

correspondientes a λ2 = 2 son �v2 =

⎡⎣ 210

⎤⎦ y �v3 =

⎡⎣301

⎤⎦ . Entonces

P =

⎡⎣ 1 2 33 1 01 0 1

⎤⎦ y P−1 =1

2

⎡⎣ 1 2 33 4 91 2 5

⎤⎦ ,

luego

P−1AP =1

2

⎡⎣ 1 2 33 4 91 2 5

⎤⎦⎡⎣ 3 2 33 4 91 2 5

⎤⎦⎡⎣ 1 2 33 1 01 0 1

⎤⎦=

1

2

⎡⎣ 1 2 33 4 91 2 5

⎤⎦⎡⎣0 4 60 2 00 0 2

⎤⎦ =1

2

⎡⎣0 0 00 4 00 0 4

⎤⎦ .

Por lo tanto, A es diagonalizable.

Ejemplo 2.13 Una matriz no diagonalizable

Determine si la siguiente matriz es diagonalizable:

A =

⎡⎢⎣3 2

8 5

⎤⎥⎦ .

Solución.La ecuación característica de A es λ2 + 2λ + 1 = (λ + 1)2 = 0, luego

λ = −1 es un valor propio de multiplicidad algebraica 2. Entonces,

(A − λI)�v = (A + I)�v =

[4 28 4

] [v1

v2

]=

[00

].

Page 113: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.2. Matrices semejantes y diagonalización 97

Esto lleva al vector propio �v1 =

[12

]. Por lo tanto, A no contiene dos

vectores propios linealmente independientes, entonces se concluye que lamatriz A no es diagonalizable.

Teorema 2.20 Sean λ1, λ2, . . . , λn valores propios distintos de una ma-

triz A de tamaño n × n, entonces:

tr1(A) =n∑

i=1

λi y det(A) =n∏

i=1

λi.

Demostración.Como A es diagonalizable, entonces A = PDP−1, luego

tr1(A) = tr1[P (DP−1)] = tr1[(DP−1)P ] = tr1(D) =n∑

i=1

λi.

Por otra parte,

det(A) = |A| = |P (DP−1)| = |P ||DP−1| = |D||P−1||P | = |D| =n∏

i=1

λi.

Ejercicios 2.2

1. Para las siguientes matrices, determine (en caso de ser posible) una

matriz P no singular tal que P−1AP sea diagonal

a.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . b.

⎡⎢⎣1 1

3 1

⎤⎥⎦ . c.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . d.

⎡⎢⎣1 2

4 3

⎤⎥⎦ .

e.

⎡⎢⎢⎢⎢⎣2 2 1

1 3 1

1 2 2

⎤⎥⎥⎥⎥⎦ . f.

⎡⎢⎢⎢⎢⎣3 1 4

4 1 5

5 3 2

⎤⎥⎥⎥⎥⎦ . g.

⎡⎢⎢⎢⎢⎣3 1 1

2 2 1

2 2 0

⎤⎥⎥⎥⎥⎦ . h.

⎡⎢⎢⎢⎢⎣1 3 2

3 1 2

1 1 1

⎤⎥⎥⎥⎥⎦ .

Page 114: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

98 2. Vectores característicos y valores característicos

2. Muestre que las trazas de matrices semejantes son iguales.

3. Si A y B son semejantes, demuestre que tienen el mismo determi-

nante.

4. Sean A una matriz diagonalizable de tamaño n×n y P una matriz

no singular de tamaño n × n tales que B = P−1AP sea la forma

diagonal de A. Pruebe que

a) Bk = P−1AkP , donde k es un entero positivo.

b) Ak = PBkP−1, donde k es un entero positivo.

5. Sea A =

⎡⎢⎣a b

c d

⎤⎥⎦ . Con elementos reales, demuestre que A es diago-

nalizable si −4bc < (a− d)2 y no diagonalizable si −4bc > (a− d)2.

2.3 Valores propios complejos

Puesto que la ecuación característica de una matriz real de tamaño n×n esun polinomio de grado n, por el Teorema Fundamental del Álgebra se sabeque cualquier polinomio de grado n con coeficientes reales (o complejos)tiene exactamente n raíces (contando multiplicidades). En las seccionesanteriores, desarrollamos la teoría para valores propios y vectores propiosreales. En esta sección estudiaremos los valores propios y vectores propioscomplejos.

Definición 2.10 Sea A una matriz real de tamaño n × n. El número

complejo λ es un valor propio de A si existe un vector no nulo �v ∈ Cn tal

que

A�v = λ�v. (2.20)

Page 115: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.3. Valores propios complejos 99

Todo vector �v no nulo que satisfaga (2.20) es un vector propio de A

asociado al valor propio λ.

Ejemplo 2.14 Sea A =

⎡⎢⎣1 1

2 1

⎤⎥⎦ . Determine los valores propios y vec-

tores propios de A.

Solución.Primero se calcula el determinante de la matriz A − λI:

det(A − λI) =

∣∣∣∣1 − λ 12 1 − λ

∣∣∣∣= (1 − λ)2 + 2 =

[(1 − λ) + i

√2][

(1 − λ) − i√

2].

De esta manera, los valores propios de A son los complejos, a saber

λ1 = 1 + i√

2 y λ2 = 1 − i√

2.

Para λ1 = 1 + i√

2, se tiene

[A − (

1 + i√

2)I]�v =

[i√

2 1

2 i√

2

] [xy

]=

[00

].

Para encontrar el vector propio correspondiente, se realizan operacionespor filas:[

i√

2 1 | 0

2 i√

2 | 0

]∼

i√

2F1

[2 i

√2 | 0

2 i√

2 | 0

]∼

F2 −F1

[2 i

√2 | 0

0 0 | 0

].

La solución general corresponde a 2x = i√

2y, luego el vector propio

tiene la forma[

1

i√

2

]x. Cada vector de esta forma con x �= 0 es un vector

propio correspondiente a λ1 = 1 + i√

2. Por lo tanto B1 = gen

{[1

i√

2

]}.

Para λ2 = 1 − i√

2, se tiene

[A − (

1 − i√

2)I]�v =

[i√

2 1

2 i√

2

] [xy

]=

[00

].

Page 116: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

100 2. Vectores característicos y valores característicos

Para encontrar el vector propio correspondiente, se realizan operacionespor filas[

i√

2 1 | 0

2 i√

2 | 0

]∼

−i√2F1

[2 i

√2 | 0

2 i√

2 | 0

]∼

F2 −F1

[2 i

√2 | 0

0 0 | 0

].

La solución general corresponde a 2x = −i√

2y, luego el vector propio

tiene la forma[

1

i√

2

]x. Cada vector de esta forma con x �= 0 es un vector

propio correspondiente a λ2 = 1− i√

2. Por lo tanto, B2 = gen

{[1

i√

2

]}.

Teorema 2.21 Sea A una matriz real de tamaño n × n, entonces:

i) Los valores propios de A cuando son complejos ocurren en pares

conjugados.

ii) Los vectores propios correspondientes a valores propios complejos,

son conjugados complejos entre sí.

Demostración.

i) Si A es una matriz real de tamaño n×n, su polinomio característicose puede reescribir como

pA(λ) = det(A − λIn) = cnλn + cn− 1λ

n− 1 + . . . + c1λ + c0,

donde cada ci ∈ R. Por lo tanto,

pA(λ) = det(A − λIn) = det(A − λIn

)= det

(A − λIn

)= pA

(λ).

Si λ0 es una raíz de pA(λ), entonces

pA(λ0) = pA(λ0

)= 0.

En consecuencia, λ0 es también un valor propio de A.

ii) Si λ es un valor propio complejo de A con un vector propio corres-pondiente �u ∈ Cn, entonces en virtud del Teorema 1.42, se tiene

A�u = λ�u

A�u = λ�u

A �u = λ �u.

Page 117: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.3. Valores propios complejos 101

Luego, �u es también vector propio de A, pero asociado al valorpropio λ.

Ejemplo 2.15 Considere la matriz A del Ejemplo 2.14 y aplique el Teo-

rema 2.21.

Solución.Para la matriz A cuyas componentes son reales, se obtuvo un valor

propio λ1 = 1 + i√

2 con vector propio asociado �u1 =

[1

i√

2

], y para el

otro valor propio λ2 = 1 − i√

2, un vector propio asociado �u2 =

[1

i√

2

].

Claramente, se nota que λ2 = λ1 y que �u2 = �u1.

Teorema 2.22 Sea A una matriz real de tamaño 2 × 2 con un valor

propio complejo λ = a + bi (b �= 0) y vector propio correspondiente

�u ∈ C2. Entonces

ARe(�u) = aRe(�u) − bIm(�u)

AIm(�u) = bRe(�u) + aIm(�u),(2.21)

además, Re(�u) y Im(�u) son vectores linealmente independientes.

Demostración.Sea �u ∈ C2 un vector propio de A, por lo tanto

A�u = λ�u

A[Re(�u) + i Im(�u)

]= (a + bi)

[Re(�u) + i Im(�u)

]ARe(�u) + iAIm(�u) =

[aRe(�u) − bIm(�u)

]+ i

[bRe(�u) + aIm(�u)

].

Al igualar las partes real e imaginaria, se llega al sistema de ecuacio-nes (2.21).

Además, por la Definición 2.1 se tiene que �u es no nulo, luego siIm(�u) = �0, entonces Re(�u) �= �0, y de la segunda ecuación de (2.21), setiene que b Re(�u) = �0, es decir b = 0, lo cual contradice la suposición deque b �= 0, por lo tanto Im(�u) �= �0.

Page 118: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

102 2. Vectores característicos y valores característicos

Veamos ahora que Re(�u) y Im(�u) son vectores linealmente indepen-dientes (por contradicción). Supongamos que Re(�u) = α Im(�u), si sereemplaza en (2.21), se tiene que

A α Im(�u) = a α Im(�u) − b Im(�u)

A Im(�u) = b α Im(�u) + a Im(�u).

Si se resuelve dicho sistema de ecuaciones, se obtiene que(α2 + 1

)b Im

(�u)

= �0.

Como b �= 0 y Im(�u) �= �0, entonces α = ±i, luego Re

(�u) ∈ C2, lo cual es

contradictorio ya que Re(�u)

y Im(�u) ∈ R2.

El corolario que se enuncia a continuación muestra que una matrizcon componentes reales cuyos valores propios son complejos no es diago-nalizable.

Corolario 2.22.1 Sea A una matriz real de tamaño 2 × 2 con un valor

propio complejo λ = a + bi (b �= 0) y vector propio asociado �u ∈ C2,

entonces:

A = PRP−1, (2.22)

donde

P =

[Re

(�u)

Im(�u)]

y R =

⎡⎢⎣ a b

b a

⎤⎥⎦ . (2.23)

Demostración.Expresando el sistema de ecuaciones propuesto en (2.21) en forma

matricial, se tiene que

A[Re

(�u)

Im(�u)]

=[Re

(�u)

Im(�u)] [ a b

b a

],

es decir, AP = PR. Pero en el Teorema 2.22, se demostró queRe(�u) y Im(�u) eran vectores linealmente independientes, luego P es nosingular. Por lo tanto,

A = PRP−1.

Page 119: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.3. Valores propios complejos 103

Ejemplo 2.16 Expresar de la forma PRP−1 la matriz:

A =

⎡⎢⎣ 1 1

2 1

⎤⎥⎦ .

Solución.En el Ejemplo 2.14, se encontraron los dos valores propios λ1 = 1 +

i√

2 y λ2 = 1 − i√

2, y los respectivos vectores propios �v1 =

[1

i√

2

]y

�v2 =

[1

i√

2

]. Estableciendo:

P =

[1 0

0√

2

]y R =

[1

√2√

2 1

],

el lector puede verificar fácilmente que A = PRP−1.

Ejemplo 2.17 Encuentre las matrices P y R, de tal manera que se pueda

expresar la siguiente matriz A como PRP−1 :

A =

⎡⎢⎢⎢⎢⎣29 9 31

20 70 5

66 164 51

⎤⎥⎥⎥⎥⎦ .

Solución.La ecuación característica de A está dada por

det(A − λI

)= − λ3 + 150λ2 − 8125λ + 312500

= − (λ − 100)(λ − 25 + 50 i)(λ − 25 − 50 i) = 0.

Por lo tanto, los valores propios son λ1 = 100, λ2 = 25 − 50 i y λ3 = λ2.Para λ1 = 100, se resuelve (A−λ1I)�v = �0 y se obtiene el vector propio

asociado �v1 =

⎡⎣ 112

⎤⎦ . Para λ2 = 25 − 50 i, se resuelve (A − λ2I)�v = �0 y

se obtiene el vector propio complejo asociado �v2 =

⎡⎣ 115

⎤⎦ +

⎡⎣ 302

⎤⎦ i.

Page 120: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

104 2. Vectores característicos y valores característicos

Por consiguiente, estableciendo

P =

⎡⎣ 1 3 11 0 15 2 2

⎤⎦ y R =

⎡⎣25 50 050 25 00 0 100

⎤⎦se obtiene

PRP−1 =1

25

⎡⎣ 1 3 11 0 15 2 2

⎤⎦⎡⎣25 50 050 25 00 0 100

⎤⎦⎡⎣ 2 8 37 3 22 17 3

⎤⎦=

1

25

⎡⎣ 1 3 11 0 15 2 2

⎤⎦⎡⎣ 300 50 175275 475 100200 1700 300

⎤⎦=

1

25

⎡⎣ 725 225 775500 1750 1251650 4100 1275

⎤⎦ =

⎡⎣29 9 3120 70 566 164 51

⎤⎦ .

En este ejemplo se ilustra la manera de expresar A como PRP−1 cuandosus valores propios no son todos complejos.

Ejercicios 2.3

1. Exprese cada una de las matrices dadas como PRP−1

a.

⎡⎢⎣ 1 2

1 3

⎤⎥⎦ . b.

⎡⎢⎣1 1

3 1

⎤⎥⎦ . c.

⎡⎢⎣ 1 3

1 1

⎤⎥⎦ .

d.

⎡⎢⎣a b

b a

⎤⎥⎦ . e.

⎡⎢⎢⎢⎢⎣2 2 3

3 0 3

4 1 5

⎤⎥⎥⎥⎥⎦ . f.

⎡⎢⎢⎢⎢⎣5 2 4

3 0 3

3 1 2

⎤⎥⎥⎥⎥⎦ .

2. Suponga que A es una matriz real de tamaño 3× 3 tal que det A =

50, tr1(A) = 8 y un valor propio es 2. Encuentre los valores propios.

3. Sea A una matriz real de tamaño n× n y sea �x ∈ Cn. Muestre que

Re(A�x) = ARe(�x) y Im(A�x) = AIm(�x).

Page 121: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.4. Diagonalización de matrices simétricas 105

2.4 Diagonalización de matrices simétricas

Como se vio en la sección anterior, una matriz A de tamaño n×n puedetener valores propios complejos, aun en el caso de que todos los elementosde A sean reales. En este apartado se desarrollará la teoría de valorespropios para matrices simétricas reales.

Definición 2.11 Matrices congruentes ortogonalmente

Dos matrices simétricas A y B de tamaño n × n son congruentes

ortogonalmente si existe una matriz P ortogonal de tamaño n×n tal que

A = P tBP. (2.24)

Definición 2.12 Matrices semejantes ortogonalmente

Una matriz simétrica A de tamaño n×n es semejante ortogonalmente

a una matriz simétrica B de tamaño n×n si existe una matriz P ortogonal

de tamaño n × n tal que

A = P tBP. (2.25)

Teorema 2.23 Dos matrices simétricas reales A y B son congruentes

ortogonalmente si y solo si A y B son semejantes ortogonalmente.

Demostración.Si A y B son matrices simétricas congruentes de tamaño n × n, en-

tonces

B = P tAP,

pero como P tP = In, se tiene que P t = P−1. Por lo tanto, las matricesA y B son semejantes ortogonalmente.

Teorema 2.24 Sea A una matriz simétrica real de tamaño n × n, en-

tonces los valores propios de A son reales.

Page 122: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

106 2. Vectores característicos y valores característicos

Demostración.Sea �v ∈ Cn un vector propio asociado al valor propio λ de A, entonces

A�v = λ�v. (2.26)

Por el Teorema 2.21, se tiene que �v es también vector propio de A, peroasociado al valor propio λ.

Si se multiplica (2.26) por la izquierda por �vtse obtiene

�vtA�v = �v

tλ�v = λ�v

t�v. (2.27)

Luego, la conjugada de �vtA�v es

�vtA�v = �v

tA �v = �v t λ �v = λ�v t�v, (2.28)

donde hemos utilizado el Teorema 1.42. Por otra parte, como A es real,se tiene que A = A. Por lo tanto, la ecuación (2.28) es igual a

�vtA�v = �v

tA �v = �v tAt�v = (A�v) t�v = λ�v t�v, (2.29)

aquí se utilizó el hecho de que At = A, ya que A es simétrica.Si se igualan (2.28) y (2.29), se tiene

λ �v t �v = λ �v t �v, (2.30)

pero �v t �v = ‖�v‖2 �= 0, ya que �v es un vector propio. Entonces se puededividir ambos lados de (2.30) entre �vt �v para obtener

λ = λ,

lo cual se cumple solo si λ es real.

Definición 2.13 Matriz diagonalizable ortogonalmente

Una matriz A de tamaño n × n es diagonalizable ortogonalmente si

existe una matriz ortogonal Q tal que

QtAQ = D (2.31)

sea diagonal.

Page 123: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.4. Diagonalización de matrices simétricas 107

Teorema 2.25 Si A es una matriz simétrica real de tamaño n × n, en-

tonces existe una matriz ortogonal Q tal que

Q−1AQ

es una matriz diagonal.

Demostración.Sean λ1, λ2, . . . , λn los valores propios de A. Puesto que λ1 es real,

existe un vector propio unitario �u1 ∈ Rn de A correspondiente a λ1.Denotemos por V el complemento ortogonal a �u1 de dimensión n−1. Sea{�u2, �u3, . . . , �un} una base ortonormal de V. Luego, cada vector �X de V

tiene la forma

�X = a2 �u2 + a3 �u3 + . . . + an �un,

y el producto punto entre A �X y �u1 es

(A �X) · �u1 = (A �X)t�u1 = �XtAt�u1 = �Xt(A�u1) = �Xt(λ1�u1) = λ1�Xt�u1 = 0,

puesto que cada vector de la base de V es ortogonal a �u1. La matriz decambio de base de la base canónica de Rn a la base {�u1, �u2, . . . , �un} es lamatriz ortogonal S cuyas columnas son los elementos de los vectores �ui.Luego

AS =[A�u1 A�u2 . . . A�un

]=

[λ1�u1 A�u2 . . . A�un

],

por lo tanto

S−1AS = S−1[λ1�u1 A�u2 . . . A�un

].

Pero como S es ortogonal, se tiene que S−1 = St, por consiguiente

S−1AS =[�u1 �u2 . . . �un

]t [λ1�u1 A�u2 . . . A�un

]=

⎡⎢⎢⎢⎣�ut1λ1�u1 �ut1A�u2 . . . �ut1A�un�ut2λ1�u1 �ut2A�u2 . . . �ut2A�un

......

. . ....

�utnλ1�u1 �utnA�u2 . . . �utnA�un

⎤⎥⎥⎥⎦ .

Page 124: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

108 2. Vectores característicos y valores característicos

Se puede probar fácilmente que S−1AS es simétrica, ya que

(S−1AS)t = (StAS)t = StAS = S−1AS.

Por consiguiente

S−1AS =

⎡⎢⎢⎢⎣λ1 0 . . . 00...0

⎡⎣ A1

⎤⎦⎤⎥⎥⎥⎦ ,

donde A1 es simétrica de tamaño (n − 1) × (n − 1).La prueba se completa por inducción, si R∗ es una matriz ortogonal

de tamaño (n− 1)× (n− 1) tal que R∗A1(R∗)−1 = diag{λ2, λ3, . . . , λn}.

Entonces, la matriz

R =

⎡⎢⎢⎢⎣1 0 . . . 00...0

⎡⎣ R∗

⎤⎦⎤⎥⎥⎥⎦

es una matriz ortogonal y

R−1S−1ASR = (SR)−1A(SR) = diag{λ1, λ2, . . . , λn}.La matriz SR = Q es el producto de dos matrices ortogonales, por lotanto es también una matriz ortogonal.

Así, Q−1AQ es una matriz diagonal y la prueba queda completa.

Teorema 2.26 Sea A una matriz simétrica real de tamaño n × n. En-

tonces los vectores propios asociados con valores propios distintos de A

son ortogonales. Esto es, los espacios propios de una matriz simétrica son

ortogonales.

Demostración.Sean �v1 y �v2 vectores propios que corresponden a valores propios dis-

tintos, digamos λ1 y λ2. Para demostrar que �v1 · �v2 = 0, se calcula

λ1�v1 · �v2 = (λ1�v1)t�v2 = (A�v1)

t�v2 puesto que �v1 es un vector propio

= (�vt1 At)�v2 = �vt1(A�v2) puesto que A es simétrica

= �vt1(λ2�v2) puesto que �v2 es un vector propio

= λ2�vt1�v2 = λ2�v1 · �v2.

Page 125: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.4. Diagonalización de matrices simétricas 109

Por lo tanto, (λ1 −λ2)�v1 ·�v2 = 0. Pero λ1 −λ2 �= 0, así que �v1 ·�v2 = 0.

Teorema 2.27 Sea λk un valor propio de multiplicidad algebraica igual

a p asociado a una matriz A simétrica real de tamaño n×n. Entonces A

tiene exactamente p vectores propios mutuamente ortogonales asociados

al valor propio λk.

Demostración.Por el Teorema 2.25, existe una matriz Q tal que Q−1AQ es una

matriz diagonal en la cual λk aparece exactamente p veces en la diagonalprincipal. Por otra parte, se tiene que Q−1AQ−λkIn = Q−1

(A−λkIn

)Q

tiene rango n − p. Pero como Q y Q−1 son no singulares, A − λkIntambién tiene rango n − p. Por lo tanto, el espacio solución del sistemade ecuaciones(

A − λkIn)�v = �0, con �v ∈ Rn

tiene dimensión n− (n− p) = p y, por consiguiente, existen exactamentep vectores unitarios mutuamente ortogonales de Rn.

Teorema 2.28 Una matriz A simétrica real de tamaño n × n tiene n

vectores propios unitarios mutuamente ortogonales.

Demostración.Si D es la matriz diagonal QtAQ, se tiene

AQ = QD, (2.32)

donde D = diag{λ1, . . . , λn}. Al igualar los vectores columna de cadamiembro de (2.32), se obtiene

A �v1 = λ1 �v1, A �v2 = λ2 �v2, . . . , A �vn = λn �vn,

donde �v1, �v2, . . . , �vn son los vectores columna de Q. Se deduce que lascolumnas de Q son vectores propios de A y que son vectores unitariosmutuamente ortogonales, por ser Q ortogonal.

Teorema 2.29 Sea A una matriz real de tamaño n × n. Entonces A es

diagonalizable ortogonalmente si y solo si A es simétrica.

Page 126: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

110 2. Vectores característicos y valores característicos

Demostración.Sea A diagonalizable ortogonalmente, entonces por la Definición 2.13,

existe una matriz ortogonal Q tal que QtAQ = D. Si se multiplica estaecuación por la izquierda por Q y por la derecha por Qt y se usa el hechode que QtQ = QQt = In, se obtiene

A = QDQt.

Luego

At =(QDQt

)t=

(Qt

)tDtQt = QDQt = A.

Así, A es simétrica.Recíprocamente, suponga que A es simétrica. Entonces por los Teo-

remas 2.26 y 2.28, A es diagonalizable ortogonalmente con la matriz Qcuyas columnas son los vectores propios dados en el Teorema 2.28, y elteorema queda demostrado.

Procedimiento para encontrar una matriz diagonalizante Q

i) Encuentre una base para cada espacio propio de A.

ii) Halle una base ortonormal para cada espacio propio de A usandoel proceso de Gram-Schmidt o algún otro.

iii) Obtenga Q como la matriz cuyas columnas son los vectores pro-pios ortonormales obtenidos en el paso ii).

Ejemplo 2.18 Encuentre una matriz Q que diagonalice ortogonalmente

a la siguiente matriz:

A =

⎡⎢⎢⎢⎢⎣2 2 1

2 5 2

1 2 2

⎤⎥⎥⎥⎥⎦ .

Solución.En este caso, los valores propios de A son λ1 = 1 (de multiplicidad

algebraica 2) y λ2 = 7. Los vectores propios linealmente independientes

Page 127: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.4. Diagonalización de matrices simétricas 111

correspondientes a λ1 = 1 son �v1 =

⎡⎣ 101

⎤⎦ y �v2 =

⎡⎣ 210

⎤⎦ , y el correspon-

diente a λ2 = 7 es �v3 =

⎡⎣121

⎤⎦ .

Para encontrar Q, se aplica el proceso de Gram-Schmidt a {�v1, �v2}

una base para B1. Como ‖�v1‖ =√

2, se hace �u1 =�v1

‖�v1‖ =

⎡⎣ 1/√

20

1/√

2

⎤⎦ .

Después,

�v′2 = �v2 − (�v2 · �u1)�u1 =

⎡⎣ 210

⎤⎦− 2√2

⎡⎣ 1/√

20

1/√

2

⎤⎦=

⎡⎣ 210

⎤⎦ +

⎡⎣ 101

⎤⎦ =

⎡⎣ 111

⎤⎦ .

Entonces, ‖�v′2‖ =√

3 y �u2 =

⎡⎣ 1/√

3

1/√

3

1/√

3

⎤⎦ . Se puede verificar que la nueva

base de B1 es ortonormal observando que �u1 ·�u2 = 0. Por último, se tiene

que ‖�v3‖ =√

6, luego �u3 =

⎡⎣1/√

6

2/√

6

1/√

6

⎤⎦ . También se verifica que la base

obtenida para R3 es ortonormal, observando que �u1 ·�u3 = 0 y �u2 ·�u3 = 0.Por lo tanto,

Q =

⎡⎣ 1/√

2 1/√

3 1/√

6

0 1/√

3 2/√

6

1/√

2 1/√

3 1/√

6

⎤⎦ , Qt =

⎡⎣ 1/√

2 0 1/√

2

1/√

3 1/√

3 1/√

3

1/√

6 2/√

6 1/√

6

⎤⎦ ,

y

QtAQ =

⎡⎣ 1/√

2 0 1/√

2

1/√

3 1/√

3 1/√

3

1/√

6 2/√

6 1/√

6

⎤⎦⎡⎣2 2 12 5 21 2 2

⎤⎦⎡⎣ 1/√

2 1/√

3 1/√

6

0 1/√

3 2/√

6

1/√

2 1/√

3 1/√

6

⎤⎦=

⎡⎣ 1/√

2 0 1/√

2

1/√

3 1/√

3 1/√

3

1/√

6 2/√

6 1/√

6

⎤⎦⎡⎣ 1/√

2 1/√

3 7/√

6

0 1/√

3 14/√

6

1/√

2 1/√

3 7/√

6

⎤⎦ .

Page 128: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

112 2. Vectores característicos y valores característicos

Así,

QtAQ =

⎡⎣1 0 00 1 00 0 7

⎤⎦ .

El siguiente teorema es un caso particular del Teorema 2.13.

Teorema 2.30 Descomposición espectral de matrices simétricas

Sea A una matriz simétrica real de tamaño n× n con valores propios

λ1, λ2, . . . , λn, entonces A se puede escribir como

A =n∑

i=1

λiE(λi), (2.33)

donde las matrices de proyección espectral vienen dadas por

E(λi)

=�ui�u

ti

〈�ui, �ui〉 =�ui�u

ti

�uti�ui= �vi�v

ti , (2.34)

con �v1, �v2, . . . , �vn los vectores propios normalizados de A.

Demostración.Por el Teorema 2.25, existe una matriz Q tal que Q−1AQ es una

matriz diagonal. Entonces,

A = QDQ−1 = QDQt

=[�v1 �v2 . . . �vn

]⎡⎢⎢⎢⎣

λ1 0 . . . 00 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦⎡⎢⎢⎢⎣

�vt1�vt2...

�vtn

⎤⎥⎥⎥⎦

=[�v1 �v2 . . . �vn

]⎡⎢⎢⎢⎣

λ1�vt1

λ2�vt2

...λn�v

tn

⎤⎥⎥⎥⎦= λ1�v1�v

t1 + λ2�v2�v

t2 + . . . + λn�vn�v

tn,

lo cual prueba el teorema.

Page 129: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.4. Diagonalización de matrices simétricas 113

Ejemplo 2.19 Ilustrar el teorema de descomposición espectral para la

matriz dada en el Ejemplo 2.18.

Solución.Del Ejemplo 2.18, se tiene que los valores propios asociados a la matriz

A son λ1 = 7, λ2 = λ3 = 1 y los respectivos vectores propios normalizadosde A eran

�v1 =1√6

⎡⎣121

⎤⎦ , �v2 =1√3

⎡⎣ 111

⎤⎦ y �v3 =1√2

⎡⎣ 101

⎤⎦ .

Luego, las matrices de proyección espectral E(λk

)son

E(λ1

)= �v1�v

t1 =

1

6

⎡⎣121

⎤⎦ [1 2 1

]=

1

6

⎡⎣1 2 12 4 21 2 1

⎤⎦E(λ2

)= �v2�v

t2 =

1

3

⎡⎣ 111

⎤⎦ [1 1 1

]=

1

3

⎡⎣ 1 1 11 1 11 1 1

⎤⎦

E(λ3

)= �v3�v

t3 =

1

2

⎡⎣ 101

⎤⎦ [1 0 1

]=

1

2

⎡⎣ 1 0 10 0 01 0 1

⎤⎦ .

Nótese que E(λ1

)+ E

(λ2

)+ E

(λ3

)= I3 y

3∑i=1

λiE(λi)

=1

6

⎡⎣12 12 612 30 126 12 12

⎤⎦ ,

la cual coincide con la matriz A dada en el Ejemplo 2.18.

Teorema 2.31 Teorema espectral para matrices simétricas

Sea A una matriz simétrica real de tamaño n × n, entonces las si-

guientes afirmaciones son equivalentes:

i) A tiene n valores propios reales, contando multiplicidades.

Page 130: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

114 2. Vectores característicos y valores característicos

ii) Si λ es un valor propio de A con multiplicidad algebraica k, entonces

el espacio propio para λ es k-dimensional.

iii) Los vectores propios correspondientes a valores propios distintos son

ortogonales, es decir los espacios propios son mutuamente ortogo-

nales.

iv) A es diagonalizable ortogonalmente.

Demostración.Queda como ejercicio para el lector.

Ejercicios 2.4

1. Determine si las matrices dadas a continuación son diagonalizables

ortogonalmente:

a.

⎡⎢⎣1 1

1 3

⎤⎥⎦ . b.

⎡⎢⎣1 3

3 1

⎤⎥⎦ . c.

⎡⎢⎣ 1 1

1 1

⎤⎥⎦ .

d.

⎡⎢⎢⎢⎢⎣1 2 2

2 1 2

2 2 1

⎤⎥⎥⎥⎥⎦ . e.

⎡⎢⎢⎢⎢⎣3 1 4

1 1 5

4 5 2

⎤⎥⎥⎥⎥⎦ .

2. Si las matrices A y B son ortogonalmente semejantes y B es or-

togonalmente semejante a una matriz C, muestre que A y C son

también ortogonalmente semejantes.

3. Sea A una matriz ortogonal de tamaño n × n, muestre que si λ es

un valor propio de A, entonces |λ| = 1.

Page 131: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.5. Vectores propios generalizados 115

4. Muestre que si A es ortogonal de tamaño n×n y �x y �y son vectores

en Rn, entonces (A�x) · (A�y) = �x · �y.

2.5 Vectores propios generalizados

En las secciones anteriores hemos considerado matrices en las cuales lamultiplicidad algebraica de cada valor propio es igual a su multiplicidadgeométrica. En este apartado consideraremos matrices que violan estacondición, es decir que la multiplicidad algebraica de cada valor propio esdiferente de su multiplicidad geométrica y se obtendrá un nuevo conceptode vector propio asociado a la matriz.

Definición 2.14 Vector propio generalizado

Sea A una matriz real de tamaño n × n con un valor propio λj cuya

multiplicidad algebraica es diferente de su multiplicidad geométrica. Un

vector �v ∈ Cn se llama vector propio generalizado de A si cumple que

(A − λjIn

)k�v = �0 (2.35)

para algún k entero positivo. El mínimo entero k para el cual (2.35) se

satisface recibe el nombre de índice del vector propio generalizado �v.

Nota 2.3 Los vectores propios de A son vectores propios generalizados

de índice igual a 1.

Ejemplo 2.20 Verifique si el vector �vt = ( 17 , 0) es un vector propio

generalizado asociado al valor propio λ = 5 de la siguiente matriz:

A =

⎡⎢⎣ 12 7

7 2

⎤⎥⎦ .

Page 132: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

116 2. Vectores característicos y valores característicos

Solución.Veamos que �v cumple (2.35) para algún valor entero k. Para k = 1,

[A − ( 5)I

]�v =

[7 77 7

] [170

]=

[11

]= �v1.

Obsérvese que �v1 es el vector propio correspondiente a λ. Para k = 2, setiene que

[A − ( 5)I

]2�v =

[A − ( 5)I

]�v1 =

[7 77 7

] [11

]=

[00

].

Luego, �v es un vector propio generalizado de índice k = 2.

Definición 2.15 Espacio propio generalizado

Sea λj un valor propio de la matriz real A ∈ Mnn. El subespacio

Vj = {�v ∈ Cn :(A − λjI

)k�v = �0, para cierto entero positivo k} (2.36)

se denomina espacio propio generalizado de A asociado con el valor propio

λj . En otras palabras, Vj = ker{(

A − λjI)k}

.

Teorema 2.32 Sea A una matriz real de tamaño 2 × 2 con un único

valor propio real λ de multiplicidad algebraica distinta de la multiplicidad

geométrica. Entonces existe un vector propio generalizado �w que satisface

la ecuación:

(A − λI)�w = �v, (2.37)

donde �v es un vector propio correspondiente a λ.

Demostración.Sea �x ∈ C2 un vector fijo tal que �x �= α�v. Luego, �x no es un vector

propio de A. Sea�y = (A − λI)�x. (2.38)

Page 133: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.5. Vectores propios generalizados 117

Demostremos que �y es un vector propio de A; en otras palabras, que�y = β�v. Como �v y �x son linealmente independientes y �y ∈ C2, entoncesexisten constantes c1 y c2 tales que

�y = c1 �v + c2 �x. (2.39)

Se debe mostrar que c2 = 0. Si se reemplaza (2.38) en (2.39), se tiene que

(A − λI)�x = c1 �v + c2 �x[A − (λ + c2)I

]�x = c1 �v.

Si se supone que c2 �= 0, entonces λ + c2 no es un valor propio de A (elúnico valor propio asociado a A es λ). Por lo tanto,

det[A − (λ + c2)I

] �= 0.

Sea B = A − (λ + c2)I, entonces B es no singular. Así, �x es igual a

�x = B−1 c1 �v = c1 B−1 �v. (2.40)

Al multiplicar a ambos lados de (2.40) por λ, se obtiene

λ �x = λ B−1 c1 �v = c1 B−1 (λ �v) = c1 B−1 (A �v).

Pero A = B + (λ + c2)I, de manera que

λ �x = c1 B−1[B + (λ + c2)I

]�v

= c1

[I + (λ + c2)B

−1]

�v

= c1 �v + (λ + c2)[c1 B−1 �v

]= c1 �v + (λ + c2) �x,

la cual se obtiene usando el hecho de que �x = c1 B−1 �v. Por lo tanto,

λ �x = c1 �v + λ �x + c2 �x

�0 = c1 �v + c2 �x.

Pero como �x �= α�v, se debe tener que c1 = c2 = 0, lo cual contradice lasuposición de que c2 �= 0. Luego, c2 = 0 y sustituyendo en (2.39), se tieneque �y = c1�v.

Ahora, se debe comprobar que c1 �= 0, en otras palabras se debemostrar que �y �= �0; pues si �y = �0, al reemplazar en (2.38) se tendríaque �x es un vector propio de A, lo cual contradice la suposición de que

Page 134: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

118 2. Vectores característicos y valores característicos

�x �= α�v. Luego, c1 �= 0, es decir �y es un múltiplo no nulo de �v y por elTeorema 2.1, es un vector propio de A.

Por último definamos �w = 1c1

�x, entonces

(A − λI)�w =1

c1(A − λI)�x =

1

c1�y = �v.

Esto prueba el teorema.

Ejemplo 2.21 Sea A =

⎡⎢⎣4 1

1 2

⎤⎥⎦ . Determine sus vectores propios gene-

ralizados.

Solución.La ecuación característica de A es

λ2 − 6λ + 9 = (λ − 3)2 = 0.

Luego, λ = 3 es el único valor propio (de multiplicidad algebraica 2),entonces (

A − λI)�v = (A − 3I)�v =

[1 11 1

] [x1

x2

]=

[00

].

Esto conduce a que x1 = x2. Estableciendo x2 = 1, se obtiene solo un

vector propio linealmente independiente: �v1 =

[11

]. Luego, para encontrar

un vector propio generalizado �v2, se calcula (A− 3I)�v2 = �v1 y se obtiene[1 11 1

] [x1

x2

]=

[11

].

La solución general corresponde a x1 − x2 = 1, luego x1 = 1 + x2. Por lo

tanto si x2 = 0, se tiene �v2 =

[10

].

Ejemplo 2.22 Encuentre los vectores propios generalizados de la matriz

A =

⎡⎢⎢⎢⎢⎣1 1 1

2 1 1

3 2 4

⎤⎥⎥⎥⎥⎦ .

Page 135: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.5. Vectores propios generalizados 119

Solución.La ecuación característica de A es

−λ3 + 6λ2 − 12λ + 8 = −(λ − 2

)3= 0.

Luego, λ = 2 es el único valor propio (de multiplicidad algebraica 3),entonces

(A − λI)�v = (A − 2I)�v =

⎡⎣ 1 1 12 1 13 2 2

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣000

⎤⎦ .

Por lo tanto, el vector propio correspondiente se obtiene operando porfilas⎡⎣ 1 1 1 | 0

2 1 1 | 03 2 2 | 0

⎤⎦ ∼F2 +2F1

F3 +F2

⎡⎣ 1 1 1 | 00 1 1 | 01 1 1 | 0

⎤⎦ ∼F3 −F1

F1 −F2

⎡⎣ 1 0 0 | 00 1 1 | 00 0 0 | 0

⎤⎦ .

Esto conduce a que x = 0 y y = −z. Estableciendo z = −1, se obtiene

el vector propio: �v1 =

⎡⎣ 011

⎤⎦ . Luego, para encontrar un vector propio

generalizado �v2, se calcula (A − 2I)�v2 = �v1 y se tiene que⎡⎣ 1 1 12 1 13 2 2

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣ 011

⎤⎦ ,

y si se realizan operaciones por filas se obtiene⎡⎣ 1 1 1 | 02 1 1 | 13 2 2 | 1

⎤⎦ ∼F2 +2F1

F3 +F2

⎡⎣ 1 1 1 | 00 1 1 | 11 1 1 | 0

⎤⎦ ∼F3 −F1

F1 −F2

⎡⎣ 1 0 0 | 10 1 1 | 10 0 0 | 0

⎤⎦ .

Es decir, x = 1 y y = 1 − z. Si se hace z = 0, se obtiene el vector

propio generalizado: �v2 =

⎡⎣110

⎤⎦ . Para encontrar el segundo vector propio

generalizado �v3, se calcula

(A − 2I)�v3 = �v2⎡⎣ 1 1 12 1 13 2 2

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣110

⎤⎦ .

Page 136: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

120 2. Vectores característicos y valores característicos

Al resolver el sistema por Gauss-Jordan, se tiene que⎡⎣ 1 1 1 | 12 1 1 | 13 2 2 | 0

⎤⎦ ∼F2 + 2F1

F3 +F2

⎡⎣ 1 1 1 | 10 1 1 | 31 1 1 | 1

⎤⎦ ∼F3 −F1

F1 −F2

⎡⎣ 1 0 0 | 20 1 1 | 30 0 0 | 0

⎤⎦ .

Luego, x = 2 y y = 3 − z. Si z = 0, se obtiene el vector propio generali-zado:

�v3 =

⎡⎣230

⎤⎦ .

Ejemplo 2.23 Encuentre los vectores propios generalizados de la matriz:

B =

⎡⎢⎢⎢⎢⎣1 18 7

1 13 4

1 25 8

⎤⎥⎥⎥⎥⎦ .

Solución.La ecuación característica de B es

−λ3 + 6λ2 − 12λ + 8 = 0.

Luego, λ = 2 es el único valor propio (de multiplicidad algebraica tres),entonces

(B − λI)�v = (B − 2I)�v =

⎡⎣ 1 18 71 11 41 25 10

⎤⎦⎡⎣x1

x2

x3

⎤⎦ =

⎡⎣000

⎤⎦ .

El vector propio correspondiente se obtiene operando por filas⎡⎣ 1 18 7 | 01 11 4 | 01 25 10 | 0

⎤⎦ ∼F2 −F1

F3 +F1

⎡⎣ 1 18 7 | 00 7 3 | 00 7 3 | 0

⎤⎦ ∼F3 −F2

3F1 +7F2

⎡⎣ 3 5 0 | 00 7 3 | 00 0 0 | 0

⎤⎦ .

Esto conduce a que x = 53y y z = 7

3y. Estableciendo y = 3, se obtiene el

vector propio: �v1 =

⎡⎣ 537

⎤⎦ . Para encontrar un vector propio generalizado

Page 137: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.5. Vectores propios generalizados 121

�v2, se calcula (B − 2I)�v2 = �v1 y se tiene que⎡⎣ 1 18 71 11 41 25 10

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣ 537

⎤⎦ .

Si se realizan operaciones por filas, se obtiene⎡⎣ 1 18 7 | 51 11 4 | 31 25 10 | 7

⎤⎦ ∼F2 − F1

F3 + F1

⎡⎣ 1 18 7 | 50 7 3 | 20 7 3 | 2

⎤⎦ ∼F3 − F2

3F1 + 7F2

⎡⎣ 3 5 0 | 10 7 3 | 20 0 0 | 0

⎤⎦ .

Es decir, x = −13 + 5

3y y z = 23 − 7

3y. Si se hace y = 0, se obtiene

el vector propio generalizado: �v2 = 13

⎡⎣ 102

⎤⎦ . Para encontrar el segundo

vector propio generalizado �v3, se calcula (B − 2I)�v3 = �v2, es decir⎡⎣ 1 18 71 11 41 25 10

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣ 13023

⎤⎦ .

Al resolver el sistema por Gauss-Jordan, se tiene que⎡⎣ 1 18 7 | 13

1 11 4 | 01 25 10 | 2

3

⎤⎦ ∼F2 − F1

F3 + F1

⎡⎣ 1 18 7 | 13

0 7 3 | 13

0 7 3 | 13

⎤⎦ ∼F3 − F2

3F1 + 7F2

⎡⎣ 3 5 0 | 43

0 7 3 | 13

0 0 0 | 0

⎤⎦ .

Luego, x = −49 + 5

3y y z = −19 − 7

3y. Tomando y = 0, se obtiene el vector

propio generalizado: �v3 = 19

⎡⎣401

⎤⎦ .

Teorema 2.33 Sea �v �= �0 un vector propio generalizado con índice k de

una matriz real A de tamaño n × n. Entonces,

{�v, (A − λjIn)�v, . . . , (A − λjIn)

k− 1�v}

(2.41)

es un conjunto de vectores linealmente independientes.

Page 138: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

122 2. Vectores característicos y valores característicos

Demostración.Supongamos que �v ∈ Cn es un vector propio generalizado de índice k

y que los vectores dados en (2.41) son linealmente dependientes, entoncesexisten constantes cm �= 0 tales que

k− 1∑m=0

cm Amj �v = �0, con Aj = A − λjIn, (2.42)

donde A0j = In. Sea fr(t) = c0 + c1t + . . . + crt

r un polinomio1 diferentede cero de grado r ≤ k − 1. Luego, la combinación lineal dada en (2.42)se puede expresar de la siguiente manera:

fr(Aj

)�v = �0.

Sea g(t) = tk, luego g(Aj

)�v = �0 por ser �v vector propio generalizado de

índice k. Si existe un polinomio h(t) = td con d < k que sea el máximocomún divisor de fr(t) y g(t), usando el algoritmo de Euclides, h(t) sepuede escribir como

h(t) = h1(t)fr(t) + h2(t)g(t),

donde h1(t) y h2(t) son polinomios, y así h(Aj

)= h1

(Aj

)fr

(Aj

)+

h2

(Aj

)g(Aj

). Por lo tanto,

h(Aj

)�v = �0.

Luego, d sería el índice de �v, lo cual contradice la hipótesis de que k esel índice de �v y se concluye la prueba.

Teorema 2.34 Los vectores no nulos tomados de espacios propios gene-

ralizados distintos son linealmente independientes.

Demostración.Sea Aj = A − λjIn y Vj = ker

{Akj

j

}para algún entero kj , j = 1, 2,

. . . , r. Sean �v1, . . . , �vr con �vj ∈ Vj , y supongamos que

�w =r∑j=1

�vj = �0. (2.43)

1 Si el lector desconoce este concepto, puede ver Lang (2004, cap. 11).

Page 139: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.5. Vectores propios generalizados 123

Se debe mostrar que cada �vj = �0. Si se multiplican ambos lados de (2.43)

por la matriz C = Ak22 Ak3

3 . . . Akrr y se utilizan los hechos de que A

kj

j �vj = �0

y que Aki

i Akj

j = Akj

j Aki

i , lo cual se tiene ya que

AiAj =(A − λiIn

)(A − λjIn

)= A2 − λiA − λjA + λiλjIn

= A2 − λjA − λiA + λiλjIn =(A − λjIn

)(A − λiIn

)= AjAi,

se obtiene queC �w = C�v1 = �0. (2.44)

Por lo tanto, �v1 = �0. De manera análoga, todos los �vj restantes tienenque desaparecer.

De acuerdo con la Definición 2.8, las matrices reales cuadradas A yB se dicen que son semejantes si existe una matriz P no singular tal que

A = PBP−1.

En ocasiones, además de establecer el hecho en sí de la semejanza, serequiere encontrar la matriz P de la transformación que satisface que A =PBP−1. En estos momentos, se puede construir la matriz P utilizandolos vectores propios generalizados de la siguiente manera

P = SR−1, (2.45)

donde las columnas de la matriz S son los vectores propios generalizadosde la matriz A y las columnas de la matriz R son los vectores propiosgeneralizados de la matriz B.

Ejemplo 2.24 Determine si las matrices dadas en los Ejemplos 2.22

y 2.23 son semejantes.

Solución.Como las dos matrices tienen el mismo polinomio característico, en-

tonces son semejantes. Encontremos la matriz P. En el Ejemplo 2.22, seobtuvieron los siguientes vectores propios generalizados para la matriz A

�v1 =

⎡⎣ 011

⎤⎦ , �v2 =

⎡⎣110

⎤⎦ y �v3 =

⎡⎣230

⎤⎦ .

Page 140: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

124 2. Vectores característicos y valores característicos

Del Ejemplo 2.23 se tiene que los vectores propios generalizados de lamatriz B son

�v1 =

⎡⎣ 537

⎤⎦ , �v2 =1

3

⎡⎣ 102

⎤⎦ y �v3 =1

9

⎡⎣ 401

⎤⎦ .

Por lo tanto,

P =

⎡⎣ 0 1 21 1 31 0 0

⎤⎦⎡⎣ 5 13

49

3 0 07 2

319

⎤⎦−1

=

⎡⎣ 0 1 21 1 31 0 0

⎤⎦⎡⎣ 0 13 0

13

113

43

2 1 1

⎤⎦=

⎡⎣ 133

173

23

193 7 5

30 1

3 0

⎤⎦ .

El lector puede verificar que A = PBP−1.

Teorema 2.35 Todo vector en Rn es una combinación lineal de vectores

de los espacios propios generalizados Vj .

Demostración.Supóngase que V es el subespacio de Rn formado por los vectores de

la forma �u1 + . . . + �ur, donde �uj ∈ Vj . Se necesita probar que V = Rn.Supongamos que V es un subespacio adecuado. Entonces, se escoge unabase {�v1 + . . . + �vs} de V y se extiende este conjunto a una base B deRn. En esta base la matriz [A]B está particionada como sigue:

[A]B =

[A11 A12

O A22

],

donde A22 es una matriz de tamaño (n− s)× (n− s). Los valores propiosde A22 son valores propios de A. Como todos los valores propios distintosy vectores propios de A son considerados en V (es decir, en A11), se tieneuna contradicción. Por tanto, V = Rn, como se quería demostrar.

Teorema 2.36 Sea Vj una base para el espacio propio generalizado Vjy sea V la unión de los conjuntos Vj. Entonces, V es una base para Rn.

Page 141: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

2.5. Vectores propios generalizados 125

Demostración.Vamos a probar que los vectores en V generan Rn. Por el Teorema 2.35

se tiene que todo vector en Rn es una combinación lineal de vectores enVj , pero cada vector en Vj es una combinación lineal de vectores en Vj.Por lo tanto, los vectores en V generan Rn.

Ahora, demostremos que los vectores en V son linealmente indepen-dientes. Supongamos que una combinación lineal de vectores en V suma�0. Es posible escribir esta suma como

�v1 + . . . + �vr = �0,

donde �vj es la combinación lineal de vectores en Vj. El Teorema 2.34indica que cada �vj = �0. Como Vj es una base para Vj , se deduce que loscoeficientes de las combinaciones lineales �vj deben ser todos cero. Por lotanto, los vectores en V son linealmente independientes.

Por el Teorema 1.27, se deduce que V es una base de Rn.

Ejercicios 2.5

1. Encuentre la matriz P que satisface que A = PBP−1 para

A =

⎡⎢⎢⎢⎢⎣3 1 1

2 2 1

2 2 0

⎤⎥⎥⎥⎥⎦ y B =

⎡⎢⎢⎢⎢⎣42 130 25

8 24 5

23 73 13

⎤⎥⎥⎥⎥⎦ .

2. Determine los vectores propios generalizados para las matrices

a.

⎡⎢⎣ 12 7

7 2

⎤⎥⎦ . b.

⎡⎢⎣ 10 7

7 4

⎤⎥⎦ . c.

⎡⎢⎣4 1

1 2

⎤⎥⎦ .

d.

⎡⎢⎢⎢⎢⎣5 3 2

8 5 4

4 3 3

⎤⎥⎥⎥⎥⎦ . e.

⎡⎢⎢⎢⎢⎣1 2 1

1 1 1

2 3 2

⎤⎥⎥⎥⎥⎦ .

Page 142: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 143: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 3

Descomposición de matrices

Una factorización de una matriz A es una ecuación que expresa a A comoun producto de dos o más matrices. Por ejemplo, la descomposición deSylvester y los teoremas de diagonalización dados en 2.19 y 2.25 son al-gunos casos de descomposición de una matriz. Estas descomposiciones sonde interés especial cuando algunos de los factores son matrices ortogona-les; la razón es que las transformaciones ortogonales preservan normas yángulos. Infortunadamente, como sabemos, no todas las matrices puedenser factorizadas como A = PDP−1 con D diagonal. Sin embargo, paracualquier matriz A es posible obtener una de las factorizaciones que sepresentan en este capítulo, las cuales son importantes desde el punto devista teórico, práctico y numérico.

3.1 Triangularización de una matriz

En esta sección nos centraremos en el estudio de diversas factorizacionesde una matriz A como producto de matrices triangulares.

Teorema 3.1 Sea A una matriz real de tamaño m × n, entonces existe

una matriz L triangular inferior no singular de tamaño m × m tal que

A = LS, (3.1)

127

Page 144: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

128 3. Descomposición de matrices

donde S es la matriz escalonada de A de tamaño m × n, obtenida sin

intercambio de filas.

Demostración.

Sea A = [akl], empecemos con la primera fila no nula de A. Suponga-mos, sin pérdida de generalidad, que la primera fila de A es no nula. Seaa1j el primer elemento no nulo en la primera fila. Tomemos cualquier aijcon 2 ≤ i ≤ m; si aij = 0, no se hace nada; si aij �= 0, se multiplica laprimera fila por −aij/a1j y se suma a la i-ésima fila. Esta operación hacelos elementos (i, j) cero. Dicha operación es equivalente a premultiplicar aA por la matriz elemental Ei1

(−aij/a1j

), la cual es una matriz triangular

inferior. Así, hemos usado el elemento (1, j), es decir a1j , como un pivotepara eliminar todos los otros elementos de la j-ésima columna. La matrizresultante o matriz reducida es obtenida matemáticamente premultipli-cando a A sucesivamente por un número finito de matrices triangularesinferiores cuyo producto es también una matriz triangular inferior. Ahoracontinuemos con la matriz reducida, tomemos la segunda fila. Si todos suselementos son iguales a cero, se pasa a la tercera fila. Si no se encuentracualquier vector fila no nulo entre la segunda, tercera, . . . , m-ésima fila, elproceso termina. La matriz reducida es claramente una forma escalonada.En otro caso, localice el primer vector no nulo entre las m − 1 filas de lamatriz reducida empezando desde la segunda. Repita el proceso de elimi-nar todas las entradas debajo del primer elemento no nulo (pivote) delvector escogido no nulo. Repita este proceso hasta que no pueda encon-trar ningún otro vector no nulo en la matriz reducida. La matriz reducidaes claramente una forma escalonada. La matriz S es simplemente el pro-ducto de todas las matrices triangulares inferiores empleadas durante elproceso. Claramente, S es una matriz triangular inferior no singular. Estocompleta la prueba.

Definición 3.1 Descomposición LS

Una factorización como la indicada en (3.1), es decir, como el produc-

to de una matriz no singular triangular inferior L y una forma escalonada

S, si existe, se llama descomposición LS de la matriz A.

Page 145: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.1. Triangularización de una matriz 129

Ejemplo 3.1 Hallar una factorización LS de la matriz:

A =

⎡⎢⎢⎢⎢⎣2 4 2 0

1 1 3 1

2 3 4 4

⎤⎥⎥⎥⎥⎦ .

Solución.Se procede en dos columnas como sigue:

Reducción de A a S Creación de L a partir de I

A =

⎡⎣ 2 4 2 01 1 3 12 3 4 4

⎤⎦ I =

⎡⎣ 1 0 00 1 00 0 1

⎤⎦Dividir la fila 1 por 2

∼⎡⎣ 1 2 1 0

1 1 3 12 3 4 4

⎤⎦ ∼⎡⎣ 2 0 0

0 1 00 0 1

⎤⎦Sumar la fila 1 multiplicada

por −1 a la fila 2

∼⎡⎣ 1 2 1 0

0 1 2 12 3 4 4

⎤⎦ ∼⎡⎣ 2 0 0

1 1 00 0 1

⎤⎦Sumar la fila 1 multiplicada

por −2 a la fila 3

∼⎡⎣ 1 2 1 0

0 1 2 10 1 2 4

⎤⎦ ∼⎡⎣ 2 0 0

1 1 02 0 1

⎤⎦Multiplicar la fila 2 por −1

∼⎡⎣ 1 2 1 0

0 1 2 10 1 2 4

⎤⎦ ∼⎡⎣ 2 0 0

1 1 02 0 1

⎤⎦Sumar una vez la fila 2

a la fila 3

∼⎡⎣ 1 2 1 0

0 1 2 10 0 0 3

⎤⎦ ∼⎡⎣ 2 0 0

1 1 02 1 1

⎤⎦

Page 146: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

130 3. Descomposición de matrices

Dividir la fila 3 por 3

∼⎡⎣ 1 2 1 0

0 1 2 10 0 0 1

⎤⎦ = S ∼⎡⎣ 2 0 0

1 1 02 1 3

⎤⎦ = L.

El lector puede verificar que A = LS.

Teorema 3.2 Sea A una matriz real de tamaño m × n cuya forma es-

calonada puede hallarse sin intercambio de filas. Entonces, A tiene una

única factorización LS si y solo si ρ(A) = m.

Demostración.Supongamos que ρ(A) = m y que A = LS y A = MV , siendo L y M

matrices triangulares inferiores y S y V matrices en forma escalonada.Multiplicando por la izquierda, la igualdad

LS = MV

por M−1, se obtiene que

M−1LS = V. (3.2)

Sea N = M−1L. Si se logra probar que N = I, se tendrá que L = M ysustituyendo en (3.2), se obtendrá S = V.

Se procede por inducción sobre m. Si m = 1, entonces

A =[0 . . . a1,r+1 . . . a1,n

],

y la única factorización posible es

A = [a1,r+1][0 . . . 1 . . .

a1,n

a1,r+1

].

Supongamos que el resultado es cierto para matrices con m−1 filas. Si laprimera columna �s1 de S fuera nula, la primera columna �v1 de V tambiénlo sería, ya que

�v1 = N�s1 = N�0 = �0

y, recíprocamente, por ser N no singular. Se puede por lo tanto suponer,sin pérdida de generalidad, que las primeras columnas de S y V son no

Page 147: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.1. Triangularización de una matriz 131

nulas. Entonces la primera columna tiene un uno principal en la primerafila.

Nótese, además, que N es triangular inferior por ser producto dematrices triangulares inferiores. Si se reescribe el producto NS = V par-ticionando N en submatrices

[1+ (m− 1)

]× [1+ (m− 1)

]y las matrices

S y V en submatrices[1 + (m − 1)

]× [1 + (n − 1)

], se tiene que

NS =

[a O

N21 N22

] [1 S12

O S22

]=

[1 V12

O V22

],

de donde

a = 1, aS12 = V12,

N21 = O, N22S22 = V22.

Ahora bien, N22 es una submatriz real de tamaño (m− 1)× (m− 1) quees triangular inferior y no singular, S22 y V22 son submatrices en formaescalonada. Por la hipótesis de inducción,

N22 = Im−1,

y por lo tanto

N =

[1 OO Im−1

]= Im.

Si se supone que r = ρ(A) < m, aplicando el algoritmo se obtiene lafactorización

A =

[L11 OL21 Im−r

] [S11

O

].

Pero es obvio que si L22 es una submatriz triangular inferior no singularde tamaño

(m − r

)× (m − r

)cualquiera, también se puede escribir

A =

[L11 OL21 L22

] [S11

O

],

y la factorización no es única.

Corolario 3.2.1 Sea A una matriz no singular de tamaño n×n cuya for-

ma escalonada puede hallarse sin intercambio de filas. Entonces A tiene

una única factorización LS.

Page 148: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

132 3. Descomposición de matrices

Demostración.Supongamos que A = L1S1 y A = L2S2 son dos de dichas factorizacio-

nes. Nótese que tanto L−11 como L−1

2 también son triangulares inferioresy S−1

1 y S−12 son triangulares superiores, que además tienen unos en la

diagonal principal por ser A no singular.Ahora bien, de L1S1 = L2S2 se obtiene que

L−12 L1 = S2S

−11 .

Es claro que L−12 L1 es triangular inferior por ser producto de triangulares

inferiores y que S2S−11 es triangular superior por ser producto de trian-

gulares superiores. Como son iguales, se concluye que el producto debeser diagonal. Además, S2 y S−1

1 tienen unos en la diagonal principal y,por lo tanto, S2S

−11 también tiene unos en la diagonal principal.

En definitiva L−12 L1 = S2S

−11 = In, de donde se deduce la unicidad.

Teorema 3.3 Si no ocurren intercambios de filas durante la reducción

de una matriz A de tamaño m × n a una matriz escalonada S, entonces

A puede ser factorizada como

A = LDU, (3.3)

en donde L es triangular inferior de tamaño m × m, D es la matriz de

pivotes de tamaño m × m y U es una matriz escalonada.

Demostración.Sea

S = EkEk−1 . . . E2E1A

la forma escalonada de A, donde Ei, i = 1, 2, . . . , k son matrices elemen-tales de tipo R1 y R2, puesto que no se han realizado intercambio de filas.Entonces resulta que

A = E−11 E−1

2 . . . E−1k−1E

−1k S = LS.

Después de que se determina A = LS, se continúa factorizando S como

S = DD−1S = DU,

Page 149: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.1. Triangularización de una matriz 133

en donde D es la matriz diagonal de pivotes cuyo elemento diagonal enla p-ésima fila es 1 si la p-ésima fila de S es �0, y es a si a es el primerelemento no nulo de la p-ésima fila de S. La matriz escalonada U = D−1S.Entonces, se puede reescribir el producto A = LS como

A = LDU = MU,

en donde M = LD. Esto prueba el teorema.

Ejemplo 3.2 Hallar la factorización LDU de la matriz dada en el Ejem-

plo 3.1.

Solución.Del Ejemplo 3.1, se tiene que

A =

⎡⎣ 2 0 01 1 02 1 3

⎤⎦⎡⎣ 1 2 1 00 1 2 10 0 0 1

⎤⎦ .

Los pivotes eran 2, −1 y 3. Luego, su factorización LDU es⎡⎣ 1 0 012 1 01 1 1

⎤⎦⎡⎣ 2 0 00 1 00 0 3

⎤⎦⎡⎣ 1 2 1 00 1 2 10 0 0 1

⎤⎦ .

Teorema 3.4 Factorización única

Sea A una matriz no singular de tamaño n×n. Una factorización de

la forma (3.3) está determinada de manera única si y solo si

1. L = [lij ] es triangular inferior con lii = 1 para i = 1, 2, . . . , n,

2. U = [uij ] es triangular superior con uii = 1 para i = 1, 2, . . . , n,

3. D = [dij ] es diagonal con dii �= 0 para i = 1, 2, . . . , n.

Demostración.Supongamos que A = L1D1U1 y A = L2D2U2 son dos factorizaciones

de A distintas. Nótese que tanto L−11 como L−1

2 también son triangularesinferiores y U−1

1 y U−12 son triangulares superiores, que además tienen

unos en la diagonal principal por ser A no singular.

Page 150: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

134 3. Descomposición de matrices

Ahora bien, de L1D1U1 = L2D2U2 se obtiene que

U1U−12 = D−1

1 L−11 L2D2.

El lado izquierdo es un producto de dos matrices triangulares superiorescon elementos en la diagonal principal iguales a uno. Dicho productodebe ser otra matriz del mismo tipo. Por otra parte, el lado derechoes una matriz triangular inferior. Esto obliga a que ambos lados seanprecisamente la matriz identidad: la única matriz que al mismo tiempoes triangular superior con diagonal unitaria y también triangular superior.Así, U1U

−12 = In, y después de multiplicar por U2 se tiene que U1 = U2.

Análogamente, L1 = L2 y, finalmente, D1 = D2.

Teorema 3.5 Si A es una matriz simétrica que se puede factorizar como

A = LDU sin intercambios de filas que destruyan la simetría, entonces

la triangular superior U es la transpuesta de la triangular inferior L. En

otras palabras, toda matriz simétrica tiene una factorización simétrica de

la forma A = LDLt.

Demostración.Supongamos que A puede factorizarse como A = LDU ; tomando la

transpuesta, se tiene que

At =(LDU

)t= U tDtLt = U tDLt.

Como A es simétrica, es igual a At; así resulta que tenemos dos factori-zaciones de A en triangular inferior por diagonal por triangular superior.(Lt es triangular superior con unos en la diagonal, exactamente como U).De acuerdo con el Teorema 3.4, esta factorización es única; por lo tanto,Lt debe ser idéntica a U , lo cual completa la prueba.

Ejemplo 3.3 Hallar una factorización LDU para la matriz:

A =

⎡⎢⎢⎢⎢⎣1 3 5

3 12 18

5 18 30

⎤⎥⎥⎥⎥⎦ .

Page 151: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.1. Triangularización de una matriz 135

Solución.Se procede en dos columnas como en el Ejemplo 3.1.

Reducción de A a S Creación de L a partir de I

A =

⎡⎣ 1 3 53 12 185 18 30

⎤⎦ I =

⎡⎣ 1 0 00 1 00 0 1

⎤⎦Sumar la fila 1 multiplicada

por −3 a la fila 2

∼⎡⎣ 1 3 5

0 3 35 18 30

⎤⎦ ∼⎡⎣ 1 0 0

3 1 00 0 1

⎤⎦Sumar la fila 1 multiplicada

por −5 a la fila 3

∼⎡⎣ 1 3 5

0 3 30 3 5

⎤⎦ ∼⎡⎣ 1 0 0

3 1 05 0 1

⎤⎦Sumar la fila 2 multiplicada

por −1 a la fila 3

∼⎡⎣ 1 3 5

0 3 30 0 2

⎤⎦ = S ∼⎡⎣ 1 0 0

3 1 05 1 1

⎤⎦ = L.

Por tanto, se tiene que A = LS, y factorizando a S, se llega a

S =

⎡⎣ 1 3 50 3 30 0 2

⎤⎦ =

⎡⎣ 1 0 00 3 00 0 2

⎤⎦⎡⎣ 1 3 50 1 10 0 1

⎤⎦ .

Nótese que Lt = U.

Teorema 3.6 Descomposición triangular LU

Sea A una matriz real de tamaño n × n tal que todos sus menores

principales son no nulos. Entonces A puede ser factorizada como

A = LU, (3.4)

donde L es una matriz triangular inferior y U es una matriz no singular

triangular superior, cada una de tamaño n × n.

Page 152: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

136 3. Descomposición de matrices

Demostración.Queda como ejercicio para el lector.

Definición 3.2 Matriz triangularizable

Una matriz A de tamaño n×n es triangularizable si existe una matriz

no singular P tal que

P−1AP = T (3.5)

es triangular.

Teorema 3.7 Descomposición de Schur

Si A es una matriz real de tamaño n × n con valores propios reales

λ1, λ2, . . . , λn, entonces existe una matriz ortogonal Q tal que

QtAQ = T = [tij ] , (3.6)

donde T es una matriz triangular superior con elementos en la diagonal

tii = λi, i = 1, 2, . . . , n. (Es decir: toda matriz cuadrada real con valo-

res propios reales es ortogonalmente semejante a una matriz triangular

superior).

Demostración.La demostración es por inducción sobre n. Si n = 1, A es una matriz

real de tamaño 1 × 1 que es triangular. La matriz ortogonal es Q = [1].

Supongamos que toda matriz real de tamaño (n−1)×(n−1) es trian-gularizable por una matriz ortogonal. Sea A una matriz real de tamañon × n con valores propios reales. Sea �v1 ∈ Rn un vector propio unitarioasociado al valor propio λ1. Denotemos por W el complemento ortogonala �v1 de dimensión n− 1. Sea

{�v2, �v3, . . . , �vn

}una base ortonormal de W.

Luego, cada vector �X de W tiene la forma

�X = a2 �v2 + a3 �v3 + . . . + an �vn.

Page 153: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.1. Triangularización de una matriz 137

La matriz de cambio de base de la base canónica de Rn a la base{�v1, �v2, . . . , �vn

}es la matriz S cuyas columnas son los elementos de los

vectores �vi. Luego,

AS =[

A�v1 A�v2 . . . A�vn]

=[

λ1�v1 A�v2 . . . A�vn].

Por lo tanto,

S−1AS = S−1[

λ1�v1 A�v2 . . . A�vn].

Pero como S es ortogonal, se tiene que S−1 = St. Por consiguiente

StAS =

⎡⎢⎢⎢⎣λ1 x12 . . . x1n

0...0

⎡⎣ A1

⎤⎦⎤⎥⎥⎥⎦ ,

donde x1i = �vt1A�vi y A1 es una matriz real de tamaño (n − 1) × (n − 1).

La prueba se completa por inducción: sea R1 una matriz ortogonalde tamaño

(n − 1

)× (n − 1

)tal que (R1)

tA1R1 = T1, con T1 triangularsuperior, por la hipótesis de inducción. Entonces, la matriz

R =

⎡⎢⎢⎢⎣1 0 . . . 00...0

⎡⎣ R1

⎤⎦⎤⎥⎥⎥⎦

también es una matriz ortogonal y

(SR)tA(SR) = Rt(StAS

)R =

[1 �0t

�0 Rt1

] [λ1 �xt

�0 At1

] [1 �0t

�0 R1

]=

[λ1 �xtR1

�0 T1

],

donde �xt = [x12 x13 . . . x1n] . La matriz SR = Q es el producto dedos matrices ortogonales, por lo tanto es también una matriz ortogonal.Así, QtAQ es una matriz triangular superior y nuestra prueba quedacompleta.

Page 154: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

138 3. Descomposición de matrices

Ejemplo 3.4 Dada la matriz:

A =

⎡⎢⎢⎢⎢⎣0 1 0

4 4 0

2 1 2

⎤⎥⎥⎥⎥⎦ .

Encuentre la triangularización de A.

Solución.El polinomio característico de A es

pA(λ) = (2 − λ)3.

Entonces, el único valor propio es λ = 2 (de multiplicidad algebraica

3). Los vectores propios correspondientes a λ = 2 son �u1 =

⎡⎣ 001

⎤⎦ y

�u2 =

⎡⎣ 120

⎤⎦ . La idea básica del teorema de Schur consiste en construir

una base de R3 con el mayor número posible de vectores propios.

Si tomamos por ejemplo �u3 = �u1 × �u2 =

⎡⎣ 210

⎤⎦, el conjunto

{�u1, �u2, �u3} es una base de R3. Mediante el algoritmo de Gram-Schmidt,obtenemos la base ortonormal

{�v1, �v2, �v3

}, donde

�v1 =

⎡⎣ 001

⎤⎦ , �v2 =1√5

⎡⎣ 120

⎤⎦ y �v3 =1√5

⎡⎣ 210

⎤⎦ .

La matriz ortogonal Q es

Q =

⎡⎣ 0 15

√5 2

5

√5

0 25

√5 1

5

√5

1 0 0

⎤⎦ .

La matriz triangular es

T = QtAQ =

⎡⎣ 0 0 115

√5 2

5

√5 0

25

√5 1

5

√5 0

⎤⎦⎡⎣ 0 1 04 4 02 1 2

⎤⎦⎡⎣ 0 15

√5 2

5

√5

0 25

√5 1

5

√5

1 0 0

⎤⎦ ,

Page 155: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.1. Triangularización de una matriz 139

y al realizar las operaciones, se llega a

T =

⎡⎣ 2 0√

50 2 50 0 2

⎤⎦ .

Obsérvese que los elementos de la diagonal principal de la matriz T sonlos valores propios de la matriz A.

Definición 3.3 Triangularización simultánea

Si P es una matriz no singular tal que P−1AP y P−1BP son ambas

diagonales (triangulares), entonces se dice que A y B son diagonalizables

(triangularizables) simultáneamente.

Teorema 3.8 Si A y B son matrices de tamaño n × n y AB = BA,

entonces A y B tienen un vector propio en común.

Demostración.Sea λk un valor propio de A y sea Bk =

{�v1, �v2, . . . , �vk

}una base

del ker{A − λkI

}. Entonces, cualquier combinación lineal no nula de

Bk constituye un vector propio correspondiente a λk y, recíprocamente,cualquier vector propio de A correspondiente a λk está en gen

{Bk}.

Si para algún j = 1, 2, . . . , k, B�vj = �0, entonces �vj es un vector propiode B asociado al valor propio 0 y el teorema queda demostrado. Supongaque B�vj �= �0, entonces

A(B�vj

)= (BA)�vj puesto que AB = BA,

= B(λk�vj

)puesto que �vj es un vector propio de A

= λk(B�vj

).

Luego

B�vj ∈ gen{Bk} para j = 1, 2, . . . , k.

Al expresar cada B�vj como una combinación lineal de{�v1, �v2, . . . , �vk

},

se tiene

B�vj =k∑

i=1

cij�vi, j = 1, 2, . . . , k.

Page 156: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

140 3. Descomposición de matrices

Este sistema de ecuaciones escrito en forma matricial queda

B[

�v1 �v2 . . . �vk]︸ ︷︷ ︸ =

[�v1 �v2 . . . �vk

]︸ ︷︷ ︸⎡⎢⎢⎢⎣

c11 c12 . . . c1k

c21 c22 . . . c2k...

.... . .

...ck1 ck2 . . . ckk

⎤⎥⎥⎥⎦ ,

B V = V C

donde C = [cij ] sea μ1 un valor propio de C y �u t = [α1 α2 . . . αk] elvector propio asociado a μ1. Entonces(

BV)�u = (V C)�u

= V(μ1�u

)puesto que �u es un vector propio de C

= μ1

(V �u

).

Luego, V �u es un vector propio de B, pero nótese que

V �u =

k∑i=1

αi�vi ∈ gen{Bk},

y por consiguiente V �u es un vector propio de A.

Ejemplo 3.5 Sean

A =

⎡⎢⎢⎢⎢⎣2 1 1

2 1 2

1 1 2

⎤⎥⎥⎥⎥⎦ y B =

⎡⎢⎢⎢⎢⎣7 1 1

11 4 7

10 1 2

⎤⎥⎥⎥⎥⎦ .

Determine si AB = BA y encuentre un vector propio que sea común a

las matrices A y B.

Solución.Al realizar el producto entre A y B, se obtiene

AB =

⎡⎣ 13 7 723 8 516 7 4

⎤⎦ = BA.

Page 157: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.1. Triangularización de una matriz 141

Para encontrar el vector propio común a A y B, primero se establece laecuación característica de la matriz A,

pA(λ)

= −λ3 + 3λ2 − 3λ + 1 = −(λ − 1

)3= 0,

luego λ = 1 es el único valor propio con multiplicidad algebraica igual atres. Entonces,

(A − λI

)�v = (A − I)�v =

⎡⎣ 1 1 12 2 21 1 1

⎤⎦⎡⎣ xyz

⎤⎦ =

⎡⎣ 000

⎤⎦ .

Esto conduce a x − y = z. Luego, los vectores propios linealmente inde-

pendientes son �v1 =

⎡⎣ 101

⎤⎦ y �v2 =

⎡⎣ 011

⎤⎦ .

Ahora, se calcula

B�v1 =

⎡⎣ 61812

⎤⎦ y B�v2 =

⎡⎣ 033

⎤⎦ .

Al expresar B�vi como una combinación lineal de {�v1, �v2}, se tiene

V =

⎡⎣ 1 00 11 1

⎤⎦ y C =

[6 0

18 3

].

Nótese que BV = V C. Por otra parte, los valores propios de C son μ1 = 6y μ2 = −3, y los vectores propios correspondientes son �ut1 = [1 2] y �ut2 =[0 1] , respectivamente. Entonces, V �u1 = [1 2 1]t y V �u2 = [0 1 1]t

son vectores propios comunes a las matrices A y B.

Teorema 3.9 Si A y B son matrices de tamaño n × n y AB = BA,

entonces A y B pueden ser triangularizadas ortogonalmente en forma

simultánea.

Demostración.La demostración es por inducción sobre n. Por el Teorema 3.8, existe

�v1 ∈ Rn normalizado tal que

A�v1 = λ1�v1 y B�v1 = μ1�v1.

Page 158: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

142 3. Descomposición de matrices

De manera análoga, como en la demostración del Teorema 3.7 se cons-truye una matriz S ortogonal cuya primera columna sea �v1, entonces

StAS =

⎡⎢⎢⎢⎣λ1 x12 . . . x1n

0...0

⎡⎣ A1

⎤⎦⎤⎥⎥⎥⎦ y StBS =

⎡⎢⎢⎢⎣μ1 y12 . . . y1n

0...0

⎡⎣ B1

⎤⎦⎤⎥⎥⎥⎦ ,

donde A1 y B1 son matrices reales de tamaño(n− 1

)× (n− 1

). Por otra

parte,(StAS

)(StBS

)= St(AB)S puesto que St = S−1,

= St(BA)S puesto que AB = BA,

=(StBS

)(StAS

),

y por la multiplicación por bloques, se tiene⎡⎢⎢⎣ λ1μ1... λ1�y

t + �x tB1

. . . . . . . . . .

�0... A1B1

⎤⎥⎥⎦ =

⎡⎢⎢⎣ λ1μ1... μ1�x

t + �y tA1

. . . . . . . . . .

�0... B1A1

⎤⎥⎥⎦ ,

donde �x t = [x12 x13 . . . x1n] , �y t = [y12 y13 . . . y1n] , y por lo tantoA1B1 = B1A1. Los detalles para culminar la prueba son análogos a losdel Teorema 3.7 y se dejan como ejercicio para el lector.

Teorema 3.10 Si A y B son matrices simétricas de tamaños n × n,

entonces AB = BA si y solo si existe una matriz ortogonal Q de tamaño

n × n tal que QtAQ y QtBQ sean ambas diagonales.

Demostración.Supongamos que AB = BA. Por el Teorema 3.9, existe una matriz

ortogonal Q tal que QtAQ y QtBQ son ambas triangulares. Pero como Ay B son simétricas, pueden ser diagonalizables ortogonalmente. De aquíque QtAQ y QtBQ sean diagonales. Por otra parte, si QtAQ = DA yQtBQ = DB son ambas diagonales, entonces

AB =(QDAQt

)(QDBQt

)= QDADBQt

= QDBDAQt =(QDBQt

)(QDAQt

)= BA.

Esto completa la demostración.

Page 159: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.2. Factorización QR 143

3.2 Factorización QR

Esta factorización se usa ampliamente en los programas de computadorapara resolver sistemas lineales, para determinar aproximaciones por mí-nimos cuadrados y para determinar los valores propios de una matriz.

Teorema 3.11 Factorización QR

Sea A una matriz real de tamaño m × n con ρ(A) = n. Entonces

existen una matriz Q de tamaño m×n cuyas columnas son ortonormales

y una matriz no singular R de tamaño n×n triangular superior tales que

A = QR. (3.7)

Demostración.Como ρ(A) = n, entonces sus columnas son linealmente independien-

tes. Sean{�x1, �x2, . . . , �xn

}las columnas de A, las cuales constituyen una

base para el espacio generado por las columnas de A[Col(A)

]y mediante

el proceso de Gram-Schmidt, se ortonormalizan estos vectores para ob-tener

{�v1, �v2, . . . , �vn

}una base ortonormal para el espacio generado por

las columnas de A. Sea

Q =[

�v1 �v2 . . . �vn].

Al expresar cada �xj como una combinación lineal de {�v1, �v2, . . . , �vn}, setiene

�xj =n∑

i=1

rij�vi, j = 1, 2, . . . , n.

Este sistema de ecuaciones escrito en forma matricial queda

[�x1 �x2 . . . �xn

]︸ ︷︷ ︸ =[

�v1 �v2 . . . �vn]︸ ︷︷ ︸⎡⎢⎢⎢⎣

r11 r12 . . . r1n

r21 r22 . . . r2n...

.... . .

...rn1 rn2 . . . rnn

⎤⎥⎥⎥⎦ ,

A = Q[

�r1 �r2 . . . �rn]

Page 160: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

144 3. Descomposición de matrices

donde

�rk =

⎡⎢⎢⎢⎣r1k

r2k...

rnk

⎤⎥⎥⎥⎦ , k = 1, 2, . . . , n.

Por otra parte, como �vj es ortogonal a la base gen{�v1, �v2, . . . , �vk

}si j > k,

entonces es ortogonal a �xk. Por lo tanto, rjk = 0 para j > k, ya que

rjk = �v tj �xk = �vj · �xk.

Sea R =[

�r1 �r2 . . . �rn], entonces

A = QR = Q

⎡⎢⎢⎢⎢⎢⎣r11 r12 r13 . . . r1n

0 r22 r23 . . . r2n

0 0 r33 . . . r3n...

......

. . ....

0 0 0 . . . rnn

⎤⎥⎥⎥⎥⎥⎦ .

Ahora, mostremos que R es no singular. Consideremos el sistema linealR�b = �0 y multipliquemos por Q a la izquierda, es decir

QR︸︷︷︸�b = Q�0︸︷︷︸A �b = �0.

Pero como las columnas de A son linealmente independientes, el sistemahomogéneo A�b = �0 solo tiene la solución trivial. Por lo tanto, R es nosingular.

Nota 3.1 Para el caso en que A sea una matriz real de tamaño m × n

con ρ(A) = m, entonces se puede encontrar una factorización de manera

análoga a (3.7) de la forma

A = LQ, (3.8)

donde L es una matriz real de tamaño m × m triangular inferior y no

singular, y Q es una matriz real de tamaño m×n cuyas filas son ortonor-

males.

Page 161: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.2. Factorización QR 145

Ejemplo 3.6 Encuentre una factorización QR de

A =

⎡⎢⎢⎢⎢⎣4 25

0 0

3 25

⎤⎥⎥⎥⎥⎦ .

Solución.Denotemos las columnas de A por

�x1 =

⎡⎣ 403

⎤⎦ y �x2 =

⎡⎣ 25025

⎤⎦ .

Si se aplica el algoritmo de Gram-Schmidt al conjunto{�x1, �x2

}base

para el espacio generado por las columnas de A, como ‖�x1‖ = 5, se hace

�v1 =�x1

‖�x1‖ =

⎡⎣ 4/50

3/5

⎤⎦ . Después,

�v′2 = �x2 − (�x2 · �v1)�v1 =

⎡⎣ 25025

⎤⎦− 5

⎡⎣ 4/50

3/5

⎤⎦=

⎡⎣ 25025

⎤⎦−⎡⎣ 4

03

⎤⎦ =

⎡⎣ 21028

⎤⎦ .

Entonces, ‖�v′2‖ = 35 y �v2 =

⎡⎣ 3/50

4/5

⎤⎦ . Se puede verificar que{�v1, �v2

}es

una nueva base ortonormal para el espacio generado por las columnas deA, observando que �v1 · �v2 = 0. Entonces formamos la matriz

Q =[

�v1 �v2

]=

1

5

⎡⎣ 4 30 03 4

⎤⎦ .

Para encontrar R, se despeja esta matriz de A = QR, de la siguientemanera:

QtA = Qt(QR

)= IR = R.

Page 162: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

146 3. Descomposición de matrices

De esta manera, la matriz R es

R =1

5

[4 0 33 0 4

]⎡⎣ 4 250 03 25

⎤⎦ =

[5 50 35

].

El lector puede verificar que A = QR.

Si la matriz A es cuadrada, entonces se puede enunciar el Teorema 3.11de la siguiente manera.

Teorema 3.12 Toda matriz cuadrada real A puede expresarse en la for-

ma:

A = QR, (3.9)

donde Q es una matriz ortogonal propia y R es triangular superior, con

rii > 0, i = 1, 2, . . . , n − 1.

Demostración.Queda como ejercicio para el lector.

Corolario 3.12.1 Si A es ortogonal con detA = 1 entonces, en (3.9),

R = In. Si detA = −1 entonces, los elementos de R = [rij ] cumplen que

rij =

⎧⎪⎨⎪⎩ 1 si i = j,

0 si i �= j,

excepto rnn = −1.

Demostración.Si A = QR, entonces

det A = det(QR

)= det R, ya que det Q = 1

= rnn

(n− 1∏i=1

rii

).

Por tanto, se tiene que rnn = ±1 ya que det A = ±1, y la prueba delcorolario se completa.

Page 163: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.2. Factorización QR 147

Corolario 3.12.2 Si A es no singular, entonces la representación dada

en (3.9) es única.

Demostración.Supongamos que A es no singular y consideremos dos factorizaciones

distintas

A = QR y A = Q′R′,

con Q y Q′, ambas ortogonales propias, y R y R′ triangulares superiores.Entonces

I = QtQ′R′R−1 =(QtQ′)(R′R−1

)= QR.

Aquí, la matriz ortogonal I está representada como el producto de unamatriz ortogonal propia Q y una triangular superior R. Por lo tanto, deacuerdo con el Corolario 3.12.1, R = I y Q = I. Luego, R′ = R y Q′ = Qde este modo el corolario está probado.

Ejercicios 3.1

Para cada una de las siguientes matrices determine (en caso de ser

posible) las factorizaciones LU y QR y la descomposición de Schur:

1.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . 2.

⎡⎢⎣ 1 1

3 1

⎤⎥⎦ . 3.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . 4.

⎡⎢⎣ 1 2

4 3

⎤⎥⎦ .

5.

⎡⎢⎢⎢⎢⎣2 2 1

1 3 1

1 2 2

⎤⎥⎥⎥⎥⎦ . 6.

⎡⎢⎢⎢⎢⎣3 1 4

4 1 5

5 3 2

⎤⎥⎥⎥⎥⎦ . 7.

⎡⎢⎢⎢⎢⎣3 1 1

2 2 1

2 2 0

⎤⎥⎥⎥⎥⎦ . 8.

⎡⎢⎢⎢⎢⎣1 3 2

3 1 2

1 1 1

⎤⎥⎥⎥⎥⎦ .

Page 164: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

148 3. Descomposición de matrices

3.3 Polinomio mínimo

El polinomio característico de una matriz es un instrumento para calcu-lar sus valores propios. En esta sección se estudia el polinomio mínimode matrices, el cual resulta muy útil para establecer criterios sobre laposibilidad de reducir matrices a formas canónicas simples.

Definición 3.4 Polinomios de matrices

Si A es una matriz real de tamaño n × n, el polinomio pn(A) denota

la matriz que se genera si se reemplaza cada aparición de x en pn(x) por

la matriz A:

pn(A) = anAn + an− 1A

n− 1 + . . . + a1A + a0A0,

donde ai ∈ R(i = 0, 1, . . . , n

)y A0 = In.

En consecuencia, se dice que A satisface el polinomio pn(x) si pn(A) = O .

Ejemplo 3.7 Verifique si el polinomio p2(x) = x2 − 3x− 28 lo satisface

la matriz:

A =

⎡⎢⎣ 1 5

6 2

⎤⎥⎦ .

Solución.Si la matriz A satisface dicho polinomio se debe verificar que

P2(A) = A2 − 3A − 28I = O .

Como

A2 =

[31 1518 34

],

al sustituir, se tiene que

A2 − 3A − 28I =

[31 1518 34

]− 3

[1 56 2

]− 28

[1 00 1

]=

[0 00 0

].

Luego, la matriz A sí satisface el polinomio dado.

Page 165: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.3. Polinomio mínimo 149

Teorema 3.13 Teorema de Cayley-Hamilton

Sean A una matriz de tamaño n × n y

pA(λ) = det(A − λIn) = λn + cn− 1λn− 1 + . . . + c1λ + c0 = 0

su polinomio característico. Entonces, pA(A) = O . Es decir, A satisface

la ecuación

An + cn− 1An− 1 + . . . + c1A + c0A

0 = O .

El teorema es verdadero para cualquier matriz; sin embargo, la prueba quese presenta a continuación es únicamente para matrices diagonalizables.La demostración para el caso general puede verse en Apostol (1985, p.249).

Demostración.Supongamos que A es diagonalizable. Como pA(λ) es una ecuación

escalar, al multiplicarla por cualquier vector �v ∈ Rn, se tiene

pA(λ)�v =

(λn + cn− 1λ

n− 1 + . . . + c1λ + c0

)�v = �0

= λn�v + cn− 1λn− 1�v + . . . + c1λ�v + c0�v = �0.

Si �v es un vector propio correspondiente al valor propio λ, se cumple

pA(λ)�v = An�v + cn− 1A

n− 1�v + . . . + c1A�v + c0In�v = �0. (3.10)

Esto se cumple para todos los vectores propios de A. Pero como A esdiagonalizable, tiene n-vectores propios linealmente independientes, luegocualquier otro vector de Rn puede ser expresado como combinación linealde estos. Por lo tanto, (3.10) se cumple para todo vector de Rn. De aquí,

An + cn− 1An− 1 + . . . + c1A + c0In = O,

es decir que A satisface su propia ecuación característica.Sea A una matriz real de tamaño n × n y definamos

S ={pn(x)|pn(A) = O

}, n ≥ 1.

Entonces, en S se puede escoger un polinomio no nulo q(x) que tengagrado mínimo; además, se puede suponer que el coeficiente de q(x) co-rrespondiente al término de mayor grado es 1, es decir que q(x) es mónico.

Page 166: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

150 3. Descomposición de matrices

Con estas condiciones, para q(x) se puede demostrar que cualquier otropolinomio p(x) de S es múltiplo de q(x). Esto implica que si en S existieraotro polinomio r(x) mónico del mismo grado de q(x), es decir de gradomínimo, entonces r(x) = q(x).

Definición 3.5 El polinomio mínimo de una matriz A es el polinomio

no nulo de menor grado que es satisfecho por A. Se denotará por mA(x).

Como la multiplicidad algebraica de los valores propios de una matriz esa veces distinta de uno, el polinomio característico pA(x) no es necesaria-mente el polinomio de grado mínimo satisfecho por A.

Teorema 3.14 El polinomio mínimo de una matriz cuadrada A es úni-

co cuando se impone que el coeficiente del término de mayor exponente

(grado) en la indeterminada sea igual a la unidad.

Demostración.La prueba se realiza por contradicción. Supongamos que mA(x) y

m′A(x) son polinomios mínimos de A; por la Definición 3.5, ambos tienen

el mismo grado.Al considerarse los coeficientes dominantes respectivos iguales a la

unidad, el polinomio d(x) = mA(x) − m′A(x) tiene grado menor que los

polinomios mínimos y se anula también para A, y necesariamente d(x) =0. Luego, mA(x) = m′

A(x).

Teorema 3.15 Si A satisface un polinomio pn(x), entonces pn(x) es di-

visible por mA(x), polinomio mínimo de A.

Demostración.Sea mA(x) el polinomio mínimo de A, el grado de pn(x) es mayor

que el de mA(x). Por el algoritmo de la división, sabemos que se puedenencontrar polinomios q(x) y r(x) tales que

pn(x) = mA(x)q(x) + r(x),

con grad[r(x)

]< grad

[mA(x)

]. Entonces, r(x) = pn(x) − mA(x)q(x),

y como pn(A) = O, mA(A) = O . Se tiene que r(A) = O . Luego

Page 167: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.3. Polinomio mínimo 151

r(x) es el polinomio mínimo de A, lo cual contradice la hipótesis. Co-mo grad

[r(x)

]< grad

[mA(x)

], se debe tener que r(x) = 0. Por lo tanto,

mA(x) es un factor de pn(x).

Teorema 3.16 Si A y B son matrices semejantes y qn(x) es cualquier

polinomio, entonces:

qn(A)

= Pqn(B)P−1.

Demostración.Sean A y B matrices semejantes, luego existe una matriz P no singular

tal que A = PBP−1. Sea el polinomio de grado n

qn(x) = cnxn + cn− 1x

n− 1 + . . . + ckxk + . . . + c1x + c0.

Entonces,

qn(A) = cnAn + cn− 1A

n− 1 + . . . + ckAk + . . . + c1A + c0I

= cn(PBP−1

)n+ cn− 1

(PBP−1

)n− 1+ . . . + ck

(PBP−1

)k+ . . .

+ c1

(PBP−1

)+ c0I

= cn(PBnP−1

)+ cn− 1

(PBn− 1P−1

)+ . . . + ck

(PBkP−1

)+ . . .

+ c1

(PBP−1

)+ c0

(PP−1

)= P

(cnB

n + cn− 1Bn− 1 + . . . + ckB

k + . . . + c1B + c0I)P−1

= P[qn

(B)]

P−1,

como se quería demostrar.

Teorema 3.17 Matrices semejantes tienen el mismo polinomio mínimo.

Demostración.Sea mA(x) el polinomio mínimo de A. Por el Teorema 3.16, se tiene

que

mA(A) = P[mA

(B)]

P−1 = O .

Esto implica que mA(B) = O, es decir mA(x) es también el polinomiomínimo de B, porque por el Teorema 3.15 si existiera un divisor que se

Page 168: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

152 3. Descomposición de matrices

anulase para B, también se anularía para A, lo que contradice la hipó-tesis de que mA(x) es el polinomio mínimo de A. Luego los polinomiosmínimos de A y B son iguales.

El siguiente teorema establece una importante relación entre el poli-nomio característico y el polinomio mínimo.

Teorema 3.18 Si A satisface un polinomio pn(x), entonces todo valor

propio de A es también raíz de pn(x). Por consiguiente, todo valor propio

de A es una raíz del polinomio mínimo de A.

Demostración.Supóngase que A satisface pn(x) = anx

n+an− 1xn− 1+. . .+a1x+a0x

0.Si λ es un valor propio de A, entonces se puede encontrar un vector propio�v tal que A�v = λ�v. Así, A2�v = A

(A�v

)= A

(λ�v

)= λ

(A�v

)= λ

(λ�v

)= λ2�v.

Si se continúa de esta manera, se origina

Ak�v = λk�v, para todo k > 0.

Pero como pn(A) = 0, se tiene

�0 = pn(A)�v =(anA

n + an− 1An− 1 + . . . + a1A + a0I

)�v

=(anA

n)�v +

(an− 1A

n− 1)�v + . . . +

(a1A

)�v +

(a0I

)�v

= anλn�v + an− 1λ

n− 1�v + . . . + a1λ�v + a0�v

=(anλ

n + an− 1λn− 1 + . . . + a1λ + a0λ

0)�v = pn

(λ)�v,

como pn(λ) es un escalar y pn(λ)�v = �0 con �v �= �0, se concluye quepn(λ) = 0. Por ello, λ es una raíz de pn(x).

Puesto que A satisface su polinomio mínimo, todo valor propio de Aes raíz de dicho polinomio mínimo.

Ejemplo 3.8 Encuentre el polinomio minimal que satisface la matriz

dada en el Ejemplo 2.12.

Solución.En el Ejemplo 2.12, se obtuvo que los valores propios de A eran λ1 = 0

y λ2 = 2 (de multiplicidad algebraica 2). Como la multiplicidad algebraica

Page 169: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.4. Forma canónica de Jordan 153

del valor propio λ2 resultó ser igual a su multiplicidad geométrica, elpolinomio

p(x) =(x − 0

)(x − 2

)= x2 − 2x

es satisfecho por la matriz A. Veamos que

p(A)

= A2 − 2A = O,

al sustituir la matriz A se tiene que

A2 − 2A =

⎡⎣ 3 2 33 4 91 2 5

⎤⎦2

− 2

⎡⎣ 3 2 33 4 91 2 5

⎤⎦=

⎡⎣ 6 4 66 8 182 4 10

⎤⎦−⎡⎣ 6 4 6

6 8 182 4 10

⎤⎦ =

⎡⎣ 0 0 00 0 00 0 0

⎤⎦ .

Ejemplo 3.9 Encuentre el polinomio minimal que satisface la matriz

dada en el Ejemplo 2.18.

Solución.En el Ejemplo 2.18, se obtuvo que los valores propios de A eran λ1 = 1

(de multiplicidad algebraica 2) y λ2 = 7. Como se obtuvo que la multi-plicidad algebraica del valor propio λ1 era igual a su multiplicidad geo-métrica, el polinomio minimal es

mA(x) =(x − 1

)(x − 7

)= x2 − 8x + 7.

El lector puede verificar que la matriz A satisface este polinomio.

3.4 Forma canónica de Jordan

Ahora se considera una versión completa del teorema de Cayley−Hamil-ton, el cual fue estudiado en la sección anterior. Esta nueva versión seráusada para la forma canónica de Jordan que estudiaremos ahora. La formade Jordan utiliza todo el material estudiado en los capítulos precedentes.El lector que desee profundizar en este tema puede consultar Weintraub(2009).

Page 170: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

154 3. Descomposición de matrices

Definición 3.6 Bloque de Jordan

Una matriz triangular superior de tamaño r × r, Jr(λ), es un bloque

elemental de Jordan si se verifica que:

i) Todos sus elementos en la diagonal principal son iguales a λ.

ii) Todos sus elementos en la primera sobrediagonal son iguales a 1.

iii) Todos los demás elementos son iguales a 0.

De este modo, Jr(λ)

es de la forma:

Jr(λ)

=

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

λ 1 · · · 0 0

0 λ · · · 0 0

......

. . ....

...

0 0 . . . λ 1

0 0 . . . 0 λ

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦= λIr + Nr con Nr =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

0 1 . . . 0

0 0. . . 0

......

. . . 1

0 0 . . . 0

⎤⎥⎥⎥⎥⎥⎥⎥⎦,

donde Nr es una matriz nilpotente de índice r.

Nótese que las matrices λIr y Nr conmutan entre sí. Como una matriz deJordan está constituida por bloques elementales, su definición es la quesigue.

Definición 3.7 Matriz de Jordan

Una matriz J de tamaño n × n, de la forma

J =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

Jn1

(λ1

)0 0 · · · 0

0 Jn2

(λ2

)0 · · · 0

... · · · . . . · · · ...

0 · · · 0 Jns−1

(λs−1

)0

0 · · · · · · 0 Jns

(λs

)

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦,

Page 171: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.4. Forma canónica de Jordan 155

en donde Jn1,Jn2

, . . . ,Jns son bloques elementales de Jordan de órdenes

n1 ≥ n2 ≥ · · · ≥ ns con s ≥ 1, se denomina matriz de Jordan.

Teorema 3.19 Sea A una matriz real de tamaño n×n. Entonces existe

una matriz P no singular tal que

P−1AP =

⎡⎢⎢⎢⎢⎣Jn1

· · · 0

.... . .

...

0 . . . Jnμ

⎤⎥⎥⎥⎥⎦ = J , (3.11)

en donde cada Jnkes un bloque de Jordan de tamaño nk × nk y el

subíndice μ = μ1 + μ2 + . . . + μs es igual a la suma de las multiplicidades

geométricas de los valores propios distintos de A. Un mismo valor propio

λk puede estar en distintos bloques de Jordan Jnk, pero el número total

de bloques con ese valor propio es igual a su multiplicidad geométrica μk,

mientras que el número total de elementos en la diagonal principal con

ese valor propio es igual a su multiplicidad algebraica mk. Los números

nk y el número total de bloques quedan determinados de manera única

por la matriz A.

Demostración.Para identificar los pasos a seguir en la demostración, supongamos

que A es una matriz real de tamaño 2×2 que tiene un único valor propioλ. Sea �u1 el único vector propio correspondiente a λ. Entonces A no esdiagonalizable. Veamos que

P−1AP =

[λ 10 λ

].

Como la multiplicidad algebraica es diferente de la multiplicidad geomé-trica, se encuentra un vector propio generalizado �u2.

Page 172: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

156 3. Descomposición de matrices

Por el Teorema 2.33, los vectores �u1 y �u2 son linealmente indepen-dientes, luego P =

[�u1 �u2

]es no singular. Por lo tanto,

AP = A[

�u1 �u2

]=

[A�u1 A�u2

]=

[λ�u1 A�u2

].

Pero de la ecuación (2.37), se tiene que A�u2 = λ�u2 + �u1, de manera que

AP =[

λ�u1 λ�u2 + �u1

].

Por otra parte,

PJ =[

�u1 �u2

] [ λ 10 λ

]=

[λ�u1 �u1 + λ�u2

].

Por lo tanto, AP = PJ , lo que significa que P−1AP = J . Luego, elteorema es válido para matrices de tamaño 2 × 2.

Para probar el teorema para el caso general, se escribe P en términosde sus columnas como

P =[

�u1 �u2 . . . �un],

donde algunos �uj son vectores propios generalizados. Consideremos �uicomo el elemento de una hilera de vectores encabezados por algún vectorpropio �ui− 1 y determinados por

A�ui = λi�ui + θi�ui− 1, (3.12)

donde �u0 = �0, λi es el valor propio en el bloque de Jordan que afecta a�ui y

θi =

{0 si �ui es un vector propio,1 si �ui es un vector propio generalizado.

Nótese que si θi = 1, entonces �ui es el único vector adicional en la hilera yel bloque correspondiente de Jordan es de tamaño 2× 2. Así, cada hileraproduce un solo bloque en la matriz J . Luego, la clave para encontrar laforma de Jordan de A se convierte en la búsqueda de las hileras de losvectores definidos en (3.12).

Básicamente, se tiene que mostrar de qué manera se pueden construirestas hileras para cada matriz A ∈ Mnn.

Empleando la metodología dada en Filippov (1971), se procede porinducción matemática, partiendo del hecho de que cada matriz de tamaño1 × 1 está ya en su forma de Jordan. La prueba consiste en suponer que

Page 173: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.4. Forma canónica de Jordan 157

se logra la construcción para todas las matrices de orden menor que n(esta es la “hipótesis de inducción”), y después se aplican tres pasos paraobtener la forma de Jordan de una matriz de tamaño n × n. Los pasosque se aplican son:

(i) Se supone que A es singular, entonces su espacio columna[Col(A)

]tiene dimensión p < n. En lo que respecta solamente a este es-pacio pequeño, la hipótesis de inducción garantiza que una formade Jordan es posible; luego, deben existir p vectores linealmenteindependientes �ui ∈ Col(A) tales que

A�ui = λi�ui + θi�ui− 1. (3.13)

(ii) Se asume que el espacio nulo[ker(A)

]y Col(A) tienen una intersec-

ción de dimensión q. Luego, cada vector del ker(A) es también unvector propio correspondiente al valor propio λ = 0. Por lo tanto, setienen q hileras en el paso (i) que comienzan a partir de este valorpropio, y nos interesan los vectores �ui que están al final de dichashileras. Puesto que cada uno de estos q vectores está en Col(A),estos se pueden expresar como una combinación de las columnas deA, es decir:

�ui = A�vi, para algún �vi ∈ Rn.

(iii) Se considera que ν(A)

= dim[ker(A)

]= n − p. Entonces, inde-

pendientemente de su intersección q-dimensional con Col(A), debecontener n − p − q vectores básicos adicionales �wi fuera de esa in-tersección.

Al juntar estos pasos, se obtiene el teorema de Jordan.

Los p vectores �ui, los q vectores �vi y los n− p− q vectores �wi formanlas hileras de Jordan para la matriz A y estos vectores son linealmenteindependientes. Si estos vectores conforman las columnas de la matriz P ,entonces P es no singular y P−1AP = J está en la forma de Jordan.

Si se quieren renumerar estos vectores como �u1, �u2, . . . , �un y hacerloscorresponder con las condiciones de la ecuación (3.12), entonces cada �vise debe colocar inmediatamente después del �ui del cual se origina; estocompleta una hilera en la cual λi = 0. Los �wi vienen al final, cada unosolo en su propia hilera; de nuevo el valor propio es cero, ya que los �wiestán en el ker(A). Los bloques que tienen valores propios diferentes decero se completaron en el paso (i), los bloques con valores propios iguales

Page 174: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

158 3. Descomposición de matrices

a cero crecen en una fila y una columna en el paso (ii), y el paso (iii)contribuye con cualquiera de los bloques de tamaño 1 × 1, Ji = [0] .

En esta construcción, el único punto técnico es verificar la independen-cia de toda la colección �ui, �vi y �wi. Supongamos que alguna combinaciónde estos es cero, es decir

p∑i=1

αi�ui +

q∑i=1

βi�vi +

n− p− q∑i=1

γi �wi = �0. (3.14)

Si se premultiplica por A y se usan las relaciones dadas en (3.13) para �ui

p∑i=1

αi[λi�ui + θi�ui− 1

]+

q∑i=1

βiA�wi︸︷︷︸�vi

= �0, (3.15)

como los A�vi son los �ui especiales al final de las hileras correspondientesa λi = 0, no pueden aparecer en la primera sumatoria. Luego, (3.15) esuna combinación de los �ui, los cuales son independientes por la hipótesisde inducción (proporcionan la forma de Jordan en Col(A)). Por lo tanto,se concluye que cada βi es cero. Si se reemplaza en (3.14), se llega a

p∑i=1

αi�ui = −n− p− q∑i=1

γi �wi.

Como el lado izquierdo está en Col(A) y los �wi son independientes de eseespacio, cada γi debe ser cero. Por lo tanto,

p∑i=1

αi�ui = �0

y de la independencia de los �ui, se tiene que todos los αi = 0.Si la matriz A inicial no es singular, se pueden aplicar los tres pasos

a A = A− κIn (si se elige la constante κ de manera que A sea singular yque pueda ser cualquiera de los valores propios de A). El algoritmo poneA en su forma de Jordan P−1AP = J al generar las hileras �ui de las �ui,�vi y �wi. Entonces, la forma de Jordan de A utiliza las mismas hileras yla misma P

P−1AP = P−1(A + κIn

)P = J + P−1κP = J + κIn = J .

Esto completa la prueba de que cada A es semejante a alguna matriz deJordan J . Excepto por el reordenamiento de los bloques, es semejante asolo una J . En este sentido, A tiene una forma de Jordan única.

Page 175: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.4. Forma canónica de Jordan 159

Definición 3.8 Forma canónica de Jordan

La matriz J dada en el Teorema 3.19 se denomina forma canónica

de Jordan de A.

Ejemplo 3.10

Encuentre una matriz P no singular tal que la matriz A dada en el

Ejemplo 2.22 sea semejante a una matriz de Jordan.

Solución.En el Ejemplo 2.22, se obtuvo que el único valor propio de A era

λ = 2 de multiplicidad algebraica 3 y además los siguientes vectorespropios generalizados para la matriz A:

�v1 =

⎡⎣ 011

⎤⎦ , �v2 =

⎡⎣ 110

⎤⎦ y �v3 =

⎡⎣ 230

⎤⎦ .

Por tanto,

P =

⎡⎣ 0 1 21 1 31 0 0

⎤⎦ y P−1 =

⎡⎣ 0 0 13 2 21 1 1

⎤⎦ .

Al realizar el producto P−1AP , se obtiene⎡⎣ 0 0 13 2 21 1 1

⎤⎦⎡⎣ 1 1 12 1 13 2 4

⎤⎦⎡⎣ 0 1 21 1 31 0 0

⎤⎦ =

⎡⎣ 2 1 00 2 10 0 2

⎤⎦ .

Nótese que en la diagonal de la matriz de Jordan, aparecen los valorespropios de A.

Ejemplo 3.11

Encuentre una matriz P no singular tal que P−1AP sea una matriz

de Jordan, para la matriz A dada en el Ejemplo 3.5.

Page 176: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

160 3. Descomposición de matrices

Solución.En el Ejemplo 3.5, se obtuvo que λ = 1 era el único valor propio

con multiplicidad algebraica igual a tres, y además se encontraron los

siguientes vectores propios: �v1 =

⎡⎣ 102

⎤⎦ , �v2 =

⎡⎣ 023

⎤⎦ . Para encontrar un

vector propio generalizado �v3, se calcula

(A − I)�v3 = c1�v1 + c2�v2⎡⎣ 4 3 28 6 44 3 2

⎤⎦⎡⎣ xyz

⎤⎦ = c1

⎡⎣ 102

⎤⎦ + c2

⎡⎣ 023

⎤⎦ .

Al realizar las operaciones por filas, se obtiene⎡⎣ 4 3 2 | c1

8 6 4 | 2c2

4 3 2 | 2c1 − 3c2

⎤⎦ ∼F2 − 2F1

F3 +F2

⎡⎣ 4 3 2 | c1

0 0 0 | 2c2 − 2c1

0 0 0 | 3c1 − 3c2

⎤⎦ .

Para que el sistema tenga infinitas soluciones, c1 = c2; luego, 4x − 3y −2z = c1. Por lo tanto, z = 2x− 3

2y− 12c1. Si se hace x = y = 0 y c1 = 1, se

obtiene el vector propio generalizado: �v3 = 12

⎡⎣ 001

⎤⎦ . Por consiguiente,

P =

⎡⎣ 1 1 00 2 02 1 1

2

⎤⎦ y P−1 =

⎡⎣ 1 12 0

0 12 0

4 3 2

⎤⎦ .

Obsérvese que la segunda columna de P es una combinación lineal de losdos vectores propios que constituyen la base del espacio propio asociadoal valor propio λ = 1. Si se realiza el producto P−1AP , se llega a⎡⎣ 1 1

2 00 1

2 04 3 2

⎤⎦⎡⎣ 5 3 28 5 44 3 3

⎤⎦⎡⎣ 1 1 00 2 02 1 1

2

⎤⎦ =

⎡⎣ 1 0 00 1 10 0 1

⎤⎦ .

El lector puede notar que sobre la diagonal de la matriz de Jordan seencuentra el respectivo valor propio de la matriz A.

Page 177: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.4. Forma canónica de Jordan 161

Ejercicios 3.2

1. Sean p2(x) = x2 − 2x − 3, q2(x) = x3 − 3x − 2 y las matrices

A =

⎡⎢⎣ 1 2

1 3

⎤⎥⎦ y B =

⎡⎢⎣ 1 1

3 1

⎤⎥⎦ .

Determine:

a. p2(A). b. p2(B). c. q2(A). d. q2(B).

e. p2(A + B). f. p2(AB). g. q2(A + B). h. q2(AB).

2. Calcular el polinomio mínimo y la descomposición de Jordan de las

siguientes matrices:

a.

⎡⎢⎣ 6 1

1 4

⎤⎥⎦ . b.

⎡⎢⎣ 8 7

7 6

⎤⎥⎦ . c.

⎡⎢⎣ 4 1

1 2

⎤⎥⎦ .

d.

⎡⎢⎣ a b

b c

⎤⎥⎦ . e.

⎡⎢⎢⎢⎢⎣3 1 1

6 2 3

2 1 2

⎤⎥⎥⎥⎥⎦ . f.

⎡⎢⎢⎢⎢⎣1 2 1

1 1 1

2 3 2

⎤⎥⎥⎥⎥⎦ .

3. Encuentre todas las respectivas formas canónicas de Jordan para

las matrices cuyos polinomios característicos pA(x)

y minimales

mA

(x)

son los siguientes:

a. pA(x)

=(x − 1

)4(x − 3

)2, mA

(x)

=(x − 1

)2(x − 3

)2.

b. pA(x)

=(x − 5

)4, mA

(x)

=(x − 5

)2.

c. pA(x)

=(x − 2

)4(x − 4

)4, mA

(x)

=(x − 2

)2(x − 4

)2.

Page 178: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

162 3. Descomposición de matrices

4. Demuestre que la m-ésima potencia de la matriz de Jordan es:

Jm =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

Jmn1

(λ1) 0 0 · · · 0

0 Jmn2

(λ2) 0 · · · 0

... · · · . . . · · · ...

0 · · · 0 Jmns−1

(λs−1) 0

0 · · · · · · 0 Jmns

(λs)

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦,

donde la m-ésima potencia de un bloque de Jordan de tamaño nk×nk, para m ≤ nk−1, es dada por

Jmnk

(λk) =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

λmk(m1

)λm−1k

(m2

)λm−2k · · · (

mnk−1

)λm−nk+1k

0 λmk(m1

)λm−1k · · · (

mnk−2

)λm−nk+2k

......

. . . . . ....

0 0 · · · λmk(m1

)λm−1k

0 0 · · · 0 λmk

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦.

3.5 Raíces cuadradas

Si se considera un número a ∈ R, como(−a

)2= a2, es evidente que

para cualquier a > 0, se tienen dos raíces cuadradas; una positiva yotra negativa; mientras que cuando a < 0, sus raíces cuadradas son dosimaginarios puros, una raíz es la conjugada de la otra. En general, sia ∈ C, también a tiene dos raíces cuadradas distintas. En esta secciónse extiende el concepto de raíz cuadrada para estudiar la raíz cuadradade una matriz de tamaño n × n, tema poco trabajado en la mayoría detextos de álgebra lineal.

Definición 3.9 Sea A una matriz real de tamaño n × n. Una matriz X

de tamaño n × n se llama raíz cuadrada de A si cumple que

X2 = A. (3.16)

Page 179: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 163

La matriz X puede tener algunos elementos complejos.

Cuando la matriz es de tamaño 2× 2, existe un método sencillo paradeterminar sus raíces cuadradas, el cual fue presentado en Cayley (1858,p. 25) y es dado en el teorema que sigue.

Teorema 3.20 Método de Cayley

Sea A una matriz real de tamaño 2 × 2, entonces la raíz cuadrada de

A viene dada por

A1

2 =1√

tr(A) + 2δ

[A + δI2

], (3.17)

donde δ = ±√

det(A). Cuando tr(A) + 2δ �= 0 entonces A tiene 4 raíces.

Demostración.

Sea A =[a bc d

]. Luego si la matriz dada en (3.17) es la raíz cuadrada

de A, entonces A =(A

1

2

)(A

1

2

)(A

1

2

)2=

⎛⎝ 1√tr(A) ± 2

√detA

⎞⎠2 [a ±√

det A b

c d ±√det A

]2

=1

tr(A) ± 2√

det A

[a2 + ad ± 2a

√detA ba + bd ± 2b

√det A

ca + cd ± 2c√

det A da + d2 ± 2d√

detA

].

De este modo, (A

1

2

)2=

(a + d

)± 2√

det A

tr(A) ± 2√

det A

[a bc d

].

Pero como tr(A) = a + d, se tiene que(A

1

2

)2= A.

Ejemplo 3.12 Determine para cada una de las siguientes matrices, una

raíz cuadrada:

A =

⎡⎢⎣ 2 1

0 2

⎤⎥⎦ y B =

⎡⎢⎣ 4 2

2 4

⎤⎥⎦ .

Page 180: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

164 3. Descomposición de matrices

Solución.

• Para la matriz A, se tiene que

tr(A) = 4 y det A = 4.

Como tr(A) = 2√

detA, entonces A posee 2 raíces cuadradas. Unaraíz cuadrada de A sería

A1

2 =1

2√

2

[2 + 2 1

0 2 + 2

]=

[ √2 1

4

√2

0√

2

],

y multiplicando por −1, se obtiene la otra raíz.

El lector puede verificar que(A

1

2

)2= A.

• Para la matriz B, se tiene que

tr(B) = 8 y det B = 20.

Como tr(B) �= ±2√

detB, entonces B posee 4 raíces cuadradas.Una raíz cuadrada de B es

B1

2 =1

2√

2 +√

5

[4 + 2

√5 2

2 4 + 2√

5

]=

[ √√5 + 2

√√5 − 2√√

5 − 2√√

5 + 2

].

Nótese que −B1

2 también es raíz y otra raíz cuadrada de B es

B1

2 =1

2√

2 −√5

[4 − 2

√5 2

2 4 − 2√

5

]= i

[ √√5 − 2

√√5 + 2√√

5 + 2√√

5 − 2

].

En este caso, −B1

2 también es raíz; el lector puede veficarlo.

Teorema 3.21 Sea D = [dii] una matriz real diagonal de tamaño n×n,

entonces una raíz cuadrada de D es:

D1

2 =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

√d11 0 . . . 0

0√

d22 . . . 0

......

. . ....

0 0 . . .√

dnn

⎤⎥⎥⎥⎥⎥⎥⎥⎦. (3.18)

Page 181: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 165

Demostración.Queda como ejercicio para el lector.

Nota 3.2 Como cada elemento dii tiene dos raíces cuadradas√

dii y

−√dii, entonces en la matriz (3.18), se puede reemplazar por la otra raíz

del elemento dii y se obtiene una nueva raíz cuadrada para D.

Teorema 3.22 Sea A una matriz real de tamaño n× n diagonalizable y

sea P una matriz no singular tal que la matriz D = P−1AP es diagonal.

Entonces una raíz cuadrada de A es

A1

2 = PD1

2 P−1, (3.19)

donde D1

2 es definida como en (3.18).

Demostración.La demostración consiste en un cálculo directo,(A

1

2

)2=

(PD

1

2 P−1)(

PD1

2 P−1)

= P(D

1

2

)2P−1 = PDP−1 = A.

Así, queda el teorema probado.

Cuando son iguales la multiplicidad algebraica y la multiplicidad geo-métrica de los valores propios de una matriz A, se tiene que A es semejantea una matriz diagonal D cuyos elementos son los valores propios de A.Por lo tanto, si A es diagonalizable como cada valor propio tiene dosraíces cuadradas, entonces el número de raíces cuadradas de la matriz Aes igual a 2n. Si todos los valores propios de A son nulos, entonces A notiene raíz cuadrada.

Ejemplo 3.13 Determine las raíces cuadradas de la siguiente matriz:

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

12 1 2 11

7 11 5 12

10 3 16 1

3 4 7 15

⎤⎥⎥⎥⎥⎥⎥⎥⎦.

Page 182: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

166 3. Descomposición de matrices

Solución.

Para la matriz A, se tiene que el polinomio característico es

pA(λ) = λ4 − 54λ3 + 969λ2 − 6676λ + 14400.

Entonces, sus valores propios son λ1 = 4, λ2 = 9, λ3 = 16 y λ4 = 25. Lamatriz A se puede expresar como

A =

⎡⎢⎢⎣23

234

115144

115252

1 234

11548 0

13

234

11572

115252

13 0 115

144115252

⎤⎥⎥⎦⎡⎢⎢⎣

4 0 0 00 9 0 00 0 16 00 0 0 25

⎤⎥⎥⎦⎡⎢⎢⎣

0 1 1 1423

423

423 0

48115

48115 0 48

11584115 0 84

11584115

⎤⎥⎥⎦ .

Como A tiene 4 valores propios distintos no nulos, entonces posee 24 = 16raíces cuadradas, al tomar todas las raíces positivas de los valores propios

A1

2 =

⎡⎢⎢⎣23

234

115144

115252

1 234

11548 0

13

234

11572

115252

13 0 115

144115252

⎤⎥⎥⎦⎡⎢⎢⎣

2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦⎡⎢⎢⎣

0 1 1 1423

423

423 0

48115

48115 0 48

11584115 0 84

11584115

⎤⎥⎥⎦

=1

3

⎡⎢⎢⎣10 1 0 53 9 3 64 1 12 11 2 3 11

⎤⎥⎥⎦ .

Para obtener las otras raíces cuadradas de la matriz A, se modifican loselementos de D

1

2 por las raíces negativas de los valores propios, como semuestra a continuación

A1

2 =1

3

⎡⎢⎢⎣10 9 8 133 3 15 184 3 16 51 6 7 7

⎤⎥⎥⎦ cuando D1

2 =

⎡⎢⎢⎣2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦ ;

A1

2 =1

3

⎡⎢⎢⎣8 17 18 5

21 27 15 622 19 6 11 2 3 11

⎤⎥⎥⎦ tomando D1

2 =

⎡⎢⎢⎣2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦ ;

Page 183: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 167

A1

2 =

⎡⎢⎢⎣6 3 0 17 5 1 64 5 4 53 2 1 1

⎤⎥⎥⎦ asumiendo D1

2 =

⎡⎢⎢⎣2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦ ;

A1

2 =1

3

⎡⎢⎢⎣0 1 10 53 9 3 66 1 2 119 2 7 1

⎤⎥⎥⎦ con D1

2 =

⎡⎢⎢⎣2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦ .

Nótese que en la matriz D1

2 , se ha modificado solo un valor propio; ahora,se consideran las raíces cuadradas de A cuando se cambian dos valorespropios.

A1

2 =1

3

⎡⎢⎢⎣8 9 10 13

21 15 3 1822 15 2 51 6 7 7

⎤⎥⎥⎦ cuando D1

2 =

⎡⎢⎢⎣2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦ ;

A1

2 =1

3

⎡⎢⎢⎣18 17 8 521 27 15 612 19 16 119 2 7 1

⎤⎥⎥⎦ tomando D1

2 =

⎡⎢⎢⎣2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦ ;

A1

2 =

⎡⎢⎢⎣0 3 6 11 1 5 62 1 2 53 2 1 1

⎤⎥⎥⎦ asumiendo D1

2 =

⎡⎢⎢⎣2 0 0 00 3 0 00 0 4 00 0 0 5

⎤⎥⎥⎦ .

Se puede verificar que estas 8 matrices y sus respectivas matrices negati-vas son las 16 raíces cuadradas de A.

Teorema 3.23 Sea T = [tij ] una matriz triangular superior de tamaño

n × n, con a lo más un elemento nulo en la diagonal. Entonces, existe

T1

2 = [τij ] y sus elementos cumplen que

τij =

⎧⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎩

√tii j = i,

tijτii + τjj

j = i + 1,

1

τii + τjj

(tij −

j−1∑k=i+1

τikτkj

)j > i + 1.

(3.20)

Page 184: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

168 3. Descomposición de matrices

Demostración.La demostración es por inducción sobre n. Vamos a probar que si

los elementos dados en (3.20) son las entradas de la raíz cuadrada de T ,entonces

T =(T

1

2

)(T

1

2

).

Si n = 1, T = [t] es una matriz real de tamaño 1 × 1 que es triangular,luego (

T1

2

)2=

[ √t]2

= [t] = T.

Para n = 2, se tiene que

(T

1

2

)2=

⎡⎣ √t11

t12√t11 +

√t22

0√

t22

⎤⎦2

=

⎡⎣ t11 t12

√t11 +

√t22√

t11 +√

t220 t22

⎤⎦ = T ;

supóngase que es cierto para todas las matrices triangulares de ordenn − 1, es decir que existe una matriz de tamaño

(n − 1

)× (n − 1

),

T1

2

n− 1 =

⎡⎢⎢⎢⎢⎢⎣τ11 τ12 τ13 . . . τ1n− 1

0 τ22 τ23 . . . τ2n− 1

0 0 τ33 . . . τ3n− 1...

......

. . ....

0 0 0 . . . τn− 1 n− 1

⎤⎥⎥⎥⎥⎥⎦ ,

tal que(T

1

2

n− 1

)2= Tn− 1. Como una matriz triangular T de orden n, se

puede particionar como

T =

⎡⎢⎢⎣ Tn− 1... �U

. . . . . . .

�0t... tnn

⎤⎥⎥⎦ , donde �U =

⎡⎢⎢⎢⎣t1nt2n...

tn− 1n

⎤⎥⎥⎥⎦ ,

por la hipótesis de inducción

T1

2 =

⎡⎢⎢⎣ T1

2

n− 1

... �c. . . . . . .

�0t... τnn

⎤⎥⎥⎦ con τnn =√

tnn,

Page 185: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 169

y con

�c =

⎡⎢⎢⎢⎣τ1n

τ2n...

τn− 1n

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

1τ11 + τnn

(t1n −

n− 1∑k=2

τ1kτkn

)1

τ22 + τnn

(t2n −

n− 1∑k=3

τ2kτkn

)...

tn − 1 n

τn − 1 n − 1 + τnn

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦.

Luego,

(T

1

2

)2=

⎡⎢⎢⎣ T1

2

n− 1

... �c. . . . . . .

�0t... τnn

⎤⎥⎥⎦2

=

⎡⎢⎢⎢⎣Tn− 1

...(

T1

2

n− 1 + τnnIn− 1

)�c

. . . . . . . . . . . . .

�0t... τ2

nn

⎤⎥⎥⎥⎦ .

Nótese que(

T1

2

n− 1 + τnnIn− 1

)�c = �U ,

⎡⎢⎢⎢⎢⎢⎣

�τ11 + τnn

�τ12 . . . τ1n− 1

0�τ22 + τnn

�. . . τ2n− 1

0 0 . . . τ3n− 1...

.... . .

...0 0 . . .

�τn − 1 n − 1 + τnn

⎤⎥⎥⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎣τ1n

τ2n

τ3n...

τn− 1n

⎤⎥⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎢⎣t1nt2nt3n...

tn− 1n

⎤⎥⎥⎥⎥⎥⎦ .

Esto completa la prueba.

Ejemplo 3.14 Determine una raíz cuadrada para la siguiente matriz:

A =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

4 15 27 19

0 9 21 22

0 0 16 18

0 0 0 25

⎤⎥⎥⎥⎥⎥⎥⎥⎦.

Solución.Usando el procedimiento descrito en (3.20), se tiene que

τ11 =√

t11 = 2, τ22 =√

t22 = 3, τ33 =√

t33 = 4,

Page 186: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

170 3. Descomposición de matrices

τ44 =√

t44 = 5, τ12 =t12

τ11 + τ22= 3, τ23 =

t23τ22 + τ33

= 3,

τ34 =t34

τ33 + τ44= 2, τ13 =

t13 −(τ12τ23

)τ11 + τ33

= 3, τ24 =t24 −

(τ23τ34

)τ22 + τ44

= 2,

finalmente

τ14 =t14 −

(τ12τ24 + τ13τ34

)τ11 + τ44

= 1,

luego,

A1

2 =

⎡⎢⎢⎣2 3 3 10 3 3 20 0 4 20 0 0 5

⎤⎥⎥⎦ .

El lector puede verificar que(A

1

2

)2= A.

Teorema 3.24 Sea A una matriz real de tamaño n× n con valores pro-

pios reales (a lo más uno igual a cero) y sea P una matriz no singular tal

que la matriz, T = P−1AP es triangular. Entonces, una raíz cuadrada

de A es,

A1

2 = PT1

2 P−1, (3.21)

donde los elementos de T1

2 están dados en (3.20).

Demostración.La demostración consiste en un cálculo directo(

A1

2

)2=

(PT

1

2 P−1)(

PT1

2 P−1)

= P(T

1

2

)2P−1 = PTP−1 = A.

Así, queda el teorema probado.

Hasta este momento hemos considerado las raíces cuadradas de matricesdiagonalizables o triangularizables, pero como todas las matrices no sepueden factorizar de esta manera, a continuación se presentan algunosmétodos para obtener las raíces cuadradas de una matriz.

Page 187: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 171

Teorema 3.25 Si A es una matriz real de tamaño 3 × 3 con a lo más

un valor propio nulo, entonces sus raíces cuadradas son

A1

2 =[A + αI

]−1[βA +

(√λ1

√λ2

√λ3

)I], (3.22)

donde α =2∑

i=1

3∑j= i+1

(√λi√

λj)

y β =3∑

k=1

√λk.

El teorema es válido para cualquier matriz; sin embargo, la prueba que sepresenta en este material es únicamente para matrices triangularizables.

Demostración.Supongamos que A es una matriz cuadrada con valores propios reales.

Por el Teorema 3.7, es semejante a una matriz triangular superior T , luegopuede expresarse como

A = QTQt, (3.23)

donde Q es una matriz ortogonal y

T =

⎡⎣ λ1 a b0 λ2 c0 0 λ3

⎤⎦ . (3.24)

Con λ1, λ2, λ3 los valores propios de A. Al reemplazar (3.23) en (3.22),se tiene que

A1

2 =[QTQt + αI

]−1[β(QTQt

)+

√det

(QTQt

)I]

=[Q(T + αI

)Qt

]−1[Q(βT +

√det TI

)Qt

]= Q

[T + αI

]−1QtQ

[βT +

√detTI

]Qt

= Q[T + αI

]−1[βT +

√det TI

]Qt.

Es decir, al utilizar la descomposición de Schur, se llega a que

A1

2 = QT1

2 Qt.

Luego, se debe demostrar que

T1

2 =[T + αI

]−1[βT +

√det TI

], (3.25)

Page 188: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

172 3. Descomposición de matrices

Para ello, se define

λij =√

λi +√

λj . (3.26)

Esto permite factorizar α y β de la siguiente manera

α =√

λ1

√λ2 +

√λ1

√λ3 +

√λ2

√λ3 = λ12 λ13 − λ1

= λ12 λ23 − λ2 = λ13 λ23 − λ3

β = λ12 +√

λ3 =λ12 λ13 −

√λ2λ3√

λ1

=λ12 λ23 −

√λ1λ3√

λ2=

λ13 λ23 −√

λ1λ2√λ3

.

Por lo tanto,

T + αI =

⎡⎣ λ1 a b0 λ2 c0 0 λ3

⎤⎦ +(√

λ1λ2 +√

λ1λ3 +√

λ2λ3

)⎡⎣ 1 0 00 1 00 0 1

⎤⎦=

⎡⎣ λ12 λ13 a b0 λ12 λ23 c0 0 λ13 λ23

⎤⎦ ,

y si se hace ξ = λ12 λ13 λ23, entonces

T + αI = ξ

⎡⎢⎣1λ23

0 1λ13

0 0 1λ12

⎤⎥⎦ ,

luego su inversa es

(T + αI

)−1=

1

ξ

⎡⎣ λ23 − aλ12

acξ− b

λ13

0 λ13 − cλ23

0 0 λ12

⎤⎦ . (3.27)

Por otra parte,

βT +√

detTI =(√

λ1 +√λ2 +

√λ3

)⎡⎣ λ1 a b0 λ2 c0 0 λ3

⎤⎦ +√λ1λ2λ3

⎡⎣ 1 0 00 1 00 0 1

⎤⎦ ,

la cual en términos de ξ, se puede expresar como

βT +√

det TI = ξ

⎡⎢⎣√λ1

λ23aβξ

bβξ

0√λ2

λ13cβξ

0 0√λ3

λ12

⎤⎥⎦ . (3.28)

Page 189: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 173

Al reemplazar las matrices obtenidas en (3.27) y (3.28), en la expre-sión (3.25) se tiene

T1

2 =

⎡⎣√

λ1aλ12

bλ13

− acξ

0√

λ2cλ23

0 0√

λ3

⎤⎦ .

El lector puede verificar que los elementos de esta última matriz coincidencon los dados en el Teorema 3.23.

Ejemplo 3.15 Determine las raíces cuadradas para la matriz dada a

continuación:

A =

⎡⎢⎢⎢⎢⎣3 1 2

1 2 1

1 1 0

⎤⎥⎥⎥⎥⎦ .

Solución.El polinomio característico de la matriz A es

pA(λ) = −λ3 + 5λ2 − 8λ + 4.

De esta suma, se tiene que

λ1 = 1, λ2 = 2 y λ3 = 2.

Como A tiene 2 valores propios distintos no nulos, entonces posee 22 =4 raíces cuadradas. Si se consideran las raíces positivas de los valorespropios, se tiene que

α = 2 + 2√

2 y β = 1 + 2√

2.

Por lo tanto, una raíz cuadrada de A es

A1

2 =[A +

(2 + 2

√2)I]−1[(

1 + 2√

2)A +

√4I

],

Page 190: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

174 3. Descomposición de matrices

al sustituir se tiene que

A1

2 =�1 + 2

√2�

⎡⎣ 5 + 2√

2 −1 2−1 4 + 2

√2 −1

−1 1 2 + 2√

2

⎤⎦−1⎡⎢⎣ 19+4

√2

7 −1 2

−1 12+4√

27 −1

−1 1 4√

2−27

⎤⎥⎦=

4√

2 − 5

8

⎡⎣ 3 + 2√

2 4 − 2√

2 2√

2 − 5

1 4 + 2√

2 11 2

√2 − 4 9

⎤⎦⎡⎢⎣ 19+4

√2

7 −1 2

−1 12+4√

27 −1

−1 1 4√

2−27

⎤⎥⎦=

√2

4

⎡⎣ 5 2√

2 − 4 5 − 2√

2−1 4 −1

−1 4 − 2√

2 2√

2 − 1

⎤⎦ .

Nótese que −A1

2 también es raíz, verifiquemos que en efecto son raícescuadradas

(±A

1

2

)2=

2

16

⎡⎣ 5 2√

2 − 4 5 − 2√

2−1 4 −1

−1 4 − 2√

2 2√

2 − 1

⎤⎦⎡⎣ 5 2√

2 − 4 5 − 2√

2−1 4 −1

−1 4 − 2√

2 2√

2 − 1

⎤⎦=

⎡⎣ 3 −1 2−1 2 −1−1 1 0

⎤⎦ .

Si se consideran las raíces negativas de los valores propios iguales, se tieneque

α = 2 − 2√

2 y β = 1 − 2√

2.

Por lo tanto, otra raíz cuadrada de A es

A1

2 =[A +

(2 − 2

√2)I]−1[(

1 − 2√

2)A +

√4I

]=

⎡⎣ 5 − 2√

2 −1 2−1 4 − 2

√2 −1

−1 1 2 − 2√

2

⎤⎦−1 ⎡⎣ 5 − 6√

2 2√

2 − 1 2 − 4√

2

2√

2 − 1 4 − 4√

2 2√

2 − 1

2√

2 − 1 1 − 2√

2 2

⎤⎦=

3 + 2√

2

8

⎡⎣ 3 − 2√

2 2√

2 + 4 −2√

2 − 5

1 4 − 2√

2 11 −2

√2 − 4 9

⎤⎦⎡⎣ 5 − 6√

2 2√

2 − 1 2 − 4√

2

2√

2 − 1 4 − 4√

2 2√

2 − 1

2√

2 − 1 1 − 2√

2 2

⎤⎦=

√2

4

⎡⎣ −5 4 + 2√

2 −5 − 2√

21 −4 1

1 −4 − 2√

2 1 + 2√

2

⎤⎦ .

Page 191: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 175

El lector puede verificar que esta matriz y su respectiva matriz negativatambién son raíces cuadradas de A.

Teorema 3.26 Si A es una matriz real de tamaño 4 × 4 con a lo más

un valor propio nulo, entonces sus raíces cuadradas son:

A1

2 =[αA + βI

]−1[A2 + γA +

(√λ1

√λ2

√λ3

√λ4

)I], (3.29)

donde α =4∑

k=1

√λk, β =

∑k> j > i

√λi√

λj√

λk y γ =∑j > i

√λi√

λj .

Demostración.Supongamos que A es una matriz cuadrada con valores propios reales.

Por el Teorema 3.7, es semejante a una matriz triangular superior T.Luego, puede expresarse como

A = QTQt, (3.30)

donde Q es una matriz ortogonal y

T =

⎡⎢⎢⎣λ1 a b c0 λ2 d e0 0 λ3 f0 0 0 λ4

⎤⎥⎥⎦ . (3.31)

Con λ1, λ2, λ3, λ4 los valores propios de A. Al reemplazar (3.30) en (3.29),se tiene que

A1

2 =[αQTQt + βI

]−1[(QTQt

)2+ γQTQt +

√det

(QTQt

)I]

=[Q(αT + βI

)Qt

]−1[Q(T 2 + γT +

√det TI

)Qt

]= Q

[αT + βI

]−1QtQ

[T 2 + γT +

√det TI

]Qt

= Q[αT + βI

]−1[T 2 + γT +

√detTI

]Qt.

Es decir, al utilizar la descomposición de Schur, se llega a que

A1

2 = QT1

2 Qt.

Ahora, se demuestra que

T1

2 =[αT + βI

]−1[T 2 + γT +

√detTI

].

Page 192: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

176 3. Descomposición de matrices

Usando la expresión (3.26), se calculan α, β y γ, como sigue

α = λ12 + λ34,

β =√

λ1

√λ2λ34 +

√λ3

√λ4λ12,

γ =√

λ1λ23 +√

λ2λ34 +√

λ4λ13.

Luego, se tiene que

αA + βI =

⎡⎢⎢⎣ω1 aα bα cα0 ω2 dα eα0 0 ω3 fα0 0 0 ω4

⎤⎥⎥⎦ ,

donde

ωi =4∏

j �= i

λij , i = 1, 2, 3, 4,

y la inversa es

(αA + βI

)−1=

1

ξ

⎡⎢⎢⎢⎣τ1 aαλ34

λ12ααad ω2b

τ4αα2adf αω3ae αω2bf+ω2ω3c

ξ

0 τ2 dαλ14

λ23αdαf eω3

τ1

0 0 τ3 fαλ12

λ34

0 0 0 τ4

⎤⎥⎥⎥⎦ ,

donde

τ1 = ω2λ34

λ12= ω3

λ24

λ13= ω4

λ23

λ14, τ2 = ω1

λ34

λ12= ω3

λ14

λ23= ω4

λ13

λ24,

τ3 = ω1λ24

λ13= ω2

λ14

λ23= ω4

λ12

λ34, τ4 = ω1

λ23

λ14= ω2

λ13

λ24= ω3

λ12

λ34,

ξ = ω1τ1 = ω2τ2 = ω3τ3 = ω4τ4.

Por otra parte,

T 2 =

⎡⎢⎢⎣λ2

1 a(λ1 + λ2

)b(λ1 + λ3

)+ ad c

(λ1 + λ4

)+ ae + bf

0 λ22 d

(λ2 + λ3

)e(λ2 + λ4

)+ df

0 0 λ23 f

(λ3 + λ4

)0 0 0 λ2

4

⎤⎥⎥⎦ ,

Page 193: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 177

por lo tanto, la matriz T 2 + γT +√

det(T )I es igual a⎡⎢⎢⎣ω1

√λ1 aα

√λ2 +

aω1

λ12bα

√λ3 +

bω1

λ13+ ad cα

√λ4 +

cω1

λ14+ ae+ bf

0 ω2

√λ2 dα

√λ3 +

dω2

λ23eα

√λ4 +

eω2

λ24+ df

0 0 ω3

√λ3 fα

√λ4 +

fω3

λ34

0 0 0 ω4

√λ4

⎤⎥⎥⎦ .

Al realizar los respectivos productos, se llega a

T1

2 =

⎡⎢⎢⎢⎣√

λ1aλ12

bλ13

adτ4

cλ14

bfτ2

aeτ3

+ adfαξ

0√

λ2dλ23

eλ24

dfτ1

0 0√

λ3fλ34

0 0 0√

λ4

⎤⎥⎥⎥⎦ .

El lector puede verificar que los elementos de esta última matriz coincidencon los dados en el Teorema 3.23.

Ejemplo 3.16 Determine, mediante el método descrito en el teorema

anterior, una raíz cuadrada para la matriz dada en el Ejemplo 3.13.

Solución.Como en el Ejemplo 3.13 se obtuvieron los valores propios de A, se

tiene que

α =√

4 +√

9 +√

16 +√

25 = 14,

β =√

4√

9√

16 +√

4√

9√

25 +√

4√

16√

25 +√

9√

16√

25 = 154,

γ =√

4√

9 +√

4√

16 +√

4√

25 +√

9√

16 +√

9√

25 +√

16√

25 = 71.

Por lo tanto, la matriz αA + βI es⎡⎢⎢⎣322 14 28 15498 308 70 168140 42 378 1442 56 98 364

⎤⎥⎥⎦ ,

y por otra parte, la matriz A2 + γA +√

det AI es⎡⎢⎢⎣1176 56 280 1064672 1092 420 10921008 308 1540 28336 364 700 1484

⎤⎥⎥⎦ .

Page 194: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

178 3. Descomposición de matrices

Luego, la raíz cuadrada de A es

A1

2 =1

22680

⎡⎢⎢⎣76 11 6 3721 87 27 4826 5 60 115 16 21 71

⎤⎥⎥⎦⎡⎢⎢⎣

1176 56 280 1064672 1092 420 10921008 308 1540 28336 364 700 1484

⎤⎥⎥⎦

=1

3

⎡⎢⎢⎣10 1 0 53 9 3 64 1 12 11 2 3 11

⎤⎥⎥⎦ ,

la cual coincide con una de las obtenidas en el Ejemplo 3.13.

Teorema 3.27 Si A es una matriz real de tamaño n×n (n ≥ 5), con una

descomposición de la forma A = PBP−1, entonces sus raíces cuadradas

se calculan de la siguiente manera:

A1

2 = PB1

2 P−1 = P

⎡⎢⎢⎢⎢⎢⎢⎢⎣

B1 0 . . . 0

0 B2 . . . 0

......

. . ....

0 0 . . . Bk

⎤⎥⎥⎥⎥⎥⎥⎥⎦

1

2

P−1, (3.32)

en donde cada submatriz Bm es de tamaño 1 × 1, 2 × 2, 3 × 3 o 4 × 4,

de tal manera que se le pueda calcular a cada bloque una raíz cuadrada

como las dadas en (3.17), (3.22) o (3.29), respectivamente.

Demostración.Queda como ejercicio para el lector.

Ejemplo 3.17 Determine una raíz cuadrada para la siguiente matriz:

A =

⎡⎢⎢⎢⎢⎣8 4 2

7 1 3

1 3 1

⎤⎥⎥⎥⎥⎦ .

Page 195: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 179

Solución.Para la matriz A, se tiene que el polinomio característico es

pA(λ)

= −λ3 + 8λ2 − 20λ,

luego se tiene que

λ1 = 0, λ2 = 4 + 2i, λ3 = 4 − 2i.

Como A tiene valores propios complejos, usando el método de factoriza-ción dado en (2.22), se tiene

⎡⎣ 8 4 27 1 31 3 1

⎤⎦ =

⎡⎣ 0 1 11 1 11 0 2

⎤⎦⎡⎣ 4 2 02 4 00 0 0

⎤⎦⎡⎣ 0 1 11 1 11 0 2

⎤⎦−1

.

Luego, la raíz cuadrada de A es

A1

2 =1

2

⎡⎣ 0 1 11 1 11 0 2

⎤⎦⎡⎣ 4 2 02 4 00 0 0

⎤⎦1

2⎡⎣ 2 2 0

3 1 11 1 1

⎤⎦=

1

2

⎡⎣ 0 1 11 1 11 0 2

⎤⎦⎡⎢⎣

[4 22 4

] 1

2 00

0 0 0

⎤⎥⎦⎡⎣ 2 2 0

3 1 11 1 1

⎤⎦ .

Si se usa una de las raíces cuadradas encontradas en el Ejemplo 3.12, setiene que

A1

2 =1

⎡⎣ 0 1 11 1 11 0 2

⎤⎦⎡⎣ [4 + 2

√5 2

2 4 + 2√

5

]00

0 0 0

⎤⎦⎡⎣ 2 2 03 1 11 1 1

⎤⎦=

1

Δ

⎡⎣ 0 1 11 1 11 0 2

⎤⎦⎡⎣ 2√

5 + 1 2√

5 + 3 1

8 − 3√

5 4 −√5

√5 + 2

0 0 0

⎤⎦=

1

Δ

⎡⎣ 8 + 3√

5 4 +√

5 2 −√5

7 −√5

√5 − 1 3 +

√5

1 + 2√

5 3 + 2√

5 1

⎤⎦ ,

Page 196: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

180 3. Descomposición de matrices

donde Δ = 2√

2 +√

5. Se puede fácilmente verificar que(A

1

2

)2= A

(A

1

2

)2=

(1

2√

2 +√

5

)2⎡⎣ 8 + 3

√5 4 +

√5 2 −√

5

7 −√5

√5 − 1 3 +

√5

1 + 2√

5 3 + 2√

5 1

⎤⎦2

=1

4(2 +

√5)⎡⎣ 64 + 32

√5 32 + 16

√5 16 − 8

√5

56 − 28√

5 8 − 4√

5 24 + 12√

5

8 + 4√

5 24 + 12√

5 8 + 4√

5

⎤⎦=

⎡⎣ 8 4 27 1 31 3 1

⎤⎦ .

3.5.1 Raíces cuadradas de matrices simétricas

De manera análoga a la Sección 2.4, en la cual se desarrolló el temasobre diagonalización para matrices simétricas , en este apartado se pre-senta por separado la parte concerniente a raíces cuadradas para matricessimétricas.

Teorema 3.28 Toda matriz simétrica A de tamaño n × n tiene valores

propios positivos si y solo si existe una matriz simétrica B de tamaño

n × n tal que

A = B2. (3.33)

La matriz B se denomina una raíz cuadrada de A.

Demostración.Si los valores propios de A son positivos, entonces det(A) > 0, y por

ser simétrica, se puede factorizar de la forma

A = QDQt = Q(D

1

2

)2Qt

=(QD

1

2 Qt)(

QD1

2 Qt)

= BtB.

Nótese que B es una matriz simétrica y de rango n (como A), por lo tantoBtB = B2. La matriz D

1

2 = diag{√

λi}

semejante a B está definida como

Page 197: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 181

en (3.18). Además, si se consideran únicamente las raíces positivas de losvalores propios, la matriz B tendrá también valores propios positivos(como A).

Ejemplo 3.18 Determine una raíz cuadrada para la matriz dada en el

Ejemplo 2.18.

Solución.Haciendo referencia al Ejemplo 2.18, se tiene que

Q =

⎡⎣ 1/√

2 1/√

3 1/√

6

0 1/√

3 2/√

6

1/√

2 1/√

3 1/√

6

⎤⎦ y D =

⎡⎣ 1 0 00 1 00 0 7

⎤⎦ .

Por lo tanto,

B =

⎡⎣ 1/√

2 1/√

3 1/√

6

0 1/√

3 2/√

6

1/√

2 1/√

3 1/√

6

⎤⎦⎡⎣ 1 0 00 1 0

0 0√

7

⎤⎦⎡⎣ 1/√

2 0 1/√

2

1/√

3 1/√

3 1/√

3

1/√

6 2/√

6 1/√

6

⎤⎦=

⎡⎣ 1/√

2 1/√

3 1/√

6

0 1/√

3 2/√

6

1/√

2 1/√

3 1/√

6

⎤⎦⎡⎣ 1/√

2 0 1/√

2

1/√

3 1/√

3 1/√

3√7/√

6 2√

7/√

6√

7/√

6

⎤⎦ .

Es decir,

B =1

6

⎡⎣ 5 +√

7 2 + 2√

7 1 +√

7

2 + 2√

7 2 + 4√

7 2 + 2√

7

1 +√

7 2 + 2√

7 5 +√

7

⎤⎦ .

El lector puede verificar que A = B2 .

De acuerdo con la Definición 2.7, las matrices reales cuadradas A y Bse dicen que son congruentes si existe una matriz P no singular tal que

A = P tBP.

En ocasiones, además de establecer el hecho en sí de la congruencia, serequiere encontrar la matriz P de la transformación que satisface A =P tBP. En estos momentos, se puede construir la matriz P para matricessimétricas no singulares A y B utilizando la descomposición LDU decada matriz y una de las raíces cuadradas de D, como sigue

P t = LAD1

2

AD− 1

2

B L−1B , (3.34)

Page 198: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

182 3. Descomposición de matrices

donde las descomposiciones LDU para las matrices A y B son LADALtAy LBDBLtB, respectivamente.

Ejemplo 3.19 Determine si las matrices dadas en los Ejemplos 2.18

y 3.3 son congruentes.

Solución.La factorización LDLt de la matriz dada en el Ejemplo 2.18 es⎡⎣ 2 2 12 5 21 2 2

⎤⎦ =

⎡⎣ 1 0 01 1 012

13 1

⎤⎦⎡⎣ 2 0 00 3 00 0 7

6

⎤⎦⎡⎣ 1 1 12

0 1 13

0 0 1

⎤⎦ = LADALtA.

En el Ejemplo 3.3, se obtuvo que⎡⎣ 1 3 53 12 185 18 30

⎤⎦ =

⎡⎣ 1 0 03 1 05 1 1

⎤⎦⎡⎣ 1 0 00 3 00 0 2

⎤⎦⎡⎣ 1 3 50 1 10 0 1

⎤⎦ = LBDBLtB.

Por lo tanto,

P t =

⎡⎣ 1 0 01 1 012

13 1

⎤⎦⎡⎢⎣

√2 0 0

0√

3 0

0 0√

76

⎤⎥⎦⎡⎢⎣ 1 0 0

0 1√3

0

0 0 1√2

⎤⎥⎦⎡⎣ 1 0 0

3 1 02 1 1

⎤⎦

=

⎡⎣√

2 0 0√2 − 3 1 0

12

√2 − 1

3

√21 − 1 1

3 − 16

√21 1

6

√21

⎤⎦ .

El lector puede verificar que A = P tBP.

Teorema 3.29 Una matriz simétrica A de tamaño n×n tiene todos sus

valores propios positivos (λi > 0) si y solo si:

A = P tP, (3.35)

donde P es no singular.

Demostración.Si A es simétrica y todos sus valores propios son positivos, entonces

puede escribirse en la forma

A = QDQt =(QD

1

2

)(D

1

2 Qt)

= P tP,

con P = D1

2 Qt y D1

2 = diag{√

λi}

definida como en (3.18).

Page 199: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.5. Raíces cuadradas 183

3.5.2 Descomposición de Cholesky

Entre los tipos de factorizaciones para la matriz A, existe una descomposi-ción especial para aquellas matrices cuadradas cuyos valores propios sontodos positivos conocida como descomposición de Cholesky , consideradaen este apartado.

Teorema 3.30 Descomposición de Cholesky

Si A es una matriz simétricade tamaño n × n con todos sus valores

propios positivos, entonces existe una matriz L triangular inferior tal que

A = LLt, (3.36)

donde todos los elementos en la diagonal principal de L son positivos.

Demostración.Por el Teorema 3.5, la matriz A se puede expresar como

A = LDLt =(LD

1

2

)(D

1

2 Lt)

=(LD

1

2

)(LD

1

2

)t,

donde D1

2 está definida como en (3.18) y la prueba queda completa.

A continuación, se presenta un procedimiento para encontrar la descom-posición de Cholesky.

Procedimiento para encontrar los elementos de R = D1

2 Lt

• Para i = 1, se tiene

r1j =

{√a11 j = 1,

r−111 a1j j > 1.

• Cuando i > 1, se obtiene

rij =

⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎩

0 i > j,√aii −

i− 1∑k=1

r2ki i = j,

r−1ii

(aij −

i− 1∑k= 1

rkirkj)

i < j.

Page 200: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

184 3. Descomposición de matrices

El procedimiento exige que estos elementos se calculen por filas, de iz-quierda a derecha y de arriba para abajo.

Si no se puede obtener la descomposición de Cholesky de una matriz(por ejemplo, cuando al realizar el procedimiento presentado arriba surgeuna raíz cuadrada de un número negativo), esto es indicio de que la matrizsimétrica no tiene todos sus valores propios positivos.

Ejemplo 3.20 Encuentre la descomposición de Cholesky para la matriz

simétrica dada en el Ejemplo 3.3.

Solución.Usando el procedimiento descrito anteriormente, se tiene que

r11 =√

a11 = 1, r12 = r−111 a12 = a12 = 3,

r13 = r−111 a13 = a13 = 5, r22 =

√a22 − r2

12 =√

3,

r23 = r−122

(a23 − r12r13

)=

√3, r33 =

√a33 − r2

13 − r223 =

√2.

Luego,

R =

⎡⎣ 1 3 5

0√

3√

3

0 0√

2

⎤⎦ .

El lector puede verificar que A = RtR.

Ejercicios 3.3

1. Si A es una matriz real de tamaño n×n con valores propios distintos

λ1, λ2, . . . , λn, usando la descomposición de Sylvester pruebe que la

m-ésima potencia de A está dada por

Am =n∑

i=1

λmi E(λi), m ∈ Z; (3.37)

cuando m ∈ Q, este resultado también se cumple.

Page 201: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.6. Descomposición en valores singulares 185

2. Para cada una de las siguientes matrices, determine (en caso de ser

posible) una raíz cuadrada:

a.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . b.

⎡⎢⎣1 1

3 1

⎤⎥⎦ . c.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . d.

⎡⎢⎣1 2

4 3

⎤⎥⎦ .

e.

⎡⎢⎢⎢⎢⎣2 2 1

1 3 1

1 2 2

⎤⎥⎥⎥⎥⎦ . f.

⎡⎢⎢⎢⎢⎣3 1 4

4 1 5

5 3 2

⎤⎥⎥⎥⎥⎦ . g.

⎡⎢⎢⎢⎢⎣3 1 1

2 2 1

2 2 0

⎤⎥⎥⎥⎥⎦ . h.

⎡⎢⎢⎢⎢⎣1 3 2

3 1 2

1 1 1

⎤⎥⎥⎥⎥⎦ .

3. Determine la descomposición de Cholesky para las siguientes ma-

trices:

a.

⎡⎢⎣ 1 1

1 3

⎤⎥⎦ . b.

⎡⎢⎣ 1 3

3 1

⎤⎥⎦ . c.

⎡⎢⎣ 1 1

1 1

⎤⎥⎦ .

d.

⎡⎢⎢⎢⎢⎣1 3 2

3 1 2

2 2 1

⎤⎥⎥⎥⎥⎦ . e.

⎡⎢⎢⎢⎢⎣3 1 4

1 1 5

4 5 2

⎤⎥⎥⎥⎥⎦ .

4. Determine las soluciones de las siguientes ecuaciones matriciales:

a. X2 − 3X = A, con b. X2 − 4X − 3I = B, con

A =

⎡⎢⎢⎢⎢⎣3 3 6

73 5 2

43 4 0

⎤⎥⎥⎥⎥⎦ B =

⎡⎢⎢⎢⎢⎣7 2 4

2 7 4

4 4 1

⎤⎥⎥⎥⎥⎦ .

3.6 Descomposición en valores singulares

Una factorización especial para cualquier matriz A de tamaño m × n esla descomposición en valores singulares (SV D, por su sigla en inglés), la

Page 202: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

186 3. Descomposición de matrices

cual es una de las factorizaciones de matrices más útiles en álgebra linealaplicada.

Definición 3.10 Valores singulares de matrices cuadradas

Los valores singulares de una matriz real A de tamaño n × n son las

raíces cuadradas de los valores propios asociados a la matriz simétrica

AtA (listados con sus multiplicidades algebraicas). Estos valores se deno-

tan por σ1, σ2, . . . , σn, y se colocan en orden decreciente:

σ1 ≥ σ2 ≥ . . . ≥ σn ≥ 0,

donde σi =√

λi para 1 ≤ i ≤ n.

Ejemplo 3.21 Determine los valores singulares de la matriz:

A =

⎡⎢⎢⎢⎢⎣1 3 2

3 1 2

1 1 1

⎤⎥⎥⎥⎥⎦ .

Solución.La matriz AtA es⎡⎣ 1 3 1

3 1 12 2 1

⎤⎦⎡⎣ 1 3 23 1 21 1 1

⎤⎦ =

⎡⎣ 11 5 35 11 33 3 9

⎤⎦ .

En este caso, la ecuación característica es

det(AtA − λI

)= −λ3 + 31λ2 − 276λ + 576 = 0.

Entonces, los valores propios de AtA son λ1 = 16, λ2 = 12 y λ3 = 3. Porlo tanto, los valores singulares de la matriz A son σ1 = 4, σ2 = 2

√3 y

σ3 =√

3.

Teorema 3.31 Si A es una matriz simétrica, los absolutos de los valores

propios son los valores singulares.

Page 203: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.6. Descomposición en valores singulares 187

Demostración.Como A = At todos sus valores propios λi ∈ R, entonces

det(AtA − σ2I

)= det

(A2 − σ2I

)= det

(A − |σ|I)det

(A + |σ|I),

luego

σi = λi o σi = −λi.

Cuando A es una matriz real de tamaño n × n, sabemos que lasmatrices AtA y AAt tienen los mismos valores propios con las mismasmultiplicidades algebraicas. Por lo tanto, en la Definición 3.10 se puedecambiar AtA por AAt. Mientras que si A es una matriz real de tamañom×n, con m �= n, las matrices AtA y AAt tendrán n y m valores propios,respectivamente. Por consiguiente, cuando la matriz no sea cuadrada, susvalores singulares se definen de la siguiente manera.

Definición 3.11 Valores singulares de matrices rectangulares

Sea A una matriz real de tamaño m×n (m �= n), los valores singulares

son las raíces cuadradas de los valores propios comunes a las matrices

simétricas AtA y AAt.

Ejemplo 3.22 Encuentre los valores singulares de la matriz:

A =

⎡⎢⎣ 1 3 2

1 1 1

⎤⎥⎦ .

Solución.La matriz AAt es[

1 3 21 1 1

]⎡⎣ 1 13 12 1

⎤⎦ =

[14 00 3

],

cuyos valores propios son λ1 = 14 y λ2 = 3. La matriz AtA es⎡⎣ 1 13 12 1

⎤⎦[1 3 21 1 1

]=

⎡⎣ 2 2 32 10 53 5 5

⎤⎦ .

Page 204: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

188 3. Descomposición de matrices

En este caso, los valores propios de AtA son λ1 = 14, λ2 = 3 y λ3 = 0. Porlo tanto, los valores singulares de la matriz A son σ1 =

√14 y σ2 =

√3.

Teorema 3.32 Sea A una matriz real de tamaño m × n que tiene r

valores singulares no nulos σ1 ≥ σ2 ≥ . . . ≥ σr > 0 con σr+1 = σr+2 =

. . . = σn = 0, entonces el rango de A es r.

Demostración.Sea

{�v1, �v2, . . . , �vn

}una base ortonormal de Rn formada por los vec-

tores propios asociados a AtA, y ordenados de tal forma que los valorespropios correspondientes a AtA satisfacen que λ1 ≥ λ2 ≥ . . . ≥ λn. En-tonces,

A�vi · A�vj =(A�vi

)tA�vj = �vti

(AtA�vj

)= �vtiλj�vj

= σ2j

(�vi · �vj

)= σ2

j δij =

{σ2j si i = j,

0 si i �= j.(3.38)

Luego,{A�v1, A�v2, . . . , A�vn

}es un conjunto ortogonal. Sea r el número

de valores singulares no nulos de A, esto es, r es el número de valorespropios no nulos de AtA. De la expresión (3.38), se tiene que A�vi �= �0 si ysolo si 1 ≤ i ≤ r. Entonces,

{A�v1, A�v2, . . . , A�vr

}son vectores linealmente

independientes, los cuales claramente pertenecen al espacio columna deA

[Col(A)

]. Además, para cualquier �y ∈ Col(A) −digamos, �y = A�x− se

puede escribir �x = c1�v1 + c2�v2 + . . . + cn�vn, y

�y = A�x = c1A�v1 + . . . + crA�vr + cr+1A�vr+1 + . . . + cnA�vn

= c1A�v1 + . . . + crA�vr +�0 + . . . +�0.

Así que �y está en el espacio generado por{A�v1, A�v2, . . . , A�vr

}, lo cual

muestra que{A�v1, A�v2, . . . , A�vr

}es una base (ortogonal) para Col(A).

Por lo tanto, el ρ(A) = r.

3.6.1 Descomposición en valores singulares

La descomposición de A involucra una matriz “diagonal” S de tamañom × n particionada como sigue

S =

⎡⎢⎢⎣ Dr×r... Or×n1

. . . · . . .

Om1×r... Om1×n1

⎤⎥⎥⎦ con Dr×r =

⎡⎢⎣ σ1 . . . 0...

. . ....

0 . . . σr

⎤⎥⎦ , (3.39)

Page 205: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.6. Descomposición en valores singulares 189

donde m1 = m − r, n1 = n − r, σi, para i = 1, 2, . . . , r son los valoressingulares no nulos de A y r = ρ

(A). (Si r es igual a m o n, entonces

algunas o todas las matrices nulas desaparecen).

Teorema 3.33 Descomposición en valores singulares

Sea A una matriz realde tamaño m×n con rango r. Entonces, existen

matrices ortogonales U y V de tamaño m × m y n × n, respectivamente,

tales que

A = USV t, (3.40)

donde S tiene la forma dada en la expresión (3.39).

Demostración.Sean λi y �vi como en la prueba del Teorema 3.32. Entonces, σi =√

λi = ‖A�vi‖ > 0 para 1 ≤ i ≤ r, r = ρ(A) ≤ mın{m, n}, y el conjuntode vectores

{A�v1, A�v2, . . . , A�vr

}es una base ortogonal para Col

(A). Si

se normalizan cada uno de los vectores A�vi, se puede definir

�ui =1

‖A�vi‖A�vi =1

σiA�vi, i = 1, 2, . . . , r.

Luego, el conjunto de vectores {�u1, �u2, . . . , �ur} es una base ortonormalpara Col

(A); esta base se puede extender hasta obtenerse una base or-

tonormal de Rm: expresémosla por{�u1, . . . , �ur, �ur+1, . . . , �um

}. A partir

de la definición de los vectores �ui, se puede escribir

A�vi =

⎧⎨⎩σi�ui para i = 1, 2, . . . , r0�ui para i = r + 1, r + 2, . . . , m�0 para i = m + 1, m + 2, . . . , n.

En forma matricial se expresa de la siguiente manera

AV =[A�v1 . . . A�vr A�vr+1 . . . A�vm A�vm+1 . . . A�vn

]=

[σ1�u1 . . . σr�ur 0�ur+1 . . . 0�um �0 . . . �0

]

=[�u1 . . . �ur �ur+1 . . . �um

]⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

σ1 . . . 0...

. . ....

0 . . . σr

0 . . . 0...

. . ....

0 . . . 00 . . . 0...

. . ....

0 . . . 0

0 . . . 0...

. . ....

0 . . . 0

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦.

Page 206: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

190 3. Descomposición de matrices

Por lo tanto,

AV =[�u1 . . . �ur �ur+1 . . . �um

] ⎡⎢⎢⎣ Dr×r... Or×n1

. . . · . . .

Om1×r... Om1×n1

⎤⎥⎥⎦ = US.

(3.41)

Nótese que las columnas de la matriz ortogonal V (de tamaño n×n) sonlos vectores propios ortonormalizados de la matriz AtA. Por otra parte,las columnas de la matriz ortogonal U (de tamaño m×m) son los vectorespropios ortonormalizados de la matriz AAt y la matriz S está definidacomo en (3.39). Si se multiplica por el lado derecho de la ecuación (3.41)por V −1 (V −1 = V t), se tiene que

A = USV t.

Esto finaliza la demostración del teorema.

Ejemplo 3.23 Encuentre la descomposición en valores singulares de la

matriz dada en el Ejemplo 3.21.

Solución.Del Ejemplo 3.21 se tiene que los valores singulares asociados a la

matriz A son σ21 = 16, σ2

2 = 12 y σ23 = 3. Al calcular los respectivos

vectores propios ortonormalizados de AtA, se obtiene:

�v1 =1√2

⎡⎣ 110

⎤⎦ , �v2 =1√6

⎡⎣ 112

⎤⎦ y �v3 =1√3

⎡⎣ 111

⎤⎦ .

Por otra parte, la matriz AAt es

AAt =

⎡⎣ 14 2 02 14 00 0 3

⎤⎦y sus respectivos vectores propios ortonormalizados son

�u1 =1√2

⎡⎣ 110

⎤⎦ , �u2 =1√2

⎡⎣ 110

⎤⎦ y �u3 =

⎡⎣ 001

⎤⎦ .

Page 207: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.6. Descomposición en valores singulares 191

Finalmente, si U = [�u1 �u2 �u3], V = [�v1 �v2 �v3] y S =

⎡⎣ 4 0 0

0 2√

3 0

0 0√

3

⎤⎦ ,

entonces

A =

⎡⎣ 12

√2 1

2

√2 0

12

√2 1

2

√2 0

0 0 1

⎤⎦⎡⎣ 4 0 0

0 2√

3 0

0 0√

3

⎤⎦⎡⎣ 12

√2 1

2

√2 0

16

√6 1

6

√6 1

3

√6

13

√3 1

3

√3 1

3

√3

⎤⎦=

⎡⎣ 1 3 23 1 21 1 1

⎤⎦ .

Ejemplo 3.24 Encuentre la descomposición en valores singulares de la

matriz dada en el Ejemplo 3.22.

Solución.Haciendo referencia al Ejemplo 3.22, se tiene que los valores singulares

asociados a la matriz A son σ21 = 14 y σ2

3 = 3. Al calcular los respectivosvectores propios ortonormalizados de AAt, se obtiene:

�u1 =

[10

]y �u2 =

[01

].

Por otra parte, los respectivos vectores propios ortonormalizados de AtAson

�v1 =1√14

⎡⎣ 132

⎤⎦ , �v2 =1√3

⎡⎣ 111

⎤⎦ y �v3 =1√42

⎡⎣ 514

⎤⎦ .

Si U = [�u1 �u2], V = [�v1 �v2 �v3] y S =

[ √14 0 0

0√

3 0

], entonces

A =

[1 00 1

] [ √14 0 0

0√

3 0

]⎡⎢⎣1√14

1√3

5√42

3√14

1√3

1√42

2√14

1√3

4√42

⎤⎥⎦ =

[1 3 21 1 1

].

Page 208: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

192 3. Descomposición de matrices

3.6.2 Descomposición polar

Una consecuencia interesante y útil de la descomposición en valores sin-gulares para una matriz cuadrada A es la descomposición polar de A.

Teorema 3.34 Descomposición polar a izquierda

Sea A una matriz real de tamaño n× n con rango r. Entonces, existe

una matriz simétrica P de tamaño n×n con valores propios no negativos

y una matriz ortogonal Q de tamaño n × n tales que

A = PQ. (3.42)

Demostración.Si A es una matriz real de tamaño n × n, en una descomposición de

valores singulares las matrices U, S y V son también de tamaño n × n.En este caso, se puede escribir la ecuación (3.40) como

A = USV t = US(U tU)V t = (USU t)UV t = PQ,

la matriz P es siempre única, aun cuando A sea singular, y está dada por

P =[AAt

] 1

2 = USU t;

nótese que esta matriz es simétrica y Q = UV t es una matriz ortogonal.Se deja como ejercicio la comprobación de que P tiene valores propios nonegativos.

Corolario 3.34.1 Descomposición polar a derecha

Sea A una matriz compleja de tamaño n × n con rango r. Entonces,

existe una matriz simétrica P ′ de tamaño n × n con valores propios no

negativos y una matriz ortogonal Q de tamaño n × n tales que

A = QP ′. (3.43)

Page 209: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.6. Descomposición en valores singulares 193

Demostración.En términos de la descomposición en valores singulares de A, es decir,

A = USV t, se tiene que

P ′ =[AtA

] 1

2 = V SV t y Q = UV t.

Si A es no singular, entonces la matriz Q está dada por

Q = A[P ′]−1

.

El lector puede verificar que P ′ tiene valores propios no negativos y Q esortogonal.

Ejemplo 3.25 Encuentre la descomposición polar tanto a izquierda co-

mo a derecha para la matriz dada en el Ejemplo 3.21.

Solución.En el Ejemplo 3.23, se obtuvo la descomposición de A en valores

singulares mediante las matrices U , S y V :

U =1√2

⎡⎣ 1 1 01 1 0

0 0√

2

⎤⎦ , S =

⎡⎣ 4 0 0

0 2√

3 0

0 0√

3

⎤⎦y

V =1√6

⎡⎣√

3 1√

2√3 1

√2

0 2√

2

⎤⎦ .

Si se definen

P = USU t =

(1√2

)2⎡⎣ 1 1 0

1 1 0

0 0√

2

⎤⎦⎡⎣ 4 0 0

0 2√

3 0

0 0√

3

⎤⎦⎡⎣ 1 1 01 1 0

0 0√

2

⎤⎦=

⎡⎣ 2 +√

3 2 −√3 0

2 −√3 2 +

√3 0

0 0√

3

⎤⎦y

Q = UV t =1

2√

3

⎡⎣ 1 1 01 1 0

0 0√

2

⎤⎦⎡⎣√

3√

3 01 1 2√2

√2

√2

⎤⎦ ,

Page 210: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

194 3. Descomposición de matrices

simplificando

Q =

√3

6

⎡⎣√

3 − 1√

3 + 1 2√3 + 1

√3 − 1 2

2 2 2

⎤⎦ ,

entonces la descomposición polar a izquierda queda

A =

√3

6

⎡⎣ 2 +√

3 2 −√3 0

2 −√3 2 +

√3 0

0 0√

3

⎤⎦⎡⎣√

3 − 1√

3 + 1 2√3 + 1

√3 − 1 2

2 2 2

⎤⎦=

⎡⎣ 1 3 23 1 21 1 1

⎤⎦ .

Para determinar la descomposición polar a derecha, se establece

P ′ =

(1√6

)2⎡⎣

√3 1

√2√

3 1√

2

0 2√

2

⎤⎦⎡⎣ 4 0 0

0 2√

3 0

0 0√

3

⎤⎦⎡⎣√

3√

3 01 1 2√2

√2

√2

⎤⎦=

√3

3

⎡⎣ 2√

3 + 2 2√

3 − 2 1

2√

3 − 2 2√

3 + 2 11 1 5

⎤⎦ ,

luego la descomposición polar a derecha queda

A =1

6

⎡⎣√

3 − 1√

3 + 1 2√3 + 1

√3 − 1 2

2 2 2

⎤⎦⎡⎣ 2√

3 + 2 2√

3 − 2 1

2√

3 − 2 2√

3 + 2 11 1 5

⎤⎦=

⎡⎣ 1 3 23 1 21 1 1

⎤⎦ .

Ejercicios 3.4

1. Para cada una de las matrices dadas a continuación:

a.

⎡⎢⎣ 1 1 4

1 3 1

⎤⎥⎦ . b.

⎡⎢⎣ 1 3

3 1

⎤⎥⎦ . c.

⎡⎢⎣ a b

b a

⎤⎥⎦ , a, b ∈ R.

Page 211: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

3.6. Descomposición en valores singulares 195

d.

⎡⎢⎣ 1 1 0

1 1 1

⎤⎥⎦ . e.

⎡⎢⎢⎢⎢⎣1 3

3 1

2 2

⎤⎥⎥⎥⎥⎦ . f.

⎡⎢⎢⎢⎢⎣3 1

1 1

4 5

⎤⎥⎥⎥⎥⎦ .

i) Encuentre una descomposición en valores singulares.

ii) Determine la descomposición polar tanto a izquierda como a

derecha .

2. Si A es una matriz real de tamaño n×n con valores singulares todos

iguales a 1, muestre que A es ortogonal.

3. Si A es una matriz real de tamaño n × n, ¿cuál es el producto de

sus valores singulares σ1 · σ2 · . . . · σn?

4. Si A es una matriz real de tamaño 2 × 2 y �u ∈ R2 es unitario,

muestre que

σ2 ≤ ‖A�u‖ ≤ σ1,

donde σ1, σ2 son los valores singulares de A.

5. Si A es una matriz real de tamaño m × n y �v ∈ Rn, muestre que

σn‖�v‖ ≤ ‖A�v‖ ≤ σ1‖�v‖,

donde σ1, σn son los valores singulares más grande y más pequeño

de la matriz A, respectivamente.

Page 212: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 213: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 4

Matrices complejas

En la Sección 2.3 se consideraron matrices de componentes reales, en lascuales los valores propios y vectores propios eran complejos. En este capí-tulo se desarrollará la teoría correspondiente a valores propios y vectorespropios para matrices de componentes complejas. El objetivo principales estudiar algunas factorizaciones para este tipo de matrices, de maneraanáloga a como vimos en el Capítulo 3.

4.1 Clases especiales de matrices complejas

Los tipos especiales de matrices cuadradas complejas que se analizan acontinuación son las hermitianas, antihermitianas y unitarias, por tenercaracterísticas particulares y por ser muy útiles en ingeniería, y en especialen física atómica. Estas matrices generalizan las tres clases de matricesreales especiales: simétricas, antisimétricas y ortogonales.

4.1.1 Matrices hermitianas

Recordemos que una matriz simétrica A = [aij ] con componentes reales esuna matriz que tiene la propiedad de que A = At. Las matrices hermitia-nas (o hermíticas) son las análogas para el caso en el cual las componentesde la matriz son números complejos.

197

Page 214: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

198 4. Matrices complejas

Definición 4.1 Matriz hermitiana

Se dice que una matriz A de tamaño n × n es hermitiana si

A = AH . (4.1)

Ejemplo 4.1 Sea A la matriz de componentes complejas

A =

⎡⎢⎢⎢⎢⎣3 4 − 5i 3 + 2i

4 + 5i 1 7 + 6i

3 − 2i 7 − 6i 2

⎤⎥⎥⎥⎥⎦ .

Comprobar que A es una matriz hermitiana.

Solución.

A =

⎡⎣ 3 4 − 5i 3 + 2i4 + 5i 1 7 + 6i3 − 2i 7 − 6i 2

⎤⎦ =

⎡⎣ 3 4 + 5i 3 − 2i4 − 5i 1 7 − 6i3 + 2i 7 + 6i 2

⎤⎦ .

AH = At=

⎡⎣ 3 4 − 5i 3 + 2i4 + 5i 1 7 + 6i3 − 2i 7 − 6i 2

⎤⎦ = A.

Nótese que los elementos de la diagonal principal de una matriz hermi-tiana son números reales, ya que tienen que coincidir con sus conjugados.

Teorema 4.1 Sea A una matriz hermitiana, entonces para todos los vec-

tores �x ∈ Cn, �xHA�x es real.

Demostración.La demostración consiste en un cálculo directo(

�xHA�x)H

= �xHAH(�xH

)H= �xHA�x,

pero como �xHA�x es una matriz hermitiana de tamaño 1× 1, se concluyeque es un número real.

Teorema 4.2 Si A es una matriz hermitiana, entonces sus valores pro-

pios son reales.

Page 215: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.1. Clases especiales de matrices complejas 199

Demostración.Supongamos que λ es un valor propio y que �x es un vector propio

correspondiente. Es decir,

A�x = λ�x.

Si se premultiplica por �xH , se obtiene

�xHA�x = λ�xH�x.

Pero por el Teorema 4.1, el lado izquierdo es real y la expresión del ladoderecho �xH�x = |�x|2 �= 0. Se concluye que λ debe ser real.

Teorema 4.3 Sea A una matriz hermitiana de tamaño n×n. Entonces,

los vectores propios correspondientes a valores propios distintos de A son

ortogonales.

Demostración.Sean �v1 y �v2 vectores propios asociados a valores propios distintos,

digamos, λ1 y λ2. Es decir,

A�v1 = λ1�v1 y A�v2 = λ2�v2

�vH2 A�v1 = λ1�vH2 �v1 y �vH1 A�v2 = λ2�v

H1 �v2.

Al tomar la transpuesta conjugada de la primera expresión, se tiene(�vH2 A�v1

)H=

(λ1�v

H2 �v1

)H�vH1 A�v2 = λ1�v

H1 �v2.

En la última expresión se usaron los hechos de que AH = A y λ1 es real.Luego, se tiene que

λ2�vH1 �v2 = λ1�v

H1 �v2.

Por lo tanto,(λ1 − λ2

)�vH1 �v2 = 0. Pero λ1 − λ2 �= 0, así que �vH1 �v2 = 0.

Esto es, �v1 y �v2 son ortogonales.

Teorema 4.4 Sea A = [aij ] una matriz con componentes complejas de

tamaño n × n, entonces:

tr(AAH

)= 0 si y solo si A = O . (4.2)

En realidad, tr(AAH

)> 0 si A �= O .

Page 216: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

200 4. Matrices complejas

Demostración.Si A = [aij ], entonces AH = [bij ], en donde bij = aji. Si se define

C = AAH , se tiene

cik = ai1b1k + ai2b2k + . . . + ainbnk

=n∑

j=1

aijbjk =n∑

j=1

aijakj .

En particular, las componentes de la diagonal de C están dadas por

cii =n∑

j=1

aijaij =n∑

j=1

∣∣aij∣∣2.Por lo tanto,

tr(C)

=n∑

i=1

cii =n∑

i=1

(n∑

j=1

∣∣aij∣∣2)

.

Como∣∣aij∣∣2 ≥ 0, la única forma de que esta suma sea cero es que cada

aij = 0 para todo i y j. Esto significa que A = O .

Teorema 4.5 Dada una matriz compleja cualquiera A de tamaño n×n,

la matriz H = 12

(A + AH

)es hermitiana.

Demostración.Queda como ejercicio para el lector.

Definición 4.2 Matriz de proyección espectral compleja

Sea A una matriz compleja de tamaño n×n que no tiene valores pro-

pios múltiples y sean �vk, �wk los vectores propios a derecha e izquierda de

A, es decir, los vectores propios de A y AH asociados a los valores pro-

pios λk y λk, respectivamente; se define la matriz de proyección espectral

compleja correspondiente para cada λk como:

E(λk

)=

�vk �wHk

〈�wk, �vk〉 =�vk �wH

k

�wHk �vk

. (4.3)

Page 217: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.1. Clases especiales de matrices complejas 201

Teorema 4.6 Sea A una matriz compleja de tamaño n×n que no tiene

valores propios múltiples, entonces los vectores propios a derecha e iz-

quierda asociados a valores propios distintos de A son ortogonales.

Demostración.Sean �vi y �wj los vectores propios a derecha e izquierda asociados a

valores propios distintos λi y λj , respectivamente. Para comprobar que�vi · �wj = 0, se calcula

λj(�wj · �vi

)=

(λj �wj

)H�vi

=(AH �wj

)H�vi puesto que �wj es un vector propio de AH

=(�wHj A

)�vi = �wH

j

(A�vi

)reagrupando términos

= �wHj

(λi�vi

)ya que�vi es un vector propio de A

= λi �wHj �vi = λi

(�wj · �vi

).

Luego,(λj − λi

)�wj · �vi = 0, y como λj − λi �= 0, entonces �wj · �vi = 0.

Teorema 4.7 Sea A una matriz compleja de tamaño n × n con valo-

res propios distintos λ1, λ2, . . . , λn, entonces las matrices de proyección

espectral E(λk

)definidas en (4.3) satisfacen las siguientes propiedades:

a) E(λi)E(λj

)=

⎧⎪⎨⎪⎩ E(λi)

si i = j,

O si i �= j.b)

n∑k=1

E(λk

)= In,

c) CadaE(λk

)conmuta con A, es decir, AE

(λk

)= E

(λk

)A.

Demostración.

a) Sean �vi y �wj los vectores propios a derecha e izquierda asociadosa valores propios distintos λi y λj , respectivamente; por el Teore-ma 4.6 estos vectores son ortogonales. Por lo tanto, de la definiciónde E

(λk

)dada en (4.3), se tiene

E(λi)E(λj

)=

�vi �wHi

�wHi �vi

�vj �wHj

�wHj �vj

=�vi

�wHi �vi

�wHi �vj

�wHj

�wHj �vj

= O,

Page 218: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

202 4. Matrices complejas

y de manera análoga

E(λi)E(λi)

=�vi �w

Hi

�wHi �vi

�vi �wHi

�wHi �vi

= �vi�wHi �vi

�wHi �vi

�wHi

�wHi �vi

= E(λi).

b) Queda como ejercicio para el lector.

c) Al premultiplicar por A cualquier matriz E(λk

), se obtiene

AE(λk

)= A�vk

�wHk

�vHk �wk= λk

�vk �wHk

�vHk �wk= λkE

(λk

), (4.4)

y al multiplicar por A cualquier matriz E(λk

), se llega a

E(λk

)A =

�vk�vHk �wk

(AH �wk

)H=

�vk�vHk �wk

(λk �wk

)H= λkE

(λk

). (4.5)

Luego, AE(λk

)= E

(λk

)A para k = 1, 2, . . . , n.

Ejemplo 4.2 Encuentre las proyecciones espectrales de la matriz:

A =

⎡⎢⎢⎢⎢⎣1 − 3i 2 −2 − 2i

1 − i 2 1 + i

−2 + i −1 − 2i 2 + 3i

⎤⎥⎥⎥⎥⎦ .

Solución.La ecuación característica asociada a la matriz A es

pA(λ)

= −λ3 + 5λ2 − 8λ + 6 = −(λ − 3

)(λ2 − 2λ + 2

)= 0,

entonces se tiene que los valores propios asociados a la matriz A sonλ1 = 3, λ2 = 1 + i y λ3 = 1 − i, y los respectivos vectores propios de Ason

�v1 =

⎡⎣ 01 + i

1

⎤⎦ , �v2 =

⎡⎣ −11 − i

1

⎤⎦ y �v3 =

⎡⎣1i0

⎤⎦ .

Los vectores de AH asociados a λ1, λ2, λ3 son

�w1 =

⎡⎣ i1−1

⎤⎦ , �w2 =

⎡⎣ 1−i

1 + i

⎤⎦ y �w3 =

⎡⎣ 2−i

1 + i

⎤⎦ .

Page 219: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.1. Clases especiales de matrices complejas 203

Luego, las matrices de proyección espectral E(λk

)son

E(λ1

)=

1

i

⎡⎣ 01 + i

1

⎤⎦ [−i 1 −1]

=

⎡⎣ 0 0 0−1 − i 1 − i −1 + i−1 −i i

⎤⎦ ,

E(λ2

)=

⎡⎣ −11 − i

1

⎤⎦ [1 i 1 − i

]=

⎡⎣ −1 −i −1 + i1 − i 1 + i −2i

1 i 1 − i

⎤⎦E(λ3

)=

⎡⎣1i0

⎤⎦ [2 i 1 − i

]=

⎡⎣ 2 i 1 − i2i −1 1 + i0 0 0

⎤⎦ .

Nótese que E(λ1

)+ E

(λ2

)+ E

(λ3

)= I3.

4.1.2 Matrices antihermitianas

Como se ha visto, una matriz antisimétrica A es una matriz real que tienela propiedad de que At = −A. Las matrices antihermitianas constituyenel análogo para el caso complejo.

Definición 4.3 Matriz antihermitiana

Se dice que una matriz A de tamaño n × n es antihermitiana si:

AH = −A. (4.6)

Los elementos de la diagonal principal de una matriz antihermitiana soncero o imaginarios puros, ya que tienen que coincidir con sus conjugados.

Teorema 4.8 Si A es antihermitiana, entonces para todos los vectores

complejos �z, �zHA�z, es cero o imaginario puro1.

Demostración.La demostración consiste en un cálculo directo

(�zHA�z)H = �zHAH(�zH)H = −�zHA�z.

1 Un imaginario puro es un número complejo de la forma αi con α real.

Page 220: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

204 4. Matrices complejas

Si se expresa �zHA�z = α + iβ, entonces la ecuación anterior se puedeescribir como

α − iβ = −(α + iβ

),

luego se debe tener que α = −α, así que α = 0. Por lo tanto, se concluyeque �zHA�z es un imaginario puro.

Teorema 4.9 Los valores propios de una matriz antihermitiana deben

ser cero o imaginarios puros.

Demostración.Supongamos que λ es un valor propio y que �z es el vector propio

correspondiente. Es decir,

A�z = λ�z.

Si se premultiplica por �zH , se obtiene

�zHA�z = λ�zH�z.

Pero por el Teorema 4.8, el lado izquierdo es cero o imaginario puro y ellado derecho �zH�z = |�z|2 es real y distinto de cero. Por lo tanto,

λ =�zHA�z

�zH�z,

luego λ debe ser cero o imaginario puro.

Teorema 4.10 Sea A una matriz antihermitiana de tamaño n× n. En-

tonces los vectores propios asociados con valores propios distintos de A

son ortogonales.

Demostración.Sean �v1 y �v2 vectores propios de A que corresponden a valores propios

distintos, digamos, λ1 y λ2. Para probar que �v1 · �v2 = 0, se calcula

λ1�v1 · �v2 =(λ1�v1

)H�v2 =

(A�v1

)H�v2 puesto que �v1 es un vector propio

=(�vH1 AH

)�v2 = −�vH1 (A�v2) puesto que A es antihermitiana

= − �vH1 (λ2�v2) puesto que �v2 es un vector propio

= − λ2�vH1 �v2 = −λ2�v1 · �v2.

Page 221: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.1. Clases especiales de matrices complejas 205

Por lo tanto, se tiene que(λ1 + λ2

)�v1 · �v2 = 0. Pero como λ1 = −λ1 por

ser imaginario puro, entonces λ1 + λ2 �= 0, así que �v1 · �v2 = 0.

Teorema 4.11 Si A es hermitiana, entonces B = iA es antihermitiana.

Análogamente, si B es una matriz antihermitiana, entonces la matriz

A = iB es hermitiana.

Demostración.Sea AH = A y definamos B = iA, entonces

BH = (iA)H = (i)H AH = (−i)(A) = −B.

Esto prueba que B es antihermitiana. De la misma manera, se puedeprobar que A = iB es hermitiana cuando B es antihermitiana.

Teorema 4.12 Dada una matriz compleja cualquiera A de tamaño n×n,

la matriz S = 12

(A − AH

)es antihermitiana.

Demostración.Queda como ejercicio para el lector.

4.1.3 Matrices unitarias

Recordemos que una matriz ortogonal A es una matriz real que tiene lapropiedad de que At = A−1. Las matrices unitarias son el análogo parael caso complejo.

Definición 4.4 Matriz unitaria

Una matriz cuadrada U de componentes complejas se dice que es una

matriz unitaria si UHU = I. En consecuencia, U es no singular y se

tiene U−1 = UH .

Teorema 4.13 Sea U una matriz unitaria, entonces sus valores propios

son de módulo igual a 1.

Page 222: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

206 4. Matrices complejas

Demostración.Sea λ un valor propio de U con vector propio asociado �v, es decir

U�v = λ�v. (4.7)

Luego, tomando la transpuesta conjugada, se tiene

(U �v)H =(λ�v

)H�vH UH = λ �vH ,

pero como U es unitaria, se tiene que

�vH U−1 = λ �vH . (4.8)

Si se multiplica por la derecha ambos lados de (4.8) por U�v, se obtiene

�vH U−1(U�v) = λ �vH(U�v)

�vH(U−1U)�v = λ �vH(λ�v) por (4.7)

�vH�v = λ λ �vH�v.

Pero como �vH�v �= 0, se concluye que λ λ = 1. Es decir, ‖λ‖2 = 1, así que‖λ‖ = 1.

Teorema 4.14 Si U es una matriz unitaria de tamaño n × n. Enton-

ces los vectores propios asociados con valores propios distintos de U son

ortogonales.

Demostración.Sean �v1 y �v2 vectores propios de U que corresponden a valores propios

distintos, digamos, λ1 y λ2. Para demostrar que �v1 · �v2 = 0, se calcula(U �v1

)H(U �v2

)=

(λ1 �v1

)H(λ2 �v2

)puesto que λ1, λ2 son valores propios(

�vH1 UH)(

U�v2

)= λ1 �vH1 λ2 �v2 puesto que U es unitaria

�vH1 �v2 = λ1 λ2 �vH1 �v2.

Por lo tanto,(1 − λ1 λ2

)�v1 · �v2 = 0. Pero como λ1 es distinto de λ2,

entonces λ1 λ2 �= 1, así que �v1 · �v2 = 0.

Page 223: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.1. Clases especiales de matrices complejas 207

4.1.4 Matrices normales

Definición 4.5 Matriz normal

Se dice que la matriz de componentes complejas N de tamaño n × n

es normal si conmuta con NH , es decir:

NNH = NHN.

Ejemplo 4.3 Comprobar que las matrices complejas diagonales son nor-

males.

Solución.Sea D la siguiente matriz diagonal de tamaño n × n

D = diag{λ1, λ2, . . . , λn},entonces

DDH = diag{λ1, λ2, . . . , λn

}diag

{λ1, λ2, . . . , λn

}= diag

{|λ1|2, |λ2|2, . . . , |λn|2}

= diag{λ1, λ2, . . . , λn

}diag

{λ1, λ2, . . . , λn

}= DHD,

por lo tanto D es una matriz normal.

Teorema 4.15 Las matrices hermitianas, las antihermitianas y las uni-

tarias son matrices normales.

Demostración.Supongamos que A es hermitiana, entonces

AHA = AA = A2 y AAH = AA = A2.

Luego, AAH = AHA.Las demás quedan como ejercicio para el lector.

Teorema 4.16 Dadas A y B matrices complejas de tamaño n × n, si

AB = BA entonces A y B tienen un vector propio en común.

Page 224: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

208 4. Matrices complejas

Demostración.La prueba es análoga a la del Teorema 3.8 y queda como ejercicio

para el lector.

4.2 Factorizaciones

En esta sección se explica cómo se puede expresar una matriz A de com-ponentes complejas como el producto de dos o más matrices.

Definición 4.6 Matrices complejas semejantes

Una matriz de componentes complejas A de tamaño n×n es semejante

a una matriz de componentes complejas B de tamaño n×n si existe una

matriz de componentes complejas no singular P de tamaño n× n tal que

B = P−1AP. (4.9)

De manera análoga, se dice que A y B son semejantes si y solo si existe

una matriz de componentes complejas no singular P tal que

PB = AP. (4.10)

Teorema 4.17 Las matrices complejas semejantes tienen el mismo po-

linomio característico y, por tanto, los mismos valores propios.

Demostración.Como A y B son matrices complejas semejantes de tamaño n × n,

B = P−1AP , entonces

B − λI = P−1AP − λP−1P = P−1[AP − λP

]= P−1

[A − λI

]P.

Por consiguiente,

det(B − λI

)= det

[P−1(A − λI)P

]= det

(P−1

)det(A − λI) det(P )

= det(P−1

)det(P ) det(A − λI) = det(A − λI).

Page 225: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 209

Esto significa que A y B tienen la misma ecuación característica, y comolos valores propios son raíces de la ecuación característica, tienen losmismos valores propios.

Definición 4.7 Matrices congruentes hermitianas

Dos matrices hermitianas A y B de tamaño n × n son congruentes

hermitianas si existe una matriz P no singular de componentes complejas

de tamaño n × n tal que

A = PHBP. (4.11)

Teorema 4.18 Descomposición de Sylvester

Sea A una matriz compleja de tamaño n × n con valores propios dis-

tintos λ1, λ2, . . . , λn, entonces A se puede escribir como

A =n∑

k=1

λkE(λk

), (4.12)

donde la matriz E(λk

)es dada en (4.3).

Demostración.Puesto que cada E

(λk

)conmuta con A, al sumar las expresiones ob-

tenidas en (4.4) y (4.5), se tiene

n∑k=1

AE(λk

)︸ ︷︷ ︸ =

n∑k=1

E(λk

)A︸ ︷︷ ︸ =

n∑k=1

λkE(λk

)

An∑

k=1

E(λk

)=

[n∑

k=1

E(λk

)]A =

n∑k=1

λkE(λk

),

y usando la propiedad b) del Teorema 4.7, se completa la prueba.

Ejemplo 4.4 Encuentre la descomposición de Sylvester para la matriz

dada en el Ejemplo 4.2.

Page 226: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

210 4. Matrices complejas

Solución.En el Ejemplo 4.2, se obtuvo que los valores propios asociados a la

matriz A eran λ1 = 3, λ2 = 1 + i, λ3 = 1 − i, y las matrices complejasde proyección espectral E

(λk

)fueron

E(λ1

)=

⎡⎣ 0 0 0−1 − i 1 − i −1 + i−1 −i i

⎤⎦ , E(λ2

)=

⎡⎣ −1 −i −1 + i1 − i 1 + i −2i

1 i 1 − i

⎤⎦ ,

E(λ3

)=

⎡⎣ 2 i 1 − i2i −1 1 + i0 0 0

⎤⎦ ,

luego

3∑i=1

λiE(λi)

= 3E(λ3

)+

(1 + i

)E(λ3

)(1 − i

)E(λ3

),

la cual coincide con la matriz A.

Teorema 4.19 Teorema de Schur

Sea A una matriz compleja de tamaño n×n. Entonces A es semejante

a una matriz triangular superior T , mediante una matriz unitaria U, es

decir

T = UHAU.

Entonces, se dice que A es triangularizable por una matriz unitaria U.

Demostración.La demostración es por inducción sobre n. Si n = 1, A es una matriz

de tamaño 1 × 1 que es triangular. La matriz unitaria es U = [1].

Supongamos que toda matriz de componentes complejas de tamaño(n− 1

)× (n− 1

)es triangularizable por una matriz unitaria. Sea A una

matriz de tamaño n×n. Sabemos que su polinomio característico tiene almenos una raíz compleja λ1. Sea �v1 ∈ Cn un vector propio normalizadoasociado al valor propio λ1. Denotemos por W el complemento ortogonal

Page 227: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 211

a �v1 de dimensión n− 1. Sea{�v2, �v3, . . . , �vn

}una base ortonormal de W.

Luego, cada vector �X de W tiene la forma

�X = a2 �v2 + a3 �v3 + . . . + an �vn.

La matriz de cambio de base, de la base canónica de Cn a la base{�v1, �v2, . . . , �vn

}, es la matriz S cuyas columnas son los elementos de los

vectores �vi. Luego,

AS =[

A�v1 A�v2 . . . A�vn]

=[

λ1�v1 A�v2 . . . A�vn].

Por lo tanto,

S−1AS = S−1[

λ1�v1 A�v2 . . . A�vn].

Pero como S es unitaria, se tiene que S−1 = SH . Por consiguiente

SHAS =

⎡⎢⎢⎢⎣λ1 z12 . . . z1n

0...0

⎡⎣ A1

⎤⎦⎤⎥⎥⎥⎦ ,

donde z1i = �vH1 A�vi y A1 es una matriz de tamaño(n − 1

)× (n − 1

).

La prueba se completa por inducción, sea R1 una matriz unitaria detamaño (n − 1) × (n − 1) tal que (R1)

HA1R1 = T1, con T1 triangularsuperior por la hipótesis de inducción. Entonces, la matriz

R =

⎡⎢⎢⎢⎣1 0 . . . 00...0

⎡⎣ R1

⎤⎦⎤⎥⎥⎥⎦

es unitaria y (SR

)HA(SR

)= RH

(SHAS

)R

=

[1 �0t

�0 RH1

] [λ1 �zH

�0 AH1

] [1 �0t

�0 R1

]=

[λ1 �zHR1

�0 T1

],

Page 228: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

212 4. Matrices complejas

donde �zH = [z12 z13 . . . z1n] . La matriz SR = U es el producto dedos matrices unitarias; por lo tanto, es también una matriz unitaria. Así,UHAU es una matriz triangular superior y nuestra prueba queda com-pleta.

El siguiente resultado corresponde a una consecuencia directa del teo-rema anterior.

Teorema 4.20 Sea A una matriz de componentes complejas de tamaño

n × n. Los valores propios de A son los elementos de la diagonal de la

matriz triangular superior T semejante a A por una matriz unitaria.

Demostración.Como A y T son semejantes por el Teorema 4.17, tienen el mismo

polinomio característico. Por otra parte, como T es triangular, se tiene

pA(λ) = pT (λ) =(t11 − λ

)(t22 − λ

). . .

(tnn − λ

),

donde t11, t22, . . . , tnn son los elementos de la diagonal de T. Así pues losvalores propios de A son los elementos de la diagonal de T.

Ejemplo 4.5 Dada la matriz de componentes complejas:

A =

⎡⎢⎢⎢⎢⎣1 − i 0 0

i 1 2 + i

2i 0 i

⎤⎥⎥⎥⎥⎦ ,

encuentre una matriz T que sea la triangularización de A.

Solución.El polinomio característico de A es

pA(λ) = −λ3 + 2λ2 − (2 + i)λ + (1 + i) = −(1 − λ)(i − λ)((1 − i) − λ).

Luego, los valores propios son λ1 = 1, λ2 = i y λ3 = 1 − i. El vector

propio correspondiente a λ1 = 1 es �v1 =

⎡⎣ 03 + 4i

0

⎤⎦; para λ2 = i es �v2 =⎡⎣ 0−1 − 3i

2

⎤⎦ y, por último, para λ3 = 1 − i es �v3 =

⎡⎣1 − 2i−52i

⎤⎦ .

Page 229: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 213

Para determinar U , se aplica el proceso de Gram-Schmidt a{�v1, �v2,

�v3

}para encontrar una base ortonormal para C3, puesto que el producto

punto en complejos no es conmutativo, entonces hay que tener en cuentael orden en que se realiza el producto punto. Luego, para determinar losvectores ortogonales, se usa la siguiente expresión:

�wk = �vk −k− 1∑i=1

〈�wi, �vk〉‖�wi‖2

�wi = �vk −k− 1∑i=1

�wHi �vk

�wHi �wi

�wi,

y la base ortonormal se obtiene dividiendo cada �wk por su norma. Como

‖�v1‖ = 5, se hace �u1 =�v1

‖�v1‖ =1

5

⎡⎣ 03 + 4i

0

⎤⎦ , los otros vectores serían

�w2 = �v2 −(�uH1 �v2

)�u1 =

⎡⎣ 0−1 − 3i

2

⎤⎦− −15 − 5i

25

⎡⎣ 03 + 4i

0

⎤⎦=

⎡⎣ 0−1 − 3i

2

⎤⎦ +

⎡⎣ 01 + 3i

0

⎤⎦ =

⎡⎣002

⎤⎦ .

Entonces, ‖�w2‖ = 2 y �u2 =

⎡⎣001

⎤⎦ . Se puede verificar que �uH1 �u2 = 0. Ahora,

�w3 = �v3 − �uH1 �v3�u1 − �uH2 �v3�u2

=

⎡⎣1 − 2i−52i

⎤⎦− −15 + 20i

25

⎡⎣ 03 + 4i

0

⎤⎦− 2i

⎡⎣001

⎤⎦ ,

=

⎡⎣1 − 2i−52i

⎤⎦ +

⎡⎣ 05

−2i

⎤⎦ =

⎡⎣1 − 2i00

⎤⎦ .

Por último, ‖�v3‖ =√

5, luego �u3 =1√5

⎡⎣1 − 2i00

⎤⎦ . También se verifica

que la base obtenida para C3 es ortonormal observando que �uH1 �u3 = 0 y�uH2 �u3 = 0. Por lo tanto, la matriz unitaria U es

U =

⎡⎣ 0 0(1 − 2i

)/√

5(3 + 4i

)/5 0 0

0 1 0

⎤⎦

Page 230: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

214 4. Matrices complejas

y la matriz triangular es

UHAU =

⎡⎢⎢⎢⎣0

3 − 4i

50

0 0 11 + 2i√

50 0

⎤⎥⎥⎥⎦⎡⎣ 1 − i 0 0

i 1 2 + i2i 0 i

⎤⎦⎡⎢⎢⎢⎣

0 01 − 2i√

53 + 4i

50 0

0 1 0

⎤⎥⎥⎥⎦ .

Al realizar los productos, se obtiene

T =

⎡⎢⎢⎢⎣1 2 − i

2 − i√5

0 i4 + 2i√

50 0 1 − i

⎤⎥⎥⎥⎦ .

Nótese que los elementos de la diagonal principal de la matriz T son losvalores propios de la matriz A.

Teorema 4.21 Sea A una matriz hermítica de tamaño n × n, entonces

existe una matriz unitaria U tal que

U−1AU

es una matriz diagonal.

Demostración.Como A es una matriz compleja, por el teorema de Schur, A se puede

triangularizar mediante una matriz unitaria U , es decir

T = UHAU,

donde T es una matriz triangular superior.Al tomar la transpuesta conjugada y usando que AH = A, se tiene

que

TH =(UHAU

)H= UHAH

(UH

)H= UHAU = T,

como TH es una matriz triangular inferior, luego T es una matriz diago-nal. En consecuencia, A es semejante mediante una matriz unitaria U , auna matriz diagonal T.

Page 231: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 215

Teorema 4.22 Si A y B son matrices complejas de tamaño n × n y

AB = BA, entonces A y B pueden ser triangularizadas unitariamente en

forma simultánea.

Demostración.La demostración es por inducción sobre n. Por el Teorema 4.16, existe

�v1 ∈ Cn normalizado tal que

A�v1 = λ1�v1 y B�v1 = μ1�v1.

De manera análoga, como en la prueba del Teorema 4.19, se construyeuna matriz S unitaria cuya primera columna sea �v1. Entonces

SHAS =

⎡⎢⎢⎢⎣λ1 x12 . . . x1n

0...0

⎡⎣ A1

⎤⎦⎤⎥⎥⎥⎦ y SHBS =

⎡⎢⎢⎢⎣μ1 y12 . . . y1n

0...0

⎡⎣ B1

⎤⎦⎤⎥⎥⎥⎦ ,

donde A1 y B1 son matrices complejas de tamaño(n− 1

)× (n− 1

). Por

otra parte,(SHAS

)(SHBS

)= SH(AB)S puesto que SH = S−1,

= SH(BA

)S puesto que AB = BA,

=(SHBS

)(SHAS

),

y por la multiplicación por bloques, se tiene⎡⎢⎢⎣ λ1μ1... λ1�y

H + �xHB1

. . . . . . . . . .

�0... A1B1

⎤⎥⎥⎦ =

⎡⎢⎢⎣ λ1μ1... μ1�x

H + �yHA1

. . . . . . . . . .

�0... B1A1

⎤⎥⎥⎦ ,

donde �xH = [x12 x13 . . . x1n] , �yH = [y12 y13 . . . y1n] y, por lo tan-to, A1B1 = B1A1. Los detalles para culminar la prueba son análogos alos del Teorema 4.19 y se dejan como ejercicio para el lector.

Teorema 4.23 Si A y B son matrices normales de tamaños n × n, en-

tonces AB = BA si y solo si existe una matriz unitaria U de tamaño

n × n tal que UHAU y UHBU sean ambas diagonales.

Page 232: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

216 4. Matrices complejas

Demostración.Supongamos que AB = BA. Por el Teorema 4.22, existe una matriz

unitaria U tal que UHAU y UHBU son ambas triangulares. Pero comoA y B son normales, pueden ser diagonalizables unitariamente. De aquíque UHAU y UHBU sean diagonales. Por otra parte, si UHAU = DA yUHBU = DB son ambas diagonales, entonces

AB =(UDAUH

)(UDBUH

)= UDADBUH

= UDBDAUH =(UDBUH

)(UDAUH

)= BA.

Esto completa la demostración.

Ejemplo 4.6 Considere la matriz de componentes complejas:⎡⎢⎢⎢⎢⎣1 −i −1

i 0 −2i

−1 2i 0

⎤⎥⎥⎥⎥⎦ .

Comprobar que es diagonalizable mediante una matriz unitaria.

Solución.El polinomio característico de A es pA(λ) = λ(3 − λ)(2 + λ). En este

caso, los valores propios de A son λ1 = 3, λ2 = −2 y λ3 = 0. Los vectores

propios correspondientes son �v1 =

⎡⎣ 1i

−1

⎤⎦, �v2 =

⎡⎣ 01−i

⎤⎦ y �v3 =

⎡⎣ 2−i1

⎤⎦,

respectivamente.Para encontrar la matriz unitaria U , se ortonormaliza el conjunto{

�v1, �v2, �v3

}. Como ‖�v1‖ =

√3, se hace �u1 =

�v1

‖�v1‖ =1√3

⎡⎣ 1i

−1

⎤⎦ . Por otra

parte, se tiene que ‖�v2‖ =√

2, entonces �u2 =1√2

⎡⎣ 01−i

⎤⎦ . Por último,

‖�v3‖ =√

6 de manera que �u3 =1√6

⎡⎣ 2−i1

⎤⎦ . Se puede verificar que la base

Page 233: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 217

obtenida para C3 es ortonormal observando que �uH1 �u2 = 0, �uH1 �u3 = 0 y�uH2 �u3 = 0. Por lo tanto,

U =

⎡⎣ 1/√

3 0 2/√

6

i/√

3 1/√

2 −i/√

6

−1/√

3 −i/√

2 1/√

6

⎤⎦ .

Como el det(U) = 1, se tiene que

D = UHAU =

⎡⎣ 3 0 00 −2 00 0 0

⎤⎦ .

Luego, la matriz A es diagonalizable por una matriz unitaria.

Teorema 4.24 Descomposición espectral para hermitianas

Sea A una matriz hermitiana de tamaño n × n con valores propios

λ1, λ2, . . . , λn, entonces A se puede escribir como

A =n∑

i=1

λiE(λi), (4.13)

donde las matrices de proyección espectral vienen dadas por

E(λi)

=�vi�v

Hi

�vHi �vi= �ui�u

Hi , (4.14)

con �u1, �u2, . . . , �un los vectores propios normalizados de A.

Demostración.Por el Teorema 4.21, existe una matriz U tal que U−1AU = T , donde

T es una matriz diagonal. Entonces,

A = UTU−1 = UTUH

=[�u1 �u2 . . . �un

]⎡⎢⎢⎢⎣

λ1 0 . . . 00 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦⎡⎢⎢⎢⎣�uH1�uH2...

�uHn

⎤⎥⎥⎥⎦ ,

Page 234: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

218 4. Matrices complejas

luego

A = UTU−1 =[�u1 �u2 . . . �un

]⎡⎢⎢⎢⎣

λ1�uH1

λ2�uH2

...λn�u

Hn

⎤⎥⎥⎥⎦= λ1�u1�u

H1 + λ2�u2�u

H2 + . . . + λn�un�u

Hn .

Esto prueba el teorema.

Ejemplo 4.7 Ilustrar el teorema de descomposición espectral para la ma-

triz dada en el Ejemplo 4.6.

Solución.Del Ejemplo 4.6 se tiene que los valores propios asociados a la matriz

A son λ1 = 3, λ2 = −2 y λ3 = 0. Los respectivos vectores propiosnormalizados de A eran

�u1 =1√3

⎡⎣ 1i

−1

⎤⎦ , �u2 =1√2

⎡⎣ 01−i

⎤⎦ y �u3 =1√6

⎡⎣ 2−i1

⎤⎦ .

Entonces

3∑i=1

λi�ui�uHi =

3

3

⎡⎣ 1i

−1

⎤⎦ [1 −i −1

]+

−2

2

⎡⎣ 01−i

⎤⎦ [0 1 i

]

=

⎡⎣ 1 −i −1i 1 −i

−1 i 1

⎤⎦−⎡⎣ 0 0 0

0 1 i0 −i 1

⎤⎦ =

⎡⎣ 1 −i −1i 0 −2i

−1 2i 0

⎤⎦ ,

la cual coincide con la matriz A dada en el Ejemplo 4.6.

Teorema 4.25 Sea A una matriz hermitiana y no singular que se puede

factorizar como

A = LDU

sin intercambio de filas, donde L es una matriz unitaria triangular in-

ferior, D es una matriz diagonal y U es una matriz unitaria triangular

superior. Entonces, L = UH .

Page 235: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 219

Demostración.Puesto que A puede factorizarse como A = LDU , tomando la trans-

puesta conjugada, se tiene que

AH =(LDU

)H= UHDHLH = UHDLH .

Como A es hermítica, es igual a AH , por lo tanto

LDU = UHDLH

D = L−1(UHDLH

)U−1

D =(UL

)HD(UL

)H,

luego L = U−1 = UH , lo cual completa la prueba.

Ejemplo 4.8 Determine la descomposición LDU para la matriz dada en

el Ejemplo 4.6.

Solución.De manera análoga al caso real, se realizan las respectivas operaciones

por filas y se llega a⎡⎣ 1 −i −1i 0 −2i−1 2i 0

⎤⎦ =

⎡⎣ 1 0 0i 1 0−1 −i 1

⎤⎦⎡⎣ 1 0 00 −1 00 0 0

⎤⎦⎡⎣ 1 −i −10 1 i0 0 1

⎤⎦ ;

nótese que L = UH .

Teorema 4.26 Si N es una matriz normal, entonces la matriz T =

UHNU (U unitaria) es también normal.

Demostración.Sea N una matriz normal y definamos T = UHNU. Multiplicando

por TH , se obtiene que

TTH =(UHNU

)(UHNU

)H= UHN

(UUH

)NHU = UHNNHU

= UHNHNU puesto que N es normal

=(UHNHU

)(UHNU

)= THT,

y como TTH = THT, se ha demostrado que T es normal.

Page 236: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

220 4. Matrices complejas

Teorema 4.27 Sea A una matriz de componentes complejas de tamaño

n× n. La matriz A es normal si y solo si es diagonalizable mediante una

matriz unitaria.

Demostración.Supongamos que A es normal. Por el teorema de Schur, la matriz A es

semejante a una matriz triangular superior T , por medio de una matrizunitaria U. Es decir T = UHAU. Pero como

TTH =(UHAU

)(UHAU

)H= UHAAHU = UHAHAU

=(UHAHU

)(UHAU

)= THT,

la matriz T resulta ser normal. El lector puede verificar que la matriz Tes diagonal.

Recíprocamente, supóngase que A es diagonalizable por una matrizunitaria U , es decir UHAU = D, donde D es una matriz diagonal. ComoD es normal (Ejemplo 4.3), se verifica que

AAH =(UDUH

)(UDUH

)H= UDDHUH = UDHDUH

=(UDHUH

)(UDUH

)= AHA.

Por lo tanto, la matriz A es normal.

4.2.1 Forma canónica de Jordan

Si A es una matriz real de tamaño n × n, en la Sección 3.4 se vio que sepodía encontrar una matriz no singular P de tamaño n × n tal que

J = P−1AP.

En esta sección se explica, para matrices de componentes complejas, laforma canónica de Jordan.

Page 237: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 221

Teorema 4.28 Sea A una matriz compleja de tamaño n × n. Entonces,

existe una matriz P no singular tal que

P−1AP =

⎡⎢⎢⎢⎢⎣Jn1

(λ1) · · · 0

.... . .

...

0 . . . Jnk(λk)

⎤⎥⎥⎥⎥⎦ = J , (4.15)

en donde cada Jni(λi) es un bloque de Jordan de tamaño ni × ni y

n1 + n2 + . . . + nk = n. Los valores propios λi, i = 1, 2, . . . , k no son

necesariamente distintos. El número total de bloques quedan determinados

unívocamente por la matriz A.

Demostración.Queda como ejercicio para el lector.

Ejemplo 4.9 Encuentre una matriz no singular P tal que P−1AP sea

una matriz de Jordan, para la siguiente matriz:⎡⎢⎢⎢⎢⎣2 + i 1 0

−2 i 1

1 1 1 + i

⎤⎥⎥⎥⎥⎦ .

Solución.La ecuación característica de A es

−λ3 +(3 + 3i

)λ2 − 6iλ − (

2 − 2i)

= 0.

Luego, λ = 1 + i es el único valor propio (de multiplicidad algebraicatres). Entonces,

(A − λI)�v =[A − (1 + i)I

]�v =

⎡⎣ 1 1 0−2 −1 11 1 0

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣000

⎤⎦ .

Page 238: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

222 4. Matrices complejas

Esto conduce a que x + y = 0 y −x + z = 0. Tomando x ∈ R, se

obtiene el vector propio: �v1 =

⎡⎣ 1−11

⎤⎦ . Para encontrar un vector propio

generalizado, �v2 se calcula[A − (1 + i)I

]�v2 = �v1⎡⎣ 1 1 0

−2 −1 11 1 0

⎤⎦⎡⎣xyz

⎤⎦ =

⎡⎣ 1−11

⎤⎦ .

Si se realizan operaciones por filas, se obtiene el vector propio genera-

lizado: �v2 =

⎡⎣010

⎤⎦ , y de manera análoga, el vector propio generalizado:

�v3 =

⎡⎣001

⎤⎦ . Por consiguiente,

P =

⎡⎣ 1 0 0−1 1 01 0 1

⎤⎦ y P−1 =

⎡⎣ 1 0 01 1 0

−1 0 1

⎤⎦ .

Al efectuar el producto P−1AP, se llega a⎡⎣ 1 0 01 1 0

−1 0 1

⎤⎦⎡⎣ 2 + i 1 0−2 i 11 1 1 + i

⎤⎦⎡⎣ 1 0 0−1 1 01 0 1

⎤⎦ =

⎡⎣ 1 + i 1 00 1 + i 10 0 1 + i

⎤⎦ .

El lector puede notar que sobre la diagonal de la matriz de Jordan seencuentra el valor propio de la matriz A.

4.2.2 Descomposición en valores singulares

Si A es una matriz real de tamaño m × n, hemos visto en la Sección 3.6que se pueden encontrar dos matrices ortogonales U y V de tamañosm × m y n × n, respectivamente, tales que

A = USV t.

En esta sección se describe la descomposición en valores singulares y ladescomposición polar para matrices de componentes complejas.

Page 239: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 223

Teorema 4.29 Descomposición en valores singulares

Sea A una matriz compleja de tamaño m × n con rango r. Entonces,

existen matrices unitarias U y V de tamaño m × m y n × n, respectiva-

mente, tales que

A = USV H , (4.16)

donde S es la matriz particionada de tamaño m × n, dada por

S =

⎡⎢⎢⎢⎢⎣Dr×r

... Or×n1

. . . · . . .

Om1×r... Om1×n1

⎤⎥⎥⎥⎥⎦ , donde Dr×r =

⎡⎢⎢⎢⎢⎣σ1 . . . 0

.... . .

...

0 . . . σr

⎤⎥⎥⎥⎥⎦ , (4.17)

siendo σi, para i = 1, 2, . . . , r, los valores singulares no nulos de A.

Demostración.Queda como ejercicio para el lector.

Ejemplo 4.10 Encuentre para la siguiente matriz de componentes com-

plejas,

A =

⎡⎢⎣ 1 + i i

2 1 − i

⎤⎥⎦ ,

su descomposición en valores singulares.

Solución.La matriz AHA es[

1 − i 2−i 1 + i

] [1 + i i

2 1 − i

]=

[6 3 − i

3 + i 3

].

En este caso, los valores propios de AHA son λ1 = 8 y λ2 = 1. Por lotanto, los valores singulares asociados a la matriz A son σ2

1 = 8 y σ22 = 1.

Al calcular los respectivos vectores propios normalizados, se obtiene

�v1 =1√35

[5

3 + i

]y �v2 =

1√14

[2

−3 − i

].

Page 240: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

224 4. Matrices complejas

Por otra parte, la matriz AAH es[1 + i i

2 1 − i

] [1 − i 2−i 1 + i

]=

[3 1 + 3i

1 − 3i 6

]y sus respectivos vectores propios normalizados son

�u1 =1√70

[2 + 4i7 − i

]y �u2 =

1√14

[3 − i

2i

].

Finalmente, si U =[�u1 �u2

], V =

[�v1 �v2

]y S =

[2√

2 00 1

], entonces la

SV D de A es

A =

(1√7

)2 [ 2+4i√10

3−i√2

7−i√10

2i√2

] [2√

2 00 1

] [5√5

3−i√5

2√2

−3+i√2

]=

[1 + i i

2 1 − i

].

4.2.3 Descomposición polar

Ahora se estudiará la descomposición polar para matrices de componentescomplejas. El nombre de descomposición polar se debe a la representaciónpolar de un número complejo z = ρeiθ. La analogía entre esta repre-sentación de los números complejos y la descomposición (3.42) de unamatriz es debida a que los valores propios de la matriz P son númerosreales no negativos y los de la matriz Q son números complejos unitarios.

Teorema 4.30 Descomposición polar a izquierda

Sea A una matriz compleja de tamaño n × n con rango r. Entonces,

existe una matriz hermitiana P de tamaño n × n con valores propios no

negativos y una matriz unitaria Q de tamaño n × n tales que

A = PQ. (4.18)

Demostración.Si A es una matriz de tamaño n × n, las matrices U, S y V de la

descomposición en valores singulares son también de tamaño n×n. Luego,la ecuación (4.16) se puede escribir como

A = USV H = US(UHU)V H = (USUH)UV H = PQ.

Page 241: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 225

La matriz P es siempre única, aun cuando A sea singular, y está dadapor

P =[AAH

] 1

2 = USUH .

Nótese que esta matriz es hermítica, ya que

PH =(USUH

)H= USHUH

= USUH = P (por ser S simétrica),

y la matriz Q = UV H es unitaria, puesto que

Q−1 =(UV H

)−1=

(V H

)−1U−1 = V UH = QH .

En la última ecuación se usaron los hechos de que U y V eran matricesunitarias.

Se deja como ejercicio la comprobación de que P tiene valores propiosno negativos.

Corolario 4.30.1 Descomposición polar a derecha

Sea A una matriz compleja de tamaño n × n con rango r. Entonces,

existe una matriz hermitiana P ′ de tamaño n× n con valores propios no

negativos y una matriz unitaria Q de tamaño n × n tales que

A = QP ′. (4.19)

Demostración.En términos de la descomposición en valores singulares de A, es decir

A = USV H , se tiene que

P ′ =[AHA

] 1

2 = V SV H y Q = UV H .

Si A es no singular, entonces la matriz Q está dada por

Q = A[P ′]−1

.

El lector puede verificar que P ′ tiene valores propios no negativos y Q esunitaria.

Page 242: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

226 4. Matrices complejas

La descomposición de la conjugada compleja de A está dada por

A = QP ′.

Esta descomposición siempre existe, y cuando la matriz A es no singular,entonces es única y la matriz P ′ tiene valores propios positivos. Por otraparte,

det(A) = det(P ′) det(Q) = ρeiθ

es la respectiva descomposición polar del determinante de A, ya que

det(P ′) = ρ =

∣∣det(A)∣∣ y det(Q) = eiθ.

La descomposición polar a izquierda es también conocida como la des-composición polar inversa. Las descomposiciones polares a izquierda y aderecha están relacionadas por

P = QP ′QH con Q = UV H .

La matriz A es una matriz normal si y solo si P ′ = P. En este caso, QS =SQ, donde Q = V HU y por el Teorema 4.23, es posible diagonalizarlasmediante una matriz unitaria R, luego Q = RHΔR, donde Δ es unamatriz diagonal unitaria de fase eiϕ. Al tomar W = V RH , se puedevolver a escribir la descomposición polar como

A =(WΔWH

)(WSWH

),

por lo tanto, A también tiene una descomposición espectral dada por

A = WΛWH ,

con valores propios complejos tales que ΛΛH = S2 y una matriz unitariaW de vectores propios complejos.

Ejemplo 4.11 Encuentre para la matriz dada en el Ejemplo 4.10 la des-

composición polar tanto a izquierda como a derecha.

Solución.La matriz P es

USUH =1

7

[4√

2 + 5(2 + 6i

)√2 − 1 − 3i(

2 − 6i)√

2 − 1 + 3i 10√

2 + 2

]

Page 243: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 227

y la matriz Q unitaria es

UV H =1

7

[(1 + 2i)

√2 + 3 − i (1 + i)

√2 − 4 + 3i(

72 − 1

2 i)√

2 + 2i (2 − i)√

2 − 1 − 3i

].

El lector puede verificar que A = PQ. Para determinar la descomposiciónpolar a derecha, se establece

P ′ = V SV H =

(1√7

)2 [10√

2 + 2 (6 − 2i)√

2 − 3 + i

(6 + 2i)√

2 − 3 − i 4√

2 + 5

].

Luego, la descomposición polar a derecha queda A = QP ′.

Las propiedades de las matrices complejas descritas en este capítu-lo son comparables a las propiedades de las matrices reales analizadasanteriormente. En el siguiente resumen se indica la correspondencia en-tre las matrices complejas unitarias y hermitianas con las matrices realesortogonales y simétricas.

Comparación entre matrices reales y matrices complejas

Sea A = [aij ], con aij ∈ R. Sea A = [aij ], con aij ∈ C.1. Toda matriz simétrica

(A =

At)

tiene valores propios reales.1. Toda matriz hermitiana

(A =

AH)

tiene valores propios reales.2. Si A es una matriz simé-tri-ca, los vectores propios corres-pondientes a valores propios dis-tintos son ortogonales.

2. Si A es una matriz hermitia-na, los vectores propios corres-pondientes a valores propios dis-tintos son ortogonales.

3. Descomposición de Schur. 3. Descomposición de Schur.Si A es una matriz de tamañon × n con valores propios reales,existe una matriz ortogonal Q talque

QtAQ = T

es una matriz triangular superior.

Si A es una matriz de tamaño n×n, existe una matriz unitaria Utal que

UHAU = T

es una matriz triangular superior.

4. Teorema espectral. 4. Teorema espectral.Si A = At, existe una matriz or-togonal Q tal que

QtAQ = D

es una matriz diagonal.

Si A = AH , existe una matrizunitaria U tal que

UHAU = D.

es una matriz diagonal.

Page 244: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

228 4. Matrices complejas

5. Descomposición en valores 5. Descomposición en valoressingulares. singulares.Existen matrices ortogonales U yV de tamaños m × m y n × n,respectivamente, tales que

A = USV t,

donde S está dada por (3.39).

Existen matrices unitarias U y Vde tamaños m × m y n × n, res-pectivamente, tales que

A = USV H ,

donde S está dada por (4.17).6. Descomposición polar. 6. Descomposición polar.Existe una matriz simétrica P detamaño n×n con valores propiosno negativos y una matriz orto-gonal Q de tamaño n× n tal que

A = PQ,

donde P = USU t y Q = UV t.

Existe una matriz hermitiana Pde tamaño n×n con valores pro-pios no negativos y una matrizunitaria Q de tamaño n × n talque

A = PQ,

donde P = USUH y Q = UV H .

Ejercicios 4.1

1. Determine para cada una de las siguientes matrices una matriz uni-

taria U tal que UHAU sea diagonal:

a.

⎡⎢⎣ 1 i

−i 2

⎤⎥⎦ . b.

⎡⎢⎣ 1 2 + 3i

2 − 3i −1

⎤⎥⎦ . c.

⎡⎢⎣ 2 1 + 2i

1 − 2i −2

⎤⎥⎦ .

d.

⎡⎢⎢⎢⎢⎣1 i 2 + i

−i 2 1 − i

2 − i 1 + i 2

⎤⎥⎥⎥⎥⎦ . e.

⎡⎢⎢⎢⎢⎣1 1 + i 2i

1 − i 4 2 − 3i

−2i 2 + 3i 7

⎤⎥⎥⎥⎥⎦ .

2. Sea V = {A ∈ M22 : aij ∈ C} . Determine si cada uno de los siguien-

tes subconjuntos H son o no subespacios de V:

a) H = {A ∈ V : aii = 0} .

Page 245: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

4.2. Factorizaciones 229

b) H = {A ∈ V : aii son imaginarios puros} .

c) H ={A ∈ V : A = AH

}.

3. Sea H =

⎧⎪⎨⎪⎩A ∈ M22 : A =

⎡⎢⎣ w −z

z w

⎤⎥⎦ ; w, z ∈ C

⎫⎪⎬⎪⎭ .

a) Demuestre que H es cerrado para la suma y la multiplicación.

b) ¿Cuáles matrices en H son no singulares?

c) Compruebe que si una matriz en H es no singular, entonces la

inversa está en H.

d) Encuentre dos matrices A y B en H tal que AB �= BA.

4. Sea A una matriz de tamaño n × n con componentes complejas y

sea �x ∈ Cn un vector propio correspondiente al valor propio λ ∈ C.

Muestre que para cada escalar complejo no nulo α el vector α�x es

un vector propio de A.

5. Si A es una matriz normal, pruebe que A y AH son diagonalizables

por la misma matriz unitaria.

6. Si A es una matriz normal, pruebe que λ es un valor propio de A

si y solo si λ es un valor propio de AH .

Page 246: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 247: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 5

Formas bilineales

En este capítulo estudiaremos las formas bilineales sobre espacios de di-mensión finita. Se introduce la representación matricial de una formabilineal y se establece el isomorfismo entre el espacio de las formas y elespacio de las matrices de tamaño n × n.

5.1 Formas bilineales

Definición 5.1 Sean U, V y W espacios vectoriales reales. Una aplica-

ción g : U × V → W se llama bilineal si satisface las siguientes propieda-

des:

BI 1. Para todo �u1, �u2 ∈ U y �v ∈ V, se tiene que

g(�u1 + �u2, �v

)= g

(�u1, �v

)+ g

(�u2, �v

),

y para todo �u ∈ U y �v1, �v2 ∈V, se tiene que

g(�u,�v1 + �v2

)= g

(�u,�v1

)+ g

(�u,�v2

).

BI 2. Para todo α ∈ R, �u ∈ U y �v ∈V, se tiene que

g(α�u,�v

)= αg

(�u,�v

)= g

(�u, α�v

).

231

Page 248: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

232 5. Formas bilineales

Ejemplo 5.1 Sea g : Rm × Rn → R definida por

g( �X, �Y ) = �XtA�Y ,

donde �X ∈ Rm, �Y ∈ Rn y A es una matriz real de tamaño m × n.

Verifique si la aplicación g es bilineal.

Solución.Para todo �X1, �X2 ∈ Rm y �Y ∈ Rn se tiene que

g( �X1 + �X2, �Y ) = ( �X1 + �X2)tA�Y = ( �Xt

1 + �Xt2)A

�Y

= �Xt1A

�Y + �Xt2A

�Y = g( �X1, �Y ) + g( �X2, �Y ).

Para todo α ∈ R, �X ∈ Rm y �Y ∈ Rn se tiene que

g(α �X, �Y ) = (α �X)tA�Y = (αt �Xt)A�Y

= α �XtA�Y = αg( �X, �Y ).

Así, la aplicación g es lineal cuando �Y ∈ Rn permanece fijo. De maneraanáloga, se puede probar que g es una transformación lineal cuando lacomponente �X ∈ Rm se mantiene fija. Por lo tanto, g es una aplicaciónbilineal.

Teorema 5.1 Sea g : Rm × Rn → R una aplicación bilineal. Entonces

existe una matriz única A de tamaño m × n, tal que

g( �X, �Y ) = gA( �X, �Y ) = �XtA�Y . (5.1)

El conjunto de aplicaciones bilineales de Rm × Rn en R es un espacio

vectorial denotado por Bil(Rm × Rn, R), y la asociación

A �→ gA

es un isomorfismo entre Bil(Rm × Rn, R) y el espacio de las matrices

reales de tamaño m × n.

Page 249: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.1. Formas bilineales 233

Demostración.Sean �e1, �e2, . . . , �em los vectores unitarios estándar para Rm y sean

�u1, �u2, . . . , �un los vectores unitarios estándar para Rn. Luego, se puedeexpresar cualquier �X ∈ Rm y cualquier �Y ∈ Rn de la siguiente manera

�X =m∑i=1

xi�ei y �Y =n∑

j=1

yj�uj .

Entonces, se tiene que

g(

�X, �Y)

= g

(m∑i=1

xi�ei,n∑

j=1

yj�uj

).

Como g es una transformación lineal, en la primera componente se llegaa

g(

�X, �Y)

=

m∑i=1

xi

[g

(�ei,

n∑j=1

yj�uj

)],

y usando el hecho de que g es lineal, en la segunda componente se hallaque

g(

�X, �Y)

=m∑i=1

n∑j=1

xiyj g(�ei, �uj

).

Sea

aij = g(�ei, �uj

).

Luego, (5.1) se puede expresar como sigue:

g(

�X, �Y)

=

m∑i=1

n∑j=1

aijxiyj , (5.2)

que es precisamente la expresión del producto

�XtA�Y con A = [aij ] ;

esto prueba que g = gA para las aij escogidas anteriormente.Ahora se demuestra que A es única, para ello, suponga que g

(�X, �Y

)=

�XtA�Y y que g(

�X, �Y)

= �XtB�Y para todo �X ∈ Rm y �Y ∈ Rn. Entonces,

�XtA�Y = �XtB�Y ,

Page 250: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

234 5. Formas bilineales

y al establecer C = A − B, se tiene que

�XtC�Y = 0, para todo �X ∈Rm y �Y ∈ Rn.

En particular, si �X = �ei e �Y = �uj , se tiene que

0 = �e ti C�uj = cij .

Así que cij = 0 para todo i, j, y por lo tanto C = O es la matriz cero detamaño m × n. Esto muestra que A = B.

El lector puede probar como ejercicio la parte referente al isomorfismoentre el espacio de las matrices y las aplicaciones bilineales.

Definición 5.2 La matriz A en el Teorema 5.1 se llama representación

matricial de la aplicación bilineal gA.

Definición 5.3 Forma bilineal

Si en la definición 5.1 se tiene que los espacios U = V y el espacio

W = R de tal manera que g aplica a V × V en R, entonces se dice que g

es una forma bilineal sobre V.

Teorema 5.2 Sean g1, g2 : V × V → R dos formas bilineales distintas

sobre V. Entonces:

a) g1 + g2 es una forma bilineal.

b) αg1 es también una forma bilineal, donde α ∈ R.

Demostración.Queda como ejercicio para el lector.

Definición 5.4 Rango de una forma bilineal

El rango de una forma bilineal g sobre V, escrito ρ(g), se define como

el rango de la matriz que representa a g. Se dice que g es degenerada o

no degenerada según si ρ(g) < dim(V)

o ρ(g) = dim(V).

Page 251: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.1. Formas bilineales 235

Definición 5.5 Sea g : V×V → R una forma bilineal sobre V. Entonces

g es simétrica si para todo �v, �w ∈ V, se cumple que

g(�v, �w

)= g

(�w,�v

). (5.3)

Teorema 5.3 Una matriz real A de tamaño n×n representa una forma

bilineal simétrica si y solo si es una matriz simétrica.

Demostración.Supóngase que A es simétrica. Como para todo �X, �Y ∈ Rn, la matriz

�XtA�Y es una matriz de 1 × 1, es decir, un elemento de R, entonces esigual a su propia transpuesta. Por lo tanto,

�XtA�Y = ( �XtA�Y )t = �Y tAt( �Xt)t = �Y tA �X.

Así que A representa una forma bilineal simétrica.Recíprocamente, supóngase que A representa una forma bilineal si-

métrica, es decir,gA

(�X, �Y

)= gA

(�Y , �X

)(5.4)

para todo �X, �Y ∈ Rn. Como

gA(�Y , �X

)= �Y tA �X =

(�Y tA �X

)t= �XtAt

(�Y t

)t= �XtAt�Y , (5.5)

si se comparan las expresiones (5.4) y (5.5), se tiene que

gA(

�X, �Y)

= �XtA�Y = �XtAt�Y . (5.6)

Como (5.6) se cumple para todo �X, �Y ∈ Rn, se concluye que A = At. Esdecir, A es simétrica.

Definición 5.6 Sea g : V×V → R una forma bilineal sobre V. Entonces

g es alternada si para todo �v, �w ∈ V, se cumple que

1. g(�v,�v

)= 0, 2. g

(�v, �w

)= − g

(�w,�v

).

Page 252: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

236 5. Formas bilineales

Definición 5.7 Inercia

Sea A una matriz simétrica de tamaño n × n. La inercia de A es la

terna ordenada de números:

In(A) =(pos, neg, nul

), (5.7)

donde pos, neg y nul son los números de valores propios de A positivos,

negativos y nulos, respectivamente (contando todas las multiplicidades al-

gebraicas).

Nótese que ρ(A) = pos + neg.

Definición 5.8 Signatura

A la diferencia entre el número de valores propios positivos y el

número de valores propios negativos se le denomina signatura de la ma-

triz A. En otras palabras, si In(A) = (i, j, k), se llama signatura de la

matriz A a la cantidad:

Sig(A) = i − j.

Ejemplo 5.2 Determinar la inercia y signatura de la matriz dada en el

Ejemplo 2.18.

Solución.De los resultados del Ejemplo 2.18 se tiene que los valores propios de

la matriz A eran λ1 = 1 de multiplicidad algebraica 2 y λ2 = 7. Luego,

In(A) = (3, 0, 0) y Sig(A) = 3.

Page 253: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.1. Formas bilineales 237

Ejercicios 5.1

1. Asumiendo �Xt = [x1 x2] y �Y t = [y1 y2] , determine cuáles de las

siguientes funciones g : R2 × R2 → R son aplicaciones bilineales:

a. g( �X, �Y ) = 4x1y1 + 2x2y1 + 2x1y2 + x2y2.

b. g( �X, �Y ) = 9x1y1 − 12x1y2 − 12x2y1 + 16x2y2.

c. g( �X, �Y ) = x1y1 + 4x1y2 + 4x2y1 + 16x2y2.

d. g( �X, �Y ) = x1y1 + 2x1y2 − 2x2y1 + x2y2.

e. g( �X, �Y ) = x1y1 + x1y2 + x2y1 + x2y2.

f. g( �X, �Y ) = x1y2 − x2y1.

2. Escriba cada una de las siguientes formas bilineales F : R3 → R en

forma matricial:

a. F (x, y, z) = 6x2 + 3y2 − 2z2 + 12xy − 18yz.

b. F (x, y, z) = 7x2 + 7y2 + 10z2 − 2xy − 4xz + 4yz.

c. F (x, y, z) = 2x2 + 2y2 + 5z2 − 4xy + 2xz − 2yz.

3. Sea V = M23. Para A, B ∈ V, defina g : V × V → R como

g(A, B) = tr(AtB).

Demuestre que es una aplicación bilineal en V × V.

4. Sea V = Mnn, demuestre que la función g : V × V → R dada por

g(A, B) = n tr(AB) − tr(A) tr(B)

es una aplicación bilineal en V × V.

Page 254: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

238 5. Formas bilineales

5. Si x = 1n

n∑i= 1

xi y y = 1n

n∑i= 1

yi, represéntese la forma bilineal

Cov(

�X, �Y)

=1

n − 1

n∑i=1

(xi − x

)(yi − y

)en la forma �XtA�Y , con A simétrica. ¿Cuál es el rango de A?

5.2 Formas cuadráticas

Cuando se considera el cuadrado de la norma de un vector �X ∈ Rn, seobtiene la expresión ‖ �X‖2 = �Xt �X; tales sumas y expresiones en formageneral se denominan formas cuadráticas . Ellas surgen frecuentemente enuna gran variedad de aplicaciones. Por ejemplo, se pueden usar formascuadráticas en ingeniería (para optimización), en economía (en el análisisde funciones de costo y utilidad), en física (para el estudio de energíascinéticas y potenciales) y en estadística (en el análisis de varianza). Enesta sección se estudiarán algunos temas relacionados con estas formas,utilizando la teoría de las matrices simétricas analizada anteriormente.

Definición 5.9 Sea V un espacio vectorial real de dimensión finita. Sea

g : V×V → R una forma bilineal simétrica sobre V. Entonces, una forma

cuadrática determinada por g es una función F : V → R tal que

F(�v)

= gA(�v,�v

)= �vtA�v. (5.8)

La matriz A es llamada matriz de la forma cuadrática.

Ejemplo 5.3 Sean V = Rn y F(�v)

= v21 + v2

2 + . . . + v2n. Escriba esta

forma cuadrática como �vtA�v.

Page 255: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.2. Formas cuadráticas 239

Solución.Usando la expresión (5.2) para m = n, se puede determinar la matriz

A = [aij ] asociada a la forma bilineal simétrica g, es decir,

F(�v)

= �vtA�v =n∑

i=1

n∑j=1

aijvivj . (5.9)

En otras palabras, se quiere encontrar los valores de aij , de manera que

n∑i=1

n∑j=1

aijvivj =

n∑i=1

v2i .

Como la matriz A es simétrica aij = aji, la forma cuadrática dada en (5.9)se puede expresar como sigue:

n∑i=1

n∑j=1

aijvivj =n∑

i=1

aiiv2i + 2

n− 1∑i=1

n∑j > i

aijvivj . (5.10)

Si se comparan los términos, se establecen las siguientes relaciones:

n∑i=1

aiiv2i =

n∑i=1

v2i y 2

n− 1∑i=1

n∑j > i

aijvivj = 0.

Pero como en la función F(�v)

no aparecen términos de la forma vivj ,entonces

aij =

{1 si i = j,0 si i �= j.

Luego, A = In y, por lo tanto, F(�v)

se puede expresar como �v tIn�v.

Ejemplo 5.4 Sean V = R3 y F(

�X)

= 2x21 + 5x2

2 + 2x23 + 4x1x2 +

2x1x3 + 4x2x3. Exprese esta forma cuadrática como �XtA �X.

Solución.Utilizando el resultado obtenido en (5.10) para n = 3, se tiene que

�XtA �X =3∑

i=1

aiix2i + 2

2∑i=1

3∑j > i

aijxixj .

Page 256: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

240 5. Formas bilineales

Si se desarrolla esta suma y se comparan los aij con los coeficientes de lafunción F ( �X), se obtiene la matriz

A =

⎡⎣2 2 12 5 21 2 2

⎤⎦ ,

la cual permite expresar a F ( �X) de la forma �XtA �X.

Ejemplo 5.5 Si x = 1n

n∑i= 1

xi, represéntese la forma cuadrática

(n − 1

)s2x =

n∑i=1

(xi − x

)2

en la forma �XtA �X, con A simétrica. ¿Cuál es el rango de A?

Solución.Sea �Xt = (x1, x2, . . . , xn) el vector que representa las n-observaciones.

Si en el Ejemplo 5.3 se reemplaza cada vi por xi − x, se tiene que

F(�v)

=n∑

i=1

(xi − x

)2= �vtIn�v; (5.11)

aquí �v se puede reescribir como

�v =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

x1 − xx2 − x

...xj − x

...xn − x

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦=

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

x1

x2...

xj...

xn

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦− x

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

11...1...1

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦= �X − 111x, (5.12)

donde 111 es un vector columna de unos de tamaño n×1. Luego, x se puedeexpresar como sigue:

x =1

n

n∑i=1

xi =1

n111t �X. (5.13)

Si se reemplaza (5.13) en (5.12), se obtiene

�v = �X − 1

n111111t �X =

(In − 1

n111111t

)�X. (5.14)

Page 257: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.2. Formas cuadráticas 241

Al sustituir en (5.11), se tiene que

F[(

In − 1

n111111t

)�X]

=[(

In − 1

n111111t

)�X]t

In

[(In − 1

n111111t

)�X]

= �Xt(In − 1

n111111t

)(In − 1

n111111t

)�X

= �Xt(In − 1

n111111t − 1

n111111t +

1

n2111 111t111︸︷︷︸111t

)�X

= �Xt(In − 1

n111111t

)�X.

Aquí se usó que 111t111 = n, denotando Jn = 111111t, se llega finalmente a que(n − 1

)s2x = �Xt

(In − 1

nJn

)�X = �Xt

(In − Jn

)�X. (5.15)

Luego, la matriz asociada a la forma es

A = In − Jn y ρ(A) = n − 1.

En este material, la matriz Jn siempre denotará la matriz con todos suselementos iguales a uno de tamaño n × n, definida anteriormente.

Definición 5.10 Forma polar de una forma cuadrática

Dada F una forma cuadrática real, se puede obtener una forma bili-

neal simétrica g de F de acuerdo con la siguiente identidad llamada la

forma polar de g:

g(�u,�v) =1

2

[F (�u + �v) − F (�u) − F (�v)

]. (5.16)

Definición 5.11 Dos formas cuadráticas �XtA �X y �Y tB�Y se dice que son

equivalentes si existe una matriz no singular P tal que B = P tAP. Aún

más, las formas son equivalentes ortogonalmente si P se puede escoger

ortogonal, equivalente-real si P se puede escoger con elementos reales

y equivalente-compleja, o simplemente equivalente, si P tiene elementos

complejos.

Page 258: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

242 5. Formas bilineales

Teorema 5.4 Dos formas cuadráticas �XtA �X y �Y tB�Y son equivalentes

si y solo si las matrices simétricas A y B son congruentes.

Demostración.Si en la forma cuadrática �XtA �X se hace el cambio de variable �X =

P �Y , donde P es una matriz no singular, se obtiene la forma

�XtA �X = �Y tP tAP �Y = �Y tB�Y .

Recíprocamente, sean A = [aij ] y P tAP = [bij ], las dos matrices simétri-cas asociadas con las formas cuadráticas, donde P es una matriz real nosingular, entonces

n∑i=1

aiix2i+2

n− 1∑i=1

n∑j > i

aijxixj yn∑

i=1

biiy2i+2

n− 1∑i=1

n∑j > i

bijyiyj .

El cambio de variable �X = P �Y cambia la primera forma cuadrática a lasegunda.

Ejemplo 5.6 Muestre que las formas cuadráticas:

F1( �X) = x21 + x2

2 + 8x1x2 y F2(�Y ) = y21 − 14y2

2 + 2y1y2

son equivalentes.

Solución.Utilizando el resultado obtenido en (5.10), para n = 2, se tiene que

�XtA �X = a11x21 + a22x

22 + 2a12x1x2.

Si se comparan los aij con los coeficientes de la función F1( �X), se obtienela matriz

A =

[1 44 1

],

la cual permite expresar a F1( �X) de la forma �XtA �X. Para la formacuadrática F2(�Y ), se tiene la matriz

B =

[1 11 −14

].

En el Ejemplo 2.8 se mostró que A y B eran congruentes. Por lo tanto,F1( �X) es equivalente a la forma cuadrática F2(�Y ).

Page 259: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.2. Formas cuadráticas 243

Teorema 5.5 Dos formas cuadráticas �XtA �X y �Y tB�Y son equivalentes

ortogonalmente si y solo si A y B tienen los mismos valores propios y

estos ocurren con la misma multiplicidad.

Demostración.Si A y B tienen valores propios λ1, λ2, . . . , λn y D es una matriz dia-

gonal con λ1, λ2, . . . , λn como elementos de su diagonal, entonces existenmatrices ortogonales P y Q tal que

QtAQ = P tBP = D.

Por consiguiente, B = (P t)−1[QtAQ]P−1 = (QP−1)tA(QP−1), y comoQP−1 es ortogonal, �Y tB�Y es ortogonalmente equivalente a �XtA �X.

Recíprocamente, si las dos formas son ortogonalmente equivalentes,B es similar a A (porque P−1 = P t), y A y B tienen los mismos valorespropios con las mismas multiplicidades.

Ejercicios 5.2

1. Exprese las siguientes formas cuadráticas de la forma �XtA �X :

a. F (x, y, z) = 6x2 + 3y2 − 2z2 + 12xy − 18yz.

b. F (x, y, z) = 7x2 + 7y2 + 10z2 − 2xy − 4xz + 4yz.

c. F (x, y, z) = 2x2 + 2y2 + 5z2 − 4xy + 2xz − 2yz.

2. Determine si las siguientes formas cuadráticas son equivalentes.

a. F1( �X) = 4x2 + 4xy + y2 y F2(�Y ) = 16u2 − 24uv + 9v2.

b. F1( �X) = x2 + 8xy + 16y2 y F2(�Y ) = u2 + 2uv + v2.

3. Demuestre que la forma cuadrática F : R2 → R dada por

F (x, y) = ax2 + 2bxy + cy2

tiene rango 2 si y solo si ac − b2 �= 0.

Page 260: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

244 5. Formas bilineales

4. Determine los valores de α para los cuales la matriz asociada a la

forma F : R3 → R dada por

F (x, y, z) = 5x2 + y2 + αz2 + 4xy − 2xz − 2yz

tiene valores propios positivos.

5. Sea A una matriz simétrica de tamaño n × n asociada a la forma

cuadrática F ( �X) = �XHA �X con �X ∈ Cn. Demuestre que F ( �X) es

real.

5.3 Diagonalización de una forma cuadrática

Sea F(

�X)

= �XtA �X una forma cuadrática con n variables. Para simplifi-carla, se pasa de las variables x1, x2, . . . , xn a las variables y1, y2, . . . , yny se supone que las variables anteriores están relacionadas con las nuevasmediante la fórmula �X = P �Y , donde P es una matriz no singular. En-tonces

�XtA �X =(P �Y

)tA(P �Y

)puesto que �X = P �Y

=(�Y t P t

)A(P �Y

)= �Y t

(P tAP

)�Y = �Y tB�Y donde B es congruente a A.

Así, F(

�X)

es equivalente a una forma cuadrática F(�Y)

cuya matriz esB. En las nuevas variables no hay términos mixtos cuando la matriz Bsea diagonal. A este proceso se le llama diagonalización de una formacuadrática.

5.3.1 Diagonalización por completación de cuadrados

Un procedimiento para diagonalizar una forma cuadrática es la genera-lización de la técnica familiar de completar cuadrados, aprendido en elálgebra elemental. El método que se va a estudiar a continuación consiste

Page 261: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.3. Diagonalización de una forma cuadrática 245

en obtener una expresión canónica para F(

�X)

= �XtA �X en términosde los menores de la matriz asociada. Para facilitar la comprensión, secomenzará aplicando este método a las formas cuadráticas de dos y tresvariables.

Caso I. Si se considera una forma cuadrática en dos variables

F(

�X)

= a11x21 + 2a12x1x2 + a22x

22, (5.17)

entonces F ( �X) se puede expresar como

�XtA �X = [x1, x2]

[a11 a12

a12 a22

] [x1

x2

].

Si cualquiera a11 o a22 es no nulo, sin pérdida de generalidad sepuede asumir que a11 es distinto de cero. Entonces, (5.17) se puedeescribir como

F(

�X)

= a11

[x2

1 + 2a12

a11x1x2 +

(a12

a11

)2x2

2 −(a12

a11

)2x2

2 +a22

a11x2

2

]= a11

{(x1 +

a12

a11x2

)2+

[a22

a11−

(a12

a11

)2]x2

2

}= a11

{(x1 +

a12

a11x2

)2+

1

a211

[a11a22 − a2

12

]x2

2

}. (5.18)

Si se definen

y1 = x1 +a12

a11x2 y y2 = x2,

se tiene que

�Y =

[y1

y2

]= P �X =

[1 a12

a11

0 1

] [x1

x2

].

Entonces, (5.18) en términos de las nuevas variables queda

F (�Y ) = a11y21 +

detA

a11y22, (5.19)

y la forma (5.17) ha sido diagonalizada. La transformación de va-riables es no singular (detP = 1), pero no es ortogonal. Además,los coeficientes de y2

1, y22 en (5.19) no son, en general, los valores

propios de la matriz asociada a la forma cuadrática A.

Page 262: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

246 5. Formas bilineales

El lector puede verificar que cuando a22 �= 0, entonces (5.17) sepuede escribir como

F(

�X)

= a22

{(x2 +

a12

a22x1

)2+

1

a222

[a11a22 − a2

12

]x2

1

}. (5.20)

Si se define

y1 = x2 +a12

a22x1 y y2 = x1,

dicha transformación de variables se puede expresar como

�Y =

[y1

y2

]= P �X =

[a12

a111

1 0

] [x1

x2

].

Esta transformación de variables es no singular (detP = −1), perono es ortogonal. Al reemplazar en (5.20), se obtiene

F(�Y)

= a22y21 +

detA

a22y22. (5.21)

En el caso de que a11, a22 ambas desaparezcan, el procedimientoanterior no se puede trabajar. Cuando a11 = a22 = 0, la expre-sión (5.17) se vuelve

F(

�X)

= 2a12x1x2. (5.22)

Ahora, se hace la transformación

x1 = y1 + y2 y x2 = y1 − y2,

la cual se puede expresar matricialmente como

�X =

[x1

x2

]= P �Y =

[1 11 −1

] [y1

y2

].

Esta es una transformación no singular, la cual reduce (5.22) a

F(�Y)

= 2a12

(y21 − y2

2

). (5.23)

En este caso, también la forma ha sido diagonalizada.

Page 263: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.3. Diagonalización de una forma cuadrática 247

Caso II. Si se considera una forma cuadrática en tres variables

F ( �X) =3∑

i=1

aiix2i + 2

2∑i=1

3∑j > i

aijxixj , (5.24)

F ( �X) se puede expresar como �XtA �X, donde

A =

⎡⎣a11 a12 a13

a12 a22 a23

a13 a23 a33

⎤⎦ y �X =

⎡⎣x1

x2

x3

⎤⎦ .

Si cualquiera a11, a22 o a33 es no nulo, sin pérdida de generalidadse puede suponer que a11 �= 0. Entonces, (5.24) se puede escribircomo

F(

�X)= a11

[x2

1 + 2x1

3∑k=2

a1k

a11xk +

(3∑

k=2

a1k

a11xk

)2

−(

3∑k=2

a1k

a11xk

)2

+3∑

k=2

akka11

x2k + 2

a23

a11x2x3

]

= a11

{(x1 +

3∑k=2

a1k

a11xk

)2

+

[3∑

k=2

(akka11

−(

a1k

a11

)2)

x2k

]

+ 2

(a23

a11− a12a13

a211

)x2x3

}= a11

{(x1 +

3∑k=2

a1k

a11xk

)2

+

[a33

a11−

(a13

a11

)2]x2

3

+

[a22

a11−

(a12

a11

)2][x2 +

a11a23 − a12a13

a11a22 − a212

x3

]2

−[a22

a11−

(a12

a11

)2](a11a23 − a12a13

a11a22 − a212

)2

x23

}= a11

{(x1 +

a12

a11x2 +

a13

a11x3

)2

+[a22

a11−

(a12

a11

)2][x2 +

a11a23 − a12a13

a11a22 − a212

x3

]2

+

1

a211

[(a33a11 − a2

13

)− (a11a23 − a12a13)2

a11a22 − a212

]x2

3

}.

Page 264: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

248 5. Formas bilineales

Ahora, se asume que M33(A) �= 0

F(

�X)= a11

{(x1 +

a12

a11x2 +

a13

a11x3

)2

+1

a211

a11 detA

M33(A)x2

3 +

1

a211

M33(A)

[x2 +

a11a23 − a12a13

a11a22 − a212

x3

]2}. (5.25)

Con la sustitución

y1 = x1 +a12

a11x2 +

a13

a11x3,

y2 = x2 +a11a23 − a12a13

a11a22 − a212

x3,y3 = x3,

se tiene que

�Y =

⎡⎣y1

y2

y3

⎤⎦ = P �X =

⎡⎢⎣1 a12

a11

a13

a11

0 1 a11a23−a12a13

a11a22−a212

0 0 1

⎤⎥⎦⎡⎣x1

x2

x3

⎤⎦ .

Entonces, (5.25) en términos de las nuevas variables queda

F(�Y)

= a11y21 +

M33(A)

a11y22 +

det A

M33(A)y23, (5.26)

y la forma (5.24) ha sido diagonalizada. La transformación de va-riables es no singular (det P = 1), pero no es ortogonal. Los coefi-cientes de y2

1, y22, y2

3 en (5.26) no son, en general, los valores propiosde A.

Se puede verificar fácilmente que cuando M22(A) �= 0, (5.24) sepuede escribir como

F(

�X)

= a11

{(x1 +

a12

a11x2 +

a13

a11x3

)2

+1

a11

det A

M22(A)x2

2 +

1

a211

M22(A)

[x3 +

a11a23 − a12a13

a11a33 − a213

x2

]2}. (5.27)

Si se definen

y1 = x1 +a12

a11x2 +

a13

a11x3,

y2 = x3 +a11a23 − a12a13

a11a33 − a213

x2,y3 = x2,

Page 265: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.3. Diagonalización de una forma cuadrática 249

dicha transformación de variables se puede expresar como

�Y =

⎡⎣y1

y2

y3

⎤⎦ = P �X =

⎡⎢⎣1 a12

a11

a13

a11

0 a11a23−a12a13

a11a22−a212

1

0 1 0

⎤⎥⎦⎡⎣x1

x2

x3

⎤⎦ .

Esta transformación de variables es no singular (detP = −1), perono es ortogonal. Al reemplazar en (5.27), se obtiene

F (�Y ) = a11y21 +

M22(A)

a11y22 +

det A

M22(A)y23. (5.28)

El procedimiento que se describió puede generalizarse para diagonalizarcualquier forma cuadrática con n variables de la siguiente manera:

Teorema 5.6 Método de reducción de Lagrange

Sea F ( �X) una forma cuadrática en Rn con matriz asociada A = [aij ] ,

luego:

F ( �X) = �XtA �X =n∑

i=1

aiix2i + 2

n− 1∑i=1

n∑j > i

aijxixj .

Entonces, existe una matriz triangular superior T con elementos en la

diagonal iguales a 1, tal que el cambio de coordenadas �X = T �Y transfor-

ma a �XtA �X en:

F(�Y)

= �Y tT tAT �Y = Δ1y21 +

Δ2

Δ1y22 +

Δ3

Δ2y23 + . . . +

Δn

Δn−1y2n, (5.29)

donde Δi �= 0, i = 1, 2, . . . , n son los determinantes de las submatrices

angulares A[i] de A. (Δn = det A).

Demostración.La prueba se hace por inducción. Es claro que para n = 1, se cumple

trivialmente. Para n = 2 y n = 3 se obtienen las formas cuadráticas (5.19)

Page 266: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

250 5. Formas bilineales

y (5.26), respectivamente. Supóngase que es cierto para n − 1, es decir,existe una matriz de tamaño

(n − 1

)× (n − 1

),

Tn− 1 =

⎡⎢⎢⎢⎢⎢⎣1 t12 t13 . . . t1n−1

0 1 t23 . . . t2n−1

0 0 1 . . . t3n−1...

......

. . ....

0 0 0 . . . 1

⎤⎥⎥⎥⎥⎥⎦ ,

tal que si �Xtn− 1 = (x1, x2, . . . , xn− 1) ∈ Rn− 1 y A[n−1] es la submatriz

angular de A de orden n − 1, usando el cambio de coordenadas �Xn− 1 =Tn− 1

�Yn− 1, se tiene que

�Xtn− 1A[n−1]

�Xn− 1 = Δ1y21 +

Δ2

Δ1y22 +

Δ3

Δ2y23 + . . .+

Δn− 1

Δn−2y2n− 1, (5.30)

y la matriz A se puede escribir como

A =

⎡⎢⎢⎣A[n−1]

... �U

. . . . . . .

�U t... ann

⎤⎥⎥⎦ , donde �U =

⎡⎢⎢⎢⎣a1n

a2n...

an−1n

⎤⎥⎥⎥⎦ .

Si para cualquier �c ∈ Rn− 1, se considera la matriz triangular

T =

⎡⎢⎢⎣ Tn− 1... �c

. . . . . . .

�0t... 1

⎤⎥⎥⎦ ,

entonces

F ( �X) = �XtA �X = �Y tT tAT �Y = �Y t

⎡⎢⎢⎣ B11... B12

. . . . . . .

Bt12

... B22

⎤⎥⎥⎦ �Y , (5.31)

donde

B11 = T tn− 1A[n−1]Tn− 1 es una matriz de tamaño

(n − 1

)× (n − 1

)B12 = T t

n− 1A[n−1]�c + T tn− 1

�U es una matriz de tamaño(n − 1

)× 1

B22 = �ctA[n−1]�c + 2�ct�U + ann es un escalar.

Page 267: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.3. Diagonalización de una forma cuadrática 251

Por la hipótesis de inducción, expresión (5.30), resulta que

[y1, . . . , yn− 1]B11

⎡⎢⎢⎢⎣y1

y2...

yn− 1

⎤⎥⎥⎥⎦ = [y1, . . . , yn− 1]

⎡⎢⎢⎢⎢⎣Δ1 0 . . . 0

0 Δ2

Δ1. . . 0

......

. . ....

0 0 . . . Δn − 1

Δn−2

⎤⎥⎥⎥⎥⎦⎡⎢⎢⎢⎣

y1

y2...

yn− 1

⎤⎥⎥⎥⎦ ,

y como B22 es un escalar, para completar la prueba y obtener (5.29),bastará encontrar un �c ∈ Rn para que el vector columna B12 sea nulo.Para ello, dado que

B12 = T tn− 1

(A[n−1]�c + �U

)y Tn− 1 es no singular,

�c debe ser tal que

A[n−1]�c + �U = �0.

Como det(A[n−1]

) �= 0, existe un único �c = −A−1[n−1]

�U para el cual B12 esun vector columna nulo. Si se reemplaza en B22, se tiene que

B22 = ann − �U tA−1[n−1]

�U,

y usando el Teorema 1.21, se tiene que

det(A)

= det(A[n−1]

)(ann − �U tA−1

[n−1]�U),

luego

B22 =det

(A)

det(A[n−1]

) =Δn

Δn− 1.

Al sustituir en la expresión (5.31), resulta

F ( �X) = �Y tT tAT �Y = Δ1y21 +

Δ2

Δ1y22 +

Δ3

Δ2y23 + . . . +

Δn

Δn− 1y2n.

Esto completa la prueba.

Ejemplo 5.7 Sea F ( �X) = 3x21 + 3x2

2 + 2x1x2. Encuentre una diagonali-

zación por el método descrito.

Page 268: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

252 5. Formas bilineales

Solución.Utilizando el resultado obtenido en (5.10), para n = 2, se tiene que

�XtA �X = a11x21 + a22x

22 + 2a12x1x2.

Al comparar los aij con los coeficientes de la función F ( �X), se obtiene lamatriz

A =

[3 11 3

],

luego F ( �X) se puede expresar como

�XtA �X = [x1, x2]

[3 11 3

] [x1

x2

]. (5.32)

En este caso, ya que Δ1 = a11 = 3 �= 0 y Δ2 = det A = 8, la forma (5.32)se puede diagonalizar de la siguiente manera:

F (�Y ) = 3y21 +

8

3y22,

donde

y1 = x1 +1

3x2 y y2 = x2.

En forma matricial, se obtiene

�Y =

[1 1

30 1

]�X o �X =

[1 −1

30 1

]�Y .

Aquí, se usó el hecho de que la transformación tenía determinante 1 y,por lo tanto, era no singular. De este modo

F ( �X) = �Xt

[3 11 3

]�X = �Y t

[1 −1

30 1

]t [3 11 3

] [1 −1

30 1

]�Y

= �Y t

[1 0

−13 1

] [3 01 8

3

]�Y = �Y t

[3 00 8

3

]�Y .

Ejemplo 5.8 Considere la forma cuadrática dada en el Ejemplo 5.4 y

determine una forma diagonal equivalente.

Page 269: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.3. Diagonalización de una forma cuadrática 253

Solución.Haciendo referencia al Ejemplo 5.4, la F ( �X) se puede escribir como

�XtA �X = [x1 x2 x3]

⎡⎣2 2 12 5 21 2 2

⎤⎦⎡⎣x1

x2

x3

⎤⎦ . (5.33)

Dado que

Δ1 = a11 = 2 �= 0, Δ2 = M33(A) = 6 y Δ3 = detA = 7,

se tiene que

F (�Y ) = 2y21 + 3y2

2 +7

6y23,

donde

y1 = x1 + x2 +1

2x3, y2 = x2 +

1

3x3 y y3 = x3.

En forma matricial, se tiene que

�Y =

⎡⎣1 1 12

0 1 13

0 0 1

⎤⎦ �X o �X =

⎡⎣1 −1 −16

0 1 −13

0 0 1

⎤⎦ �Y .

En la transformación anterior, se empleó el hecho de que la transformacióntenía determinante 1 y, por lo tanto, era no singular. De este modo

F ( �X) = �XtA �X = �Y t

⎡⎣1 −1 −16

0 1 −13

0 0 1

⎤⎦t ⎡⎣2 2 12 5 21 2 2

⎤⎦⎡⎣1 −1 −16

0 1 −13

0 0 1

⎤⎦ �Y

= �Y t

⎡⎣ 1 0 0−1 1 0−1

6 −13 1

⎤⎦⎡⎣2 0 02 3 01 1 7

6

⎤⎦ �Y = �Y t

⎡⎣2 0 00 3 00 0 7

6

⎤⎦ �Y .

Teorema 5.7 Sea F ( �X) una forma cuadrática asociada a una matriz

simétrica real A. Sea L una matriz no singular triangular inferior tal que

A se pueda factorizar como LDLt. Entonces, el cambio de coordenadas:

�Y = Lt �X (5.34)

transforma a �XtA �X en �Y tD�Y .

Page 270: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

254 5. Formas bilineales

Demostración.La matriz A asociada a la forma se puede factorizar como

A = LDU.

Como A es simétrica, por el Teorema 3.5, U = Lt. Por lo tanto,

�XtA �X = �Xt(LDLt

)�X puesto que A = LDLt

=(

�XtL)D(Lt �X

)=

(Lt �X

)tD(Lt �X

)= �Y tD�Y , puesto que �Y = Lt �X.

Así, queda probado el teorema.

A continuación, se presenta una versión de este método de diagonaliza-ción:

Procedimiento para diagonalizar una forma cuadrática

i) Halle la matriz de coeficientes simétrica A asociada a F ( �X).ii) Obtenga la descomposición LDLt de A sin efectuar intercam-

bios de filas que destruyan la simetría, y con elementos enD = diag{d11, d22, . . . , dnn} no necesariamente distintos decero. Forme L de manera que det(L) = 1.

iii) Transforme a F ( �X) en d11y21 + d22y

22 + . . . + dnny

2n, bajo el

cambio de coordenadas �Y = Lt �X.

Ejemplo 5.9 Considere la forma cuadrática dada en el Ejemplo 5.7 y

determine una forma diagonal equivalente por el método descrito.

Solución.La factorización LDLt de la matriz asociada a la forma cuadrática es[

3 11 3

]=

[1 013 1

] [3 00 8

3

] [1 1

30 1

].

Luego, la F ( �X) se puede expresar como

�XtA �X = [x1, x2]

[1 013 1

] [3 00 8

3

] [1 1

30 1

] [x1

x2

]. (5.35)

Como L es no singular, se hace[y1

y2

]=

[1 1

30 1

] [x1

x2

],

Page 271: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.3. Diagonalización de una forma cuadrática 255

y F ( �X) se puede escribir en términos de las variables y1, y2 como

F (�Y ) = 3y21 +

8

3y22.

Ejemplo 5.10 Considere la forma cuadrática dada en el Ejemplo 5.4 y

determine una forma diagonal equivalente.

Solución.La factorización LDLt de la matriz asociada a la forma cuadrática es⎡⎣2 2 1

2 5 21 2 2

⎤⎦ =

⎡⎣1 0 01 1 012

13 1

⎤⎦⎡⎣2 0 00 3 00 0 7

6

⎤⎦⎡⎣1 1 12

0 1 13

0 0 1

⎤⎦ ,

de modo que

F ( �X) = �Xt

⎡⎣2 2 12 5 21 2 2

⎤⎦ �X = �Xt

⎡⎣1 0 01 1 012

13 1

⎤⎦⎡⎣2 0 00 3 00 0 7

6

⎤⎦⎡⎣1 1 12

0 1 13

0 0 1

⎤⎦ �X.

Nótese que L es no singular. Por lo tanto, se puede hacer el cambio devariable:

�Y =

⎡⎣1 1 12

0 1 13

0 0 1

⎤⎦ �X

y se puede escribir F ( �X) en términos de las variables y1, y2, y3 como

F (�Y ) = 2y21 + 3y2

2 +7

6y23.

5.3.2 Diagonalización por transformación ortogonal

En la diagonalización de la forma cuadrática F ( �X) = �XtA �X a la formaF (�Y ) = �Y tB�Y , por el método de completación de cuadrados, solo seexigió que la matriz P fuera no singular. Puesto que la matriz A asociadaa la forma cuadrática es simétrica, entonces se puede diagonalizar a F

(�X)

mediante una matriz P ortogonal, en cuyo caso los elementos sobre ladiagonal de la matriz B son los valores propios de la matriz A.

Page 272: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

256 5. Formas bilineales

Teorema 5.8 Teorema de los ejes principales

Sea F(

�X)

una forma cuadrática asociada a una matriz simétrica real

A con valores propios (no necesariamente distintos) λ1, λ2, . . . , λn. Sea Q

una matriz ortogonal propia que diagonaliza a A. Entonces el cambio de

coordenadas:

�X = Q�Y (5.36)

transforma a �XtA �X en �Y tD�Y , donde

D = QtAQ = diag{λ1, λ2, . . . , λn}.

Demostración.La demostración consiste en un cálculo directo

�XtA �X =(Q�Y

)tA(Q�Y

)puesto que �X = Q�Y

=(�Y t Qt

)A(Q�Y

)= �Y t

(QtAQ

)�Y = �Y tD�Y puesto que Q diagonaliza a A.

Así, queda el teorema probado.

Nota 5.1 Si Q es una matriz ortogonal impropia, es decir, det Q = −1,

se deben cambiar de signo todos los elementos de un solo vector columna

(o intercambiar dos vectores columnas de Q).

El Teorema 5.8 se llama Teorema de los ejes principales porque de-fine nuevos ejes (los ejes principales) con respecto a los cuales la formacuadrática tiene una expresión particularmente simple.

A continuación, se presenta una versión de este método de diagonali-zación:

Page 273: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.3. Diagonalización de una forma cuadrática 257

Procedimiento para diagonalizar una forma cuadrática

i) Halle la matriz de coeficientes simétrica A asociada a F ( �X).

ii) Encuentre los valores propios (no necesariamente distintos),λ1, λ2, . . . , λn de A.

iii) Obtenga una base ortonormal para Rn formada por los vec-tores propios normalizados de A.

iv) Forme la matriz Q cuyas columnas sean los vectores de labase hallada en el paso iii), en el orden correspondiente allistado de los valores propios en el paso ii). La transformación�X = Q�Y es una rotación si det(Q) = 1.

v) Transforme a F(

�X)

en λ1y21 + λ2y

22 + . . . + λny

2n.

Ejemplo 5.11 Determine los ejes principales de la forma cuadrática da-

da en el Ejemplo 5.7.

Solución.En el Ejemplo 5.7, se obtuvo que la F

(�X)

se puede escribir como

�XtA �X = [x1, x2]

[3 11 3

] [x1

x2

]. (5.37)

En este caso, los valores propios de A son λ1 = 2 y λ2 = 4 y los vectores

propios correspondientes son �v1 =

[−11

]y �v2 =

[11

], respectivamente.

Para encontrar Q, como ‖�v1‖ =√

2, se hace �u1 =�v1

‖�v1‖ =

[−1/√

2

1/√

2

],

y como ‖�v2‖ =√

2, se tiene �u2 =

[1/√

2

1/√

2

]. Se puede verificar que la base

obtenida para R2 es ortonormal observando que �u1 ·�u2 = 0. Por lo tanto,

Q =

[−1/√

2 1/√

2

1/√

2 1/√

2

].

Como el det(Q) = −1, intercambiamos las columnas y se tiene

Q =

[1/√

2 −1/√

2

1/√

2 1/√

2

]y QtAQ =

[4 00 2

].

Page 274: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

258 5. Formas bilineales

Si se definen los ejes principales como sigue:

�Y =

[y1

y2

]= Qt �X =

[1/√

2 1/√

2

−1/√

2 1/√

2

] [x1

x2

],

entonces (5.37) se puede escribir en términos de las nuevas variables y1, y2

como �Y tD�Y , o sea,

4y21 + 2y2

2. (5.38)

Ejemplo 5.12 Considere la forma cuadrática dada en el Ejemplo 5.4 y

determine sus ejes principales.

Solución.Haciendo referencia al Ejemplo 5.4, la F ( �X) se puede escribir como

�XtA �X = [x1, x2, x3]

⎡⎣2 2 12 5 21 2 2

⎤⎦⎡⎣x1

x2

x3

⎤⎦ . (5.39)

Del Ejemplo 3.18, se tiene que

Q =

⎡⎣ 1/√

2 1/√

3 1/√

6

0 1/√

3 2/√

6

1/√

2 1/√

3 1/√

6

⎤⎦ y QtAQ =

⎡⎣1 0 00 1 00 0 7

⎤⎦ .

Por lo tanto, (5.39) se puede escribir en términos de las nuevas variablesy1, y2, y3 como �Y tD�Y , o sea,

y21 + y2

2 + 7y23, (5.40)

donde los ejes principales se obtienen como sigue:

�Y =

⎡⎣y1

y2

y3

⎤⎦ = Qt �X =

⎡⎣ 1/√

2 0 1/√

2

1/√

3 1/√

3 1/√

3

1/√

6 2/√

6 1/√

6

⎤⎦⎡⎣x1

x2

x3

⎤⎦ .

Page 275: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.4. Ley de la inercia para formas cuadráticas 259

5.4 Ley de la inercia para formas cuadráticas

Sea F : Rn → R una forma cuadrática. Si ρ(A)

= r, entonces todamatriz simétrica que represente a F también tiene rango r. En particular,todas las formas diagonales a las que F sea semejante, mediante unatransformación lineal real invertible de variables, tendrán exactamenter coeficientes no nulos. Además, todas las formas diagonales a las quereduzcamos F tienen el mismo número de coeficientes positivos y el mismonúmero de coeficientes negativos, como se afirma en el resultado obtenidopor Sylvester.

Teorema 5.9 Ley de la inercia de Sylvester

Sean A una matriz simétrica de tamaño n × n y P una matriz no

singular del mismo tamaño, entonces:

In(A)

= In(P TAP

).

Demostración.Sea Q una matriz ortogonal tal que

QtAQ = D =

⎡⎢⎢⎢⎣λ1 0 . . . 00 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦ ,

de forma que λ1, λ2, . . . , λi son positivos, λi+1, λi+2, . . . , λi+ j son nega-tivos y el resto nulos.

Sean A la matriz simétrica P tAP y W una matriz ortogonal tal que

W tAW = D =

⎡⎢⎢⎢⎣λ1 0 . . . 0

0 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦ ,

de forma que λ1, λ2, . . . , λ�i son positivos, λ�i+1, λ�i+2, . . . , λ�i+�j

son nega-tivos y el resto nulos.

Se prueba por contradicción que i = i. Supongamos que i > i.Sean �q1, �q2, . . . , �qi las primeras i columnas de la matriz Q. Sean

�r1, �r2, . . . , �rn las filas de la matriz R = W tP−1. Se forma una matriz

Page 276: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

260 5. Formas bilineales

B de tamaño n×n, cuyas primeras filas sean las primeras i columnas deQ transpuestas y el resto sean las filas i + 1, i + 2, . . . , n de R, es decir,

B =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

�q t1

�q t2...

�q ti

�r�i+1

�r�i+2...

�rn

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦es una matriz real de tamaño (i + n − i) × n, donde i + n − i < n. Porconsiguiente, el sistema lineal homogéneo cuya matriz de coeficientes esB tiene solución distinta de la trivial y, por tanto, existe un vector �u �= �0,tal que B�u = �0. En otras palabras, el producto de cualquier fila de lamatriz B por el vector �u es cero, es decir

�q tk �u = 0 para k = 1, 2, . . . , i

�r tk �u = 0 para k = i + 1, i + 2, . . . , n.

Al evaluar �u tA�u, se tiene que

�u tA�u = �u tQDQt�u,

y al sustituir, se obtiene

�u tA�u =[0 . . . 0 vi+1 . . . vn

]⎡⎢⎢⎢⎣

λ1 0 . . . 00 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

0...0

vi+1...

vn

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦=

n∑s= i+1

λsv2s < 0, (5.41)

donde, vs = �q ts �u para s = i + 1, i + 2, . . . , n. Por otra parte,

�u tA�u = �u t(P t

)−1AP−1�u = �u t

(P t

)−1WDW tP−1�u = �u tRtDR�u.

Page 277: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.4. Ley de la inercia para formas cuadráticas 261

Si se denota wk = �rk�u para k = 1, 2, . . . , i, se tiene

�u tA�u = �u tRtDR�u

=[w1 . . . w

�i0 . . . 0

]⎡⎢⎢⎢⎣

λ1 0 . . . 0

0 λ2 . . . 0...

.... . .

...0 0 . . . λn

⎤⎥⎥⎥⎦

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

w1...

w�i

0...0

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦=

�i∑s=1

λsw2s > 0,

lo cual contradice (5.41).

Análogamente, se demuestra que la hipótesis i < i conduce a unacontradicción. Por lo tanto, se debe tener que i = i.

Con j y j se procede de la misma forma.

Teorema 5.10 Teorema de Euler

Sea F ( �X) una forma cuadrática asociada a una matriz simétrica real

A. El valor de F(

�X)

= �XtA �X en un vector unitario �U es

F(�U)

=n∑

j=1

λj cos2 θj , (5.42)

donde los λj son los valores propios de la matriz simétrica A y los ángulos

θj son los ángulos entre �X y los vectores propios ortonormalizados �qj

correspondientes a los λj, respectivamente.

Demostración.

Sean �q1, �q2, . . . , �qn los vectores propios ortonormalizados de la matrizA y sea �U un vector unitario arbitrario. Supongamos que θj representael ángulo entre �U y �qj , así que

cos θj = �qj · �U = �q tj

�U.

Page 278: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

262 5. Formas bilineales

Si se forma Q =[�q1 �q2 . . . �qn

]y se obtiene �Y por la transformación

�U = Q�Y o �Y = Qt�U , entonces,

�Y = Qt�U =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

�q t1

�q t2...

�q tj...

�q tn

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦�U =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎣

cos θ1

cos θ2...

cos θj...

cos θn

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎦.

Por lo tanto,

F(�U)

= �U tA�U = �Y tQtAQ�Y = �Y tD�Y =n∑

j=1

λj cos2 θj ,

y el teorema queda probado.

Ejercicios 5.3

1. Diagonalícense cada una de las siguientes formas cuadráticas por

completación de cuadrados y mediante transformación ortogonal:

a. F(x, y

)= 4x2 + 4xy + y2. b. F

(x, y

)= 9x2 − 24xy + 16y2.

c. F(x, y

)= x2 + 8xy + 16y2. d. F

(x, y

)= x2 + 2xy + y2

e. F(x, y, z

)= 6x2 + 3y2 − 2z2 + 12xy − 18yz.

f. F(x, y, z

)= 7x2 + 7y2 + 10z2 − 2xy − 4xz + 4yz.

g. F(x, y, z

)= 2x2 + 2y2 + 5z2 − 4xy + 2xz − 2yz.

2. Hallar una condición necesaria y suficiente en a, b y c tal que la

forma cuadrática ax2 + by2 + cxy se pueda expresar como ku2.

Page 279: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.5. Clasificación de las formas cuadráticas 263

5.5 Clasificación de las formas cuadráticas

En esta sección se clasifican las formas cuadráticas según sus valoresposibles. Una forma cuadrática F : Rn → R es una función de valor realcon dominio en Rn. Luego, se pueden distinguir varias clases importantesde formas cuadráticas de acuerdo con los valores que estas asumen paradiferentes �X, dichos números reales pueden ser mayores que, menores queo iguales a 0. Obviamente, si el vector es �X = �0, el valor siempre será0, por lo tanto no se tendrá en cuenta este vector. Por otra parte, si lamatriz A es nula, F ( �X) siempre dará el valor cero.

Definición 5.12

Dada F ( �X) = �XtA �X con A �= O simétrica, se dice que es

1. Definida positiva si F ( �X) > 0 para todo �X �= �0 en Rn,

2. Semidefinida positiva si F ( �X) ≥ 0 para todo �X en Rn,

3. Definida negativa si F ( �X) < 0 para todo �X �= �0 en Rn,

4. Semidefinida negativa si F ( �X) ≤ 0 para todo �X en Rn,

5. Indefinida si F ( �X) asume ambos valores positivos y negativos.

La matriz simétrica asociada A se denomina definida positiva, semidefi-

nida positiva, definida negativa, semidefinida negativa o indefinida según

sea la forma cuadrática F ( �X) que define.

Teorema 5.11 Sea A una matriz simétrica de tamaño n×n. Entonces,

la forma cuadrática F ( �X) = �XtA �X es:

1. Definida positiva si y solo si todos los valores propios de A son

positivos.

Page 280: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

264 5. Formas bilineales

2. Definida negativa si y solo si todos los valores propios son negativos.

3. Indefinida si y solo si A tiene valores propios positivos y negativos.

Demostración.

1. Supongamos que A es definida positiva, sea λ un valor propio de Ay �X el vector propio asociado a λ, entonces

�XtA �X = �Xtλ �X = λ �Xt �X.

Luego, λ =�XtA �X�Xt �X

es positivo puesto que es el cociente de dosnúmeros positivos.

Las otras quedan como ejercicio para el lector.

Ejemplo 5.13 Sea F ( �X) = 3x2 + 3y2 + 2xy. Determine qué clase de

forma cuadrática es.

Solución.En el Ejemplo 5.11, se obtuvo que los valores propios de la matriz

asociada a la forma F ( �X) eran 2 y 4. Por lo tanto, dicha forma cuadráticaes definida positiva.

Ejemplo 5.14 Dada F ( �X) = 2x2 + 4xy − y2, determine qué clase de

forma cuadrática es.

Solución.La matriz asociada a la forma cuadrática dada es

A =

[2 22 −1

].

En este caso, los valores propios de A son λ1 = −2 y λ2 = 3. Por lo tanto,dicha forma cuadrática es indefinida.

Teorema 5.12 Sea F : V → R una forma cuadrática en el espacio vec-

torial V de dimensión finita n. La forma F ( �X) se dice que es definida

Page 281: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.5. Clasificación de las formas cuadráticas 265

positiva si y solo si A = [aij ] la matriz asociada a la forma F ( �X) tiene

la propiedad de que todos los determinantes de sus submatrices angulares

son positivos.

Demostración.La demostración es por inducción sobre n. Para n = 1, la forma

cuadrática F(

�X)

está dada por

F(

�X)

= [x][a][x] = ax2,

en donde A = [a]. El teorema afirma en este caso que la forma F ( �X) esdefinida positiva si y solo si a > 0, lo cual es claro.

Por el Teorema 5.8, la matriz A = [a] se transforma en la matrizQtAQ, en donde Q es una matriz cuadrada de tamaño 1× 1 no singular,esto es, Q = [q], q �= 0. De esta manera,

QtAQ = [q][a][q] = aq2.

En tal caso, siendo a > 0 y q �= 0, se tiene que aq2 > 0, así que laafirmación del teorema no depende de la base considerada en V para elcaso n = 1.

Supongamos entonces que el teorema es válido para n = k − 1 yveamos si se cumple para n = k.

Se demostrará primero que si la forma F ( �X) es definida positiva, en-tonces los determinantes Δ1, Δ2, . . .Δk son positivos. Dado que la formaF ( �X) se puede escribir según (5.2) como

F ( �X) =k∑

i=1

k∑j=1

aijxixj =k∑

i=1

aiix2i + 2

k− 1∑i=1

k∑j > i

aijxixj ,

esta se puede reescribir de la siguiente manera

F ( �X) =k− 1∑i=1

aiix2i + 2

k− 1∑i=1

k∑j > i

aijxixj + akkx2k. (5.43)

Sea W un subespacio de V de dimensión k− 1 y considérese F ∗ : W → R

una forma cuadrática en W tal que

F ∗( �X)

=k− 1∑i=1

k− 1∑j=1

aijxixj .

Page 282: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

266 5. Formas bilineales

En efecto, la forma F ∗( �X)

es definida positiva. Supóngase lo contrario,entonces existe un vector �X∗ ∈ W, digamos �X∗ = (x1, x2, . . . , xk− 1)

t

tal que F ∗( �X∗) ≤ 0. Ahora, formemos el vector �X ∈ V como sigue�X = (x1, x2, . . . , xk− 1, 0)t y evaluemos F ( �X). Según la expresión (5.43),se obtiene que F ( �X) ≤ 0, lo cual contradice la hipótesis de que la formaF ( �X) es definida positiva.

Por lo tanto, según la hipótesis de inducción, los determinantes delas submatrices angulares de la matriz de la forma F ∗( �X) son positivos.Estos son: Δ1, Δ2, . . .Δk− 1. Falta probar que Δk es también positivo.

Pero por el Teorema 5.8, la matriz A asociada a la forma F ( �X),mediante el empleo de una matriz no singular Q, se transforma en lamatriz

D = QtAQ.

Al tomar el determinante de las matrices en esta última expresión, seobtiene

det(D) = det(QtAQ) = det(Qt) det(A) det(Q) = det(A)[det(Q)

]2.

Pero como det(Q) �= 0 y det(D) =k∏

i=1λi, se tiene que1

det(A) =1[

det(Q)]2 det(D) =

1

[det(Q)]2

k∏i=1

λi > 0.

Se ha probado así que Δk = det(A) > 0, como se quería.Se deja como ejercicio para el lector probar que si los determinantes

Δ1, Δ2, . . .Δk de alguna matriz (arbitraria pero fija) asociada a la for-ma cuadrática F ( �X) son positivos, entonces la forma F ( �X) es definidapositiva.

Ejemplo 5.15 Determine si la siguiente forma cuadrática es definida

positiva:

F (x, y, z) = 2x2 + 5y2 + 2z2 + 4xy + 2xz + 4yz.

1 Véase el Teorema 5.11.

Page 283: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.5. Clasificación de las formas cuadráticas 267

Solución.La matriz asociada a la forma cuadrática dada es

A =

⎡⎣2 2 12 5 21 2 2

⎤⎦ .

Luego, los determinantes de las submatrices angulares son

Δ1 = det(A[1]) =∣∣2∣∣ = 2 > 0, Δ2 = det

(A[2]

)=

∣∣∣∣2 22 5

∣∣∣∣ = 6 > 0 y

Δ3 = det(A[3]) =

∣∣∣∣∣∣2 2 12 5 21 2 2

∣∣∣∣∣∣ = 7 > 0.

Como los tres determinantes Δ1, Δ2, Δ3 son positivos, se concluye, porel Teorema 5.12, que la forma cuadrática F ( �X) es definida positiva.

Corolario 5.12.1 La forma F : V → R es definida negativa si y solo si

Δ1 < 0, Δ2 > 0, Δ3 < 0, . . . Es decir, si los determinantes Δ1, Δ2, . . .Δn

alternan sus signos, comenzando con Δ1 < 0.

Demostración.Es claro que la forma F : V → R dada por

F ( �X) = �XtA �X

es definida negativa si y solo si la forma −F : V → R

−F ( �X) = �Xt(−A) �X

es definida positiva. Según el Teorema 5.12, se debe tener entonces quelos determinantes

Δ1 =∣∣−a11

∣∣ , Δ2 =

∣∣∣∣−a11 −a12

−a21 −a22

∣∣∣∣ , Δ3 =

∣∣∣∣∣∣−a11 −a12 −a13

−a21 −a22 −a23

−a31 −a32 −a33

∣∣∣∣∣∣ , . . . ,Δn = (−1)n det(A) deben ser positivos. Es decir que

Δ1 = det[−a11] = −det[a11] > 0

Page 284: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

268 5. Formas bilineales

Δ2 =

∣∣∣∣−a11 −a12

−a21 −a22

∣∣∣∣ = (−1)2∣∣∣∣a11 a12

a21 a22

∣∣∣∣ > 0

Δ3 =

∣∣∣∣∣∣−a11 −a12 −a13

−a21 −a22 −a23

−a31 −a32 −a33

∣∣∣∣∣∣ = (−1)3

∣∣∣∣∣∣a11 a12 a13

a21 a22 a23

a31 a32 a33

∣∣∣∣∣∣ > 0,

y así sucesivamente, lo que prueba el corolario.

Teorema 5.13 La suma de dos cualesquiera matrices definidas positi-

vas del mismo tamaño es definida positiva. Más generalmente, cualquier

combinación lineal no negativa de matrices semidefinidas positivas es se-

midefinida positiva.

Demostración.Sean A y B matrices semidefinidas positivas, sean α, β ≥ 0. Si se

denota C = αA + βB y se calcula

�XtC �X = �Xt(αA + βB) �X = α( �XtA �X) + β( �XtB �X) ≥ 0, ∀ �X ∈ Cn,

el caso de más de dos sumandos es tratado en el mismo sentido. Si loscoeficientes α y β son positivos y si A y B son matrices definidas positivasy además �X �= �0, entonces cada término en la suma es positivo. Porconsiguiente, una combinación lineal de matrices definidas positivas esdefinida positiva.

Teorema 5.14 Si A es una matriz simétrica definida positiva de tamaño

n × n, entonces cualquier submatriz principal de A es definida positiva.

Demostración.Sea K un subconjunto propio de {1, 2, . . . , n} y denotemos por A(K)

la submatriz resultante de eliminar las respectivas filas y columnas de lamatriz A, indicadas en K. Entonces A(K) es una submatriz principal deA. Nótese que todas las submatrices se pueden obtener de esta manera; elnúmero det[A(K)] es un menor de A. Sea �X ∈ Cn un vector no nulo conentradas arbitrarias en las componentes indicadas por K y cero en lasotras entradas. Denotando por �X(K) el vector que se obtiene de eliminar

los elementos nulos de �X, obsérvese que

�XH(K)A(K)

�X(K) = �XHA �X > 0.

Page 285: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.5. Clasificación de las formas cuadráticas 269

Puesto que �X(K) �= �0 es arbitrario, esto significa que A(K) es definidapositiva.

Teorema 5.15 La traza, el determinante y todos los menores principales

de una matriz simétrica definida positiva son positivos.

Demostración.Sea A ∈ Mn×n una matriz simétrica definida positiva; luego, por el

Teorema 2.20, se sabe que la traza y el determinante son respectivamentela suma y el producto de los valores propios, los cuales por el Teore-ma 5.11 son todos positivos. La otra parte del teorema se obtiene delTeorema 5.14.

Ejemplo 5.16 Determine si la forma cuadrática dada en el Ejemplo 5.15

es definida positiva verificando si la matriz asociada a la forma cumple

las condiciones del teorema anterior.

Solución.Según el Ejemplo 5.15, la matriz asociada a la forma cuadrática es

A =

⎡⎣2 2 12 5 21 2 2

⎤⎦ .

La tr(A) = 9 > 0, det(A) = 7 > 0 y los determinantes de algunos menoresson

det(M33) =

∣∣∣∣2 22 5

∣∣∣∣ = 6, det(M22) =

∣∣∣∣2 11 2

∣∣∣∣ = 3.

Por lo tanto, la forma cuadrática dada sí es definida positiva.

Teorema 5.16 Sea A ∈ Mm×m definida positiva y P ∈ Mm×n, entonces

P tAP es semidefinida positiva. Además, ρ(P tAP

)= ρ(P ), así que P tAP

es definida positiva si y solo si P tiene rango n.

Page 286: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

270 5. Formas bilineales

Demostración.Es claro que P tAP es simétrica. Para cualquier �X ∈ Cn, se tiene que

�XtP tAP �X = �Y tA�Y ≥ 0,

donde �Y = P �X y la desigualdad se sigue porque A es definida positiva.Así que P tAP es semidefinida positiva. Obsérvese que �XtP tAP �X > 0 siy solo si P �X �= �0, ya que A es definida positiva.

Supongamos que P �X = �0, entonces por supuesto que P tAP �X = �0.Recíprocamente, si P tAP �X = �0, entonces �XtP tAP �X = 0, y usando elhecho de que A es definida positiva, se concluye que P �X = �0. Por lotanto, P tAP �X = �0 si y solo si P �X = �0, lo cual significa que P tAP y Ptienen el mismo espacio nulo (luego, también tienen el mismo rango).

Teorema 5.17 Desigualdad de Fischer

Sea A una matriz cuadrada y definida positiva, particionada como

A =

⎡⎢⎣A11 A12

A21 A22

⎤⎥⎦ ,

donde A11 y A22 son submatrices cuadradas, entonces:

det A ≤ det(A11

)det

(A22

).

Demostración.Queda como ejercicio para el lector.

Ejercicios 5.4

1. Muestre que las entradas de la diagonal de una matriz simétrica

definida positiva son números reales positivos.

2. Muestre que los valores propios, traza, determinante y menores

principales de una matriz semidefinida positiva son todos no nega-

tivos.

Page 287: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 271

3. Muestre que si A ∈ M2×2 es definida positiva, entonces a11a22 >

|a12|2.

4. Si A es de tamaño m × n de rango n < m, muestre que AtA es

definida positiva y que AAt es semidefinida positiva.

5. Si A es de tamaño m × n de rango k < mın{m, n}, muestre que

AtA y AAt son semidefinidas positivas.

5.6 Aplicaciones a la geometría analítica

En esta sección se pretende poner al alcance de los lectores un algoritmoproporcionado por el método de “valores propios y vectores propios” paratratar con más generalidad, agilidad y libertad algunos objetos de lageometría analítica de no fácil manipulación por los métodos tradicionalesusados para el estudio de las ecuaciones cuadráticas.

Definición 5.13 Ecuación cuadrática

Una ecuación en las variables x y y de la forma:

ax2 + by2 + cxy + dx + ey + f = 0, (5.44)

donde a, b, . . . , f son números reales con al menos uno de los números

a, b, c, distinto de cero, se denomina ecuación cuadrática de segundo

grado. Esta se puede escribir en forma matricial como

�XtA �X + 2 �Kt �X + f = 0. (5.45)

En esta notación, la expresión �XtA �X es la forma cuadrática asociada y

el vector �K ∈ R2 es �Kt =[d2

e2

].

Page 288: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

272 5. Formas bilineales

Definición 5.14 Tipos de ecuación cuadrática

Las curvas representadas por la ecuación cuadrática de segundo grado

dada en (5.44) se pueden clasificar según la posición en la cual estén con

respecto a un sistema coordenado cartesiano X, así:

1. Estándar o canónica, si tiene su centro en el origen.

2. Trasladada, si tiene su centro en un punto diferente del origen.

3. Rotada, si su posición con respecto al sistema X no es canónica ni

tampoco trasladada, pero es posible encontrar un sistema Y con el

mismo origen del sistema X, y tal que los ejes coordenados de Y

forman con los ejes coordenados del sistema X un ángulo agudo θ,

con respecto al cual la curva está en posición canónica.

Teorema 5.18 Si en la ecuación general de segundo grado:

ax2 + by2 + cxy + dx + ey + f = 0, (5.46)

la matriz A que representa a la forma cuadrática asociada es no singular,

entonces al trasladar el origen de coordenadas al punto �X0 = −A−1 �K, el

cambio de coordenadas �X = �X − �X0 transforma a (5.46) en

ax2 + by2 + cxy + f = 0, (5.47)

donde f = f − �KtA−1 �K y el vector �Kt =[d2

e2

].

Demostración.La forma cuadrática dada en (5.46) en forma matricial queda

�XtA �X + 2 �Kt �X + f = 0,

Page 289: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 273

donde

A =

[a c

2c2 b

]y �Kt =

[d2

e2

],

al sustituir �X =�X + �X0, se tiene

�Xt

A�X + 2

[A �X0 + �K

]t �X +

[�Xt

0A�X0 + 2 �Kt �X0 + f

]= 0, (5.48)

luego, �X0 será un centro si

A �X0 + �K = �0, es decir, �X0 = − A−1 �K. (5.49)

Por lo tanto,

�Xt0A �X0 + 2 �Kt �X0 + f︸ ︷︷ ︸ = �KtA−1 �K − 2 �KtA−1 �K + f

f = f − �KtA−1 �K.

Si �Xt

= [x y] , al reemplazar en (5.48), se obtiene

ax2 + by2 + cxy + f = 0,

la cual representa la traslación de origen y es lo que se quería demostrar.

Ejemplo 5.17 Dada la ecuación cuadrática:

3x2 + 2xy + 3y2 − 9 = 0, (5.50)

elimine el término cruzado xy utilizando el Teorema 5.8, escriba la ecua-

ción en términos de las nuevas variables e identifique la sección cónica

obtenida.

Solución.En el Ejemplo 5.11, se vio que la forma cuadrática asociada 3x2 +

2xy + 3y2 se puede expresar como

4u2 + 2v2.

Page 290: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

274 5. Formas bilineales

Luego, la ecuación cuadrática dada en (5.50), se puede escribir como

4u2 + 2v2 = 9,

la cual es la ecuación de una elipse estándar. Puesto que �K = �0 entoncessu centro es el origen del sistema. Por lo tanto, (5.50) es la ecuación deuna elipse estándar rotada. Vea la representación en la Figura 5.1:

Figura 5.1: Elipse rotada.

Ejemplo 5.18 Dada la ecuación cuadrática:

2x2 + 4xy − y2 − 2x + 3y − 6 = 0, (5.51)

elimine el término cruzado xy utilizando el Teorema 5.8, escriba la ecua-

ción en términos de las nuevas variables e identifique la sección cónica

obtenida.

Solución.La forma matricial de esta ecuación cuadrática es

�XtA �X + 2 �Kt �X − 6 = 0, (5.52)

Page 291: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 275

donde

A =

[2 22 −1

]y �Kt =

[−1 32

].

En este caso, los valores propios de A son λ1 = −2 y λ2 = 3 y los vectores

propios correspondientes son �v1 =

[−12

]y �v2 =

[21

], respectivamente. La

identificación de la sección cónica se hace en dos etapas, las cuales sepueden realizar de las siguientes formas:

1. Primero, trasladar el origen de coordenadas al centro de la curvay luego girar los ejes en el ángulo respectivo. Puesto que A es nosingular, empleando la expresión (5.49), se determina el centro

(�X0

)como

�X0 = − A−1 �K = − 1

12

[1 22 −2

] [−23

]=

1

6

[−25

]y f = f − �KtA−1 �K = −53

12 . Por lo tanto, (5.52) queda

�Xt

A�X + f =

[x + 1

3 y − 56

] [2 22 −1

] [x + 1

3y − 5

6

]− 53

12= 0, (5.53)

donde �X = �X − �X0. Para encontrar Q, se usa la expresión (5.7)

dada en la definición de inercia, la cual establece primero los valo-res propios positivos y luego los negativos. De esta manera, como

‖�v2‖ =√

5, se hace �u2 =�v2

‖�v2‖ =1√5

[21

]y como ‖�v1‖ =

√5, se

tiene �u1 =1√5

[−12

]. Se puede verificar que la base obtenida para

R2 es ortonormal observando que �u1 · �u2 = 0. Por lo tanto,

Q =1√5

[2 −11 2

]y QtAQ = D =

[3 00 −2

].

Dado que el det(Q) = 1 se define

�X =

[xy

]= Qt

(�X − �X0

)=

1√5

[2 1

−1 2

] [x + 1

3y − 5

6

]= �Y − �Y0 =

[u v

]t − [1

6√

52√5

]t,

Page 292: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

276 5. Formas bilineales

donde �Y = Qt �X y �Y0 = Qt �X0, entonces, la expresión (5.53) se

puede escribir en términos de las nuevas variables x, y como �Xt

D�X,

es decir,

3x2 − 2y2 =53

12

3

(u − 1

6√

5

)2

− 2

(v − 2√

5

)2

=53

12, (5.54)

la cual es la ecuación de una hipérbola con centro en(

16√

5, 2√

5

). Por

lo tanto, la ecuación (5.51) es una hipérbola rotada y trasladada.

2. Girar los ejes, dándoles las direcciones principales de la curva ydespués efectuar una traslación de los ejes girados. Este método sepuede emplear cuando A es singular, y para ello, se define

�Y =

[uv

]= Qt �X =

1√5

[2 1

−1 2

] [xy

]. (5.55)

Al sustituir en (5.52) el cambio de variable propuesto en (5.55), setiene

2 �Kt �X = 2 �KtQ�Y =1√5

[−2 3] [2 −1

1 2

] [uv

]=

1√5

[−1 8] [u

v

].

Luego, la ecuación cuadrática dada en (5.51) se puede reescribircomo

3u2 − 2v2 − 1√5u +

8√5v = 6.

Naturalmente, esta no es la ecuación de una cónica en posicióncanónica, pero sí está trasladada porque al completar los cuadrados,se obtiene

3

[u2 − 1

3√

5u +

1

180

]− 2

[v2 − 4√

5v +

4

5

]= 6 − 8

5+

1

60

3

[u − 1

6√

5

]2

−2

[v − 2√

5

]2

=53

12.

Nótese que esta cónica es la misma que se obtuvo en (5.54). Larepresentación gráfica aparece en la Figura 5.2:

Page 293: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 277

Figura 5.2: Hipérbola rotada y trasladada.

5.6.1 Rotación de ejes en R2

Como ya se ha señalado, una transformación �Y = Qt �X, donde Q esortogonal, se llama transformación ortogonal. Ahora, se examina la in-terpretación geométrica de estas transformaciones en R2.

Teorema 5.19 Rotación de ejes en R2

Sean B ={�e1, �e2

}la base del sistema coordenado X y B

′ ={�e ′1, �e

′2

}la base correspondiente al sistema Y. Entonces si

�e ′j = a1j�e1 + a2j�e2, para j = 1, 2,

las coordenadas (x1, x2) de un punto cualquiera P en el sistema X y las

coordenadas (y1, y2) del mismo punto en el sistema Y están relacionadas

como sigue: ⎡⎢⎣x1

x2

⎤⎥⎦ =

⎡⎢⎣a11 a12

a21 a22

⎤⎥⎦⎡⎢⎣y1

y2

⎤⎥⎦ = A

⎡⎢⎣y1

y2

⎤⎥⎦ ,

Page 294: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

278 5. Formas bilineales

donde A = [aij ] es la matriz de transición (o matriz de cambio de base)

de B a B′.

Demostración.Supongamos que los sistemas coordenados X y Y (en R2) tienen el

mismo origen O. Sea−−→OP el vector formado desde el origen del sistema

coordenado X al punto P = (x1, x2), entonces

−−→OP = x1�e1 + x2�e2.

Por otra parte, el vector−−→OP formado desde el origen del sistema coorde-

nado Y al punto P = (y1, y2), es

−−→OP = y1�e

′1 + y2�e

′2

= y1

(a11�e1 + a21�e2

)+ y2

(a12�e1 + a22�e2

)=

(y1a11 + y2a12

)︸ ︷︷ ︸�e1 +(y1a21 + y2a22

)︸ ︷︷ ︸�e2

= x1 �e1 + x2 �e2.

Aquí, se usó el hecho de que la representación de−−→OP como combinación

lineal de �e1 y �e2 es única. Luego,

x1 = a11y1 + a12y2 y x2 = a21y1 + a22y2,

y el teorema queda probado.

5.6.1.1 Cambio de dirección de ejes en R2 conservando el mis-

mo origen

Consideremos que el sistema coordenado X (en R2) es rectangular ytiene unidades iguales sobre ambos ejes. Esto significa que si �e1 y �e2 sonlos vectores base (unitarios), entonces son perpendiculares entre sí.

Supongamos que los ejes coordenados Y se obtienen haciendo girar elsistema X un ángulo θ alrededor del origen, en sentido contrario al de lasmanecillas del reloj, conservando la ortogonalidad. Los vectores base �e ′

1

y �e ′2 del sistema Y, forman también una base ortonormal y están dados

por

�e ′1 = [cos θ, sen θ] = cos θ�e1 + sen θ�e2.

�e ′2 = [− sen θ, cos θ] = − sen θ�e1 + cos θ�e2.

Page 295: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 279

X1

X2

�e1

�e2

(1, 0)

(0, 1)

θ

(− sen θ, cos θ)

(cos θ, sen θ)

Y1

Y2

�e′

1�e

2

Figura 5.3: Rotación en R2.

Se deduce por el Teorema 5.19 que las coordenadas de un punto enambos sistemas están relacionadas por

x1 = y1 cos θ − y2 sen θ y x2 = y1 sen θ + y2 cos θ, (5.56)

que son las ecuaciones de una rotación levógira de ejes, cuando el ángulogirado es θ. Si se denota por Aθ la matriz ortogonal

Aθ =

[cos θ − sen θsen θ cos θ

], (5.57)

entonces (5.56) se puede expresar matricialmente como[x1

x2

]= Aθ

[y1

y2

],

la cual es una transformación ortogonal propia, puesto que el detAθ = 1y representa cualquier rotación de ejes en R2.

A continuación, se presenta un teorema para obtener el ángulo de rotaciónθ de una ecuación cuadrática de segundo grado.

Teorema 5.20 Sea la ecuación general de segundo grado:

ax2 + by2 + cxy + dx + ey + f = 0. (5.58)

Page 296: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

280 5. Formas bilineales

Entonces existe un número único θ, llamado ángulo de rotación, tal que

θ =1

2arctan

(c

a − b

), θ ∈

[0,

π

2

). (5.59)

Demostración.La matriz que representa la forma cuadrática dada en (5.58) es

A =

[a c

2c2 b

]. (5.60)

Supongamos que λ es un valor propio de A con vector propio unitariocorrespondiente �Xt =

[cos θ sen θ

], luego A �X = λ �X. Si se premultiplica

por �Xt, se obtiene

�XtA �X = λ �Xt �X = λ.

Al sustituir �X y A, se tiene

λ =[cos θ sen θ

] [a c2

c2 b

] [cos θsen θ

]= a cos2 θ + c sen θ cos θ + b sen2 θ

= (a − b) cos2 θ + c sen θ cos θ + b.

Si se multiplica por 2 y se usan las siguientes identidades trigonométricas

2 cos2 θ = cos(2θ) + 1 y sen(2θ) = 2 sen θ cos θ,

se llega a

2λ = (a − b) cos(2θ) + c sen(2θ) + (a + b).

Pero como λ es valor propio de A, se tiene que

2λ = tr(A) ±√

tr2(A) − 4 det(A).

Al igualar estas dos expresiones, se obtiene

(a − b) cos(2θ) + c sen(2θ) + (a + b) = tr(A) ±√

tr2(A) − 4 det(A),

Page 297: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 281

pero tr(A) = a + b, por consiguiente

(a − b) cos(2θ) + c sen(2θ) = ±√

tr2(A) − 4 det(A)

± a − b√tr2(A) − 4 det(A)︸ ︷︷ ︸ cos(2θ) +

±c√tr2(A) − 4 det(A)︸ ︷︷ ︸ sen(2θ) = 1

u cos(2θ) + v sen(2θ) = 1.

Luego,

(v sen(2θ))2 = (1 − u cos(2θ))2

v2 sen2(2θ) = 1 − 2u cos(2θ) + u2 cos2(2θ)

v2(1 − cos2(2θ)) = 1 − 2u cos(2θ) + u2 cos2(2θ).

El lector puede probar fácilmente que u2 + v2 = 1, de manera que

cos2(2θ) − 2u cos(2θ) + (1 − v2) = 0

[cos(2θ) − u]2 = 0

∴ u = cos(2θ).

Por lo tanto, v = sen(2θ) y entonces

v

u= tan(2θ) =

c

a − b. (5.61)

Al tomar arctan a ambos lados de (5.61), se obtiene la ecuación (5.59).

Nota 5.2 Si la matriz que representa una forma cuadrática tiene la

forma (5.60), entonces el ángulo θ de rotación satisface que

sen(2θ

)=

c√tr2 A − 4 det A

=c

λ1 − λ2

cos(2θ

)=

a − b√tr2 A − 4 detA

=a − b

λ1 − λ2

⎫⎪⎪⎬⎪⎪⎭ tan(2θ

)=

c

a − b. (5.62)

Por otra parte, si se usa la siguiente identidad trigonométrica

tan(2θ) =2 tan θ

1 − tan2 θ,

Page 298: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

282 5. Formas bilineales

al sustituir en la última expresión dada en (5.62) se tiene que

2 tan θ

1 − tan2 θ=

c

a − b

2(a − b) tan θ = c(1 − tan2 θ

).

Al resolver esta ecuación cuadrática, se llega a

tan θ =b − a

√tr2 A − 4 det A

c. (5.63)

Ejemplo 5.19 Determine el ángulo de rotación de la ecuación cuadrá-

tica dada en el Ejemplo 5.17.

Solución.La matriz simétrica asociada a la forma cuadrática es

A =

[3 11 3

].

La ecuación (5.61) no es aplicable ya que como a = b se dividiría por 0,se usa (5.63) y se tiene que

tan θ = 1. (5.64)

Cualquier solución de (5.64) sirve a nuestro propósito. Si se escoge lasolución para la cual 0 < θ < 90◦, entonces sen(θ) = 1√

2y cos(θ) =

1√2, es decir, el ángulo de rotación θ vale aproximadamente θ = 45◦ y,

construyendo la matriz de rotación (5.57), se tiene que

Aθ =

[1/√

2 1/√

2

1/√

2 1/√

2

],

la cual coincide con la matriz ortogonal dada en el Ejemplo 5.11.

Ejemplo 5.20 Determine el ángulo de rotación de la ecuación cuadrá-

tica dada en el Ejemplo 5.18.

Page 299: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 283

Solución.La matriz simétrica asociada a la forma cuadrática es

A =

[2 22 −1

].

Por la ecuación (5.61), se tiene que

tan(2θ) =4

2 − (−1)=

4

3. (5.65)

Cualquier solución de (5.65) sirve a nuestro propósito. Si se escoge lasolución para la cual 0 < 2θ < 90◦, entonces sen(2θ) = 4

5 y cos(2θ) = 35

y como θ es un ángulo agudo,

sen θ =

√1 − cos 2θ

2=

1√5

y cos θ =

√1 + cos 2θ

2=

2√5.

Es decir, el ángulo de rotación θ vale aproximadamente θ = 26◦33′54.18′′

y, construyendo la matriz de rotación (5.57), se tiene que

Aθ =

[2/√

5 1/√

5

1/√

5 2/√

5

],

la cual coincide con la matriz ortogonal dada en el Ejemplo 5.18.

5.6.2 Clasificación de las ecuaciones cuadráticas

Para la ecuación general de segundo grado:

ax2 + by2 + cxy + dx + ey + f = 0, (5.66)

se definen las cantidades

A =

[a c

2c2 b

],

ω = tr(A),μ = det A

y ν = det

⎡⎢⎢⎣ A... �K

. . . . . . .

�Kt... f

⎤⎥⎥⎦ ,

Page 300: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

284 5. Formas bilineales

donde �Kt =[d2

e2

]y ω, μ son los coeficientes de PA

(λ), entonces la

ecuación (5.66) representa los siguientes lugares geométricos (L.G.):

L.G.

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

μ �= 0

⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩μ > 0

⎧⎨⎩ ν �= 0

{ων < 0 Una elipseων > 0 Ninguno

ν = 0 Un punto

μ < 0

{ν �= 0 Una hipérbolaν = 0 Dos rectas que se cortan

μ = 0

⎧⎨⎩ν �= 0 Una parábola

ν = 0Dos rectas paralelas,o una recta, o ninguno.

El cuadro anterior se acostumbra a interpretar como sigue:

L.G.

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

Curvacon

centro(μ �= 0)

⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎩

De tipoelíptico(μ > 0)

⎧⎨⎩Una elipse (ων < 0)

Caso degenerado (ων ≥ 0)De tipo

hiperbólico(μ < 0)

⎧⎨⎩Una hipérbola (ν �= 0)

Caso degenerado (ν = 0)Curva

sincentro(μ = 0)

⎧⎨⎩Una parábola (ν �= 0)

Caso degenerado (ν = 0).

Cuando ν �= 0, la ecuación cuadrática (5.66) también puede ser clasifi-cada de acuerdo con la inercia de la matriz A asociada a la forma cuadráti-ca, como sigue:

Identificación de las ecuaciones cuadráticas

Inercia Nombre de la cónicaIn(A) = (2, 0, 0) ElipseIn(A) = (1, 1, 0) HipérbolaIn(A) = (1, 0, 1) Parábola

Las formas cuadráticas también pueden usarse para analizar ecuacionesde superficies cuádricas en el espacio.

Definición 5.15 Superficie cuádrica

Una ecuación de segundo grado en x, y, y z de la forma:

ax2 + by2 + cz2 + dxy + exz + fyz + gx + hy + iz + j = 0, (5.67)

Page 301: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 285

donde a, b, . . . , j son números reales y |a|+ |b|+ |c|+ |d|+ |e|+ |f | �= 0, se

denomina superficie cuádrica. Esta se puede escribir en forma matricial

como

�XtA �X + 2 �Kt �X + j = 0. (5.68)

En esta notación, la expresión �XtA �X es la forma cuadrática asociada y

el vector �K ∈ R3 es dado por �Kt =[g2

h2

i2

].

Teorema 5.21 Si en la superficie cuádrica:

ax2 + by2 + cz2 + dxy + exz + fyz + gx + hy + iz + j = 0, (5.69)

la matriz A que representa a la forma cuadrática asociada es no singular,

entonces al trasladar el origen de coordenadas al punto �X0 = −A−1 �K, el

cambio de coordenadas �X = �X − �X0 transforma a (5.69) en

ax2 + by2 + cz2 + dxy + exz + fyz + j = 0, (5.70)

donde j = j − �KtA−1 �K y el vector �Kt =[g2

h2

i2

].

Demostración.La superficie cuádrica dada en (5.69) en forma matricial queda

�XtA �X + 2 �Kt �X + j = 0,

donde

A =

⎡⎣a d2

e2

d2 b f

2e2

f2 c

⎤⎦ y �Kt =[g2

h2

i2

],

y al sustituir �X =�X + �X0, se tiene

�Xt

A�X + 2

[A �X0 + �K

]t �X +

[�Xt

0A�X0 + 2 �Kt �X0 + j

]= 0. (5.71)

Page 302: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

286 5. Formas bilineales

Luego, �X0 será un centro si

A �X0 + �K = �0, es decir, �X0 = − A−1 �K. (5.72)

Por lo tanto,

�Xt0A �X0 + 2 �Kt �X0 + j︸ ︷︷ ︸ = �KtA−1 �K − 2 �KtA−1 �K + j

j = j − �KtA−1 �K.

Si �Xt

= [x y z] , al reemplazar en (5.71), se obtiene

ax2 + by2 + cz2 + dxy + exz + fyz + j = 0,

la cual representa la traslación de origen y es lo que se quería demostrar.

Ejemplo 5.21 Considere la ecuación cuadrática:

2x2 + 5y2 + 2z2 + 4xy + 2xz + 4yz − 36 = 0. (5.73)

Determine la superficie cuádrica obtenida al eliminar los términos de

productos cruzados.

Solución.Haciendo referencia al Ejemplo 5.12, dicha ecuación cuadrática se

puede escribir como�XtA �X = 36, (5.74)

donde

A =

⎡⎣2 2 12 5 21 2 2

⎤⎦ .

En este caso, (5.73) se puede escribir en términos de las nuevas variablesu, v, w como �Y tD�Y = 36, o sea,

u2 + v2 + 7w2 = 36. (5.75)

En R3 la superficie definida por (5.75) se llama elipsoide.

Page 303: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 287

Ejemplo 5.22 Considere la ecuación cuadrática

7x2 + 7y2 + 10z2 − 2xy − 4xz + 4yz − 12x + 12y + 60z − 24 = 0. (5.76)

Determine la superficie cuádrica obtenida al eliminar los términos de

productos cruzados.

Solución.La forma matricial de esta ecuación cuadrática es

�XtA �X + 2 �Kt �X − 24 = 0, (5.77)

donde

A =

⎡⎣ 7 −1 −2−1 7 2−2 2 10

⎤⎦ y �Kt = [−6 6 30] .

En este caso, los valores propios de A son λ1 = 12 y λ2 = 6 (de mul-tiplicidad algebraica 2). El vector propio correspondiente a λ1 = 12 es

�v1 =

⎡⎣−112

⎤⎦ y los correspondientes a λ2 = 6 son �v2 =

⎡⎣110

⎤⎦ y �v3 =

⎡⎣201

⎤⎦, res-

pectivamente. Para determinar la sección cónica, se hacen en dos etapas,las cuales se pueden realizar de las siguientes formas:

1. Primero, trasladar el origen de coordenadas al centro de la curvay luego girar los ejes en el ángulo respectivo. Puesto que A es nosingular, empleando la expresión (5.72), se determina el centro

(�X0

)como

�X0 = − A−1 �K = − 1

72

⎡⎣11 1 21 11 −22 −2 8

⎤⎦⎡⎣−66

30

⎤⎦ =

⎡⎣ 00

−3

⎤⎦y j = j − �KtA−1 �K = −114, por lo tanto la ecuación (5.77) queda

�Xt

A�X + j =

[x y z + 3

] ⎡⎣ 7 −1 −2−1 7 2−2 2 10

⎤⎦⎡⎣ xy

z + 3

⎤⎦− 114 = 0,

(5.78)

Page 304: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

288 5. Formas bilineales

donde �X = �X − �X0. Para encontrar la matriz Q, se ortonor-

malizan los vectores propios de A, como ‖�v1‖ =√

6 se hace

�u1 =�v1

‖�v1‖ =1√6

⎡⎣−112

⎤⎦ . Después, se aplica el proceso de ortonor-

malización de Gram-Schmidt a {�v2, �v3} para obtener una baseortonormal del espacio propio B2. Puesto que ‖�v2‖ =

√2, se tiene

�u2 =�v2

‖�v2‖ =1√2

⎡⎣110

⎤⎦ . Por último,

�v ′3 = �v3 − (�v3 · �u2)�u2 =

⎡⎣201

⎤⎦− 2√2

⎡⎣1/√

2

1/√

20

⎤⎦=

⎡⎣201

⎤⎦−⎡⎣1

10

⎤⎦ =

⎡⎣ 1−11

⎤⎦ .

Entonces, ‖�v ′3‖ =

√3 y �u3 =

1√3

⎡⎣ 1−11

⎤⎦ . Se puede verificar que la

nueva base de B2 es ortonormal observando que �u2 · �u3 = 0. Tam-bién, se puede verificar que la base obtenida para R3 es ortonormalobservando que �u1 · �u3 = 0 y �u2 · �u3 = 0. Por tanto,

Q =1√6

⎡⎣−1√

3√

2

1√

3 −√2

2 0√

2

⎤⎦ .

Como det(Q) = −1, se multiplica la tercera columna por −1 y setiene

Q =1√6

⎡⎣−1√

3 −√2

1√

3√

2

2 0 −√2

⎤⎦ y QtAQ = D =

⎡⎣12 0 00 6 00 0 6

⎤⎦ .

Si se define

�X =

⎡⎣xyz

⎤⎦ = Qt(

�X − �X0

)=

1√6

⎡⎣ −1 1 2√3

√3 0

−√2

√2 −√

2

⎤⎦⎡⎣ xy

z + 3

⎤⎦= �Y − �Y0 =

[u v w

]t − [−√6 0

√3]t

,

Page 305: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 289

donde �Y = Qt �X y �Y0 = Qt �X0, entonces la expresión (5.78) se puede

escribir en términos de las nuevas variables x, y, z como �Xt

D�X, o

sea,

12x2 + 6y2 + 6z2 = 114

12(u +

√6)2

+ 6v2 + 6(w −

√3)2

= 114, (5.79)

la cual corresponde a la ecuación de un elipsoide con centro en(−√6, 0,

√3). Por lo tanto, la ecuación (5.76) es un elipsoide rotado

y trasladado.

2. Girar los ejes, dándoles las direcciones principales de la curva ydespués efectuar una traslación de los ejes girados. Este método sepuede emplear cuando A es singular, y para ello se define

�Y =

⎡⎣uvw

⎤⎦ = Qt �X =1√6

⎡⎣ −1 1 2√3

√3 0

−√2

√2 −√

2

⎤⎦⎡⎣xyz

⎤⎦ . (5.80)

Al sustituir en (5.77) el cambio de variable propuesto en (5.80), setiene

2 �Kt �X = 2 �KtQ�Y =1√6[−12 12 60]

⎡⎣ −1√

3 −√2

1√

3√

2

2 0 −√2

⎤⎦⎡⎣uvw

⎤⎦=

[24√

6 0 −12√

3] ⎡⎣u

vw

⎤⎦ .

Luego, la ecuación cuadrática dada en (5.76) se puede escribir como

12u2 + 6v2 + 6w2 + 24√

6u − 12√

3w = 24.

Al dividir por 6 y completar los cuadrados, se obtiene

2[u2 + 2

√6u + 6

]+ v2 +

[w2 − 2

√3w + 3

]= 4 + 12 + 3,

o bien,

2[u +

√6]2

+ v2 +[w −

√3]2

= 19.

Nótese que esta superficie es la misma que se obtuvo en (5.79).

Page 306: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

290 5. Formas bilineales

5.6.3 Rotación de ejes en R3

La interpretación geométrica dada a las transformaciones ortogonales enR2 puede generalizarse para R3. Esto es, si �Y = Qt �X representa unatransformación ortogonal de coordenadas en R3, entonces las columnasde la matriz de rotación Q están dadas por los cosenos directores de losnuevos ejes de referencia con respecto al viejo sistema de referencia.

Definición 5.16 Rotación de ejes en R3

Una rotación de ejes en R3 es una transformación ortogonal propia

que permite pasar a una nueva base a partir de un movimiento rígido y

continuo de los vectores base del sistema primitivo, conservando el origen

fijo y preservando la ortogonalidad.

Teorema 5.22 Rotación de ejes en R3

Sean B ={�e1, �e2, �e3

}una base del sistema coordenado X y B

′ ={�e ′1, �e

′2, �e

′3

}la base correspondiente al sistema Y. Entonces si:

�e ′j = a1j�e1 + a2j�e2 + a3j�e3, para j = 1, 2, 3,

las coordenadas (x1, x2, x3) de un punto cualquiera P en el sistema X

y las coordenadas (y1, y2, y3) del mismo punto en el sistema Y están

relacionadas como sigue:⎡⎢⎢⎢⎢⎣x1

x2

x3

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎣a11 a12 a13

a21 a22 a23

a31 a32 a33

⎤⎥⎥⎥⎥⎦⎡⎢⎢⎢⎢⎣

y1

y2

y3

⎤⎥⎥⎥⎥⎦ = A

⎡⎢⎢⎢⎢⎣y1

y2

y3

⎤⎥⎥⎥⎥⎦ ,

donde A = [aij ] es la matriz de transición (o matriz de cambio de base)

de B a B′.

Demostración.Queda como ejercicio para el lector.

Page 307: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 291

5.6.3.1 Cambio de dirección de ejes en R3 conservando el mis-

mo origen

Consideremos que el sistema coordenado X (en R3) es rectangular ytiene unidades iguales sobre sus tres ejes, lo que significa que �e1, �e2 y �e3,que son los vectores base (unitarios), son perpendiculares entre sí.

Sea �e ′1, �e ′

2 y �e ′3 la base ortonormal del sistema Y. Denotemos los

productos puntos entre las dos bases por

aij = 〈�ei, �e ′j〉.

Por ejemplo, a1j = 〈�e1, �e′j〉, a2j = 〈�e2, �e

′j〉 y a3j = 〈�e3, �e

′j〉 son las tres

componentes de �e ′j con respecto a la base anterior �e1, �e2, �e3 y podemos

poner

�e ′j = a1j�e1 + a2j�e2 + a3j�e3, j = 1, 2, 3.

Como �e ′j es también vector unitario, se tiene que

aij = cos �(�ei, �e′j) (5.81)

y

a21j + a2

2j + a23j = 1, j = 1, 2, 3.

Además, como �e ′1, �e ′

2, �e ′3 son ortogonales por pares, es decir 〈�e ′

i , �e′j〉 = 0,

i �= j, se obtiene que

a1ja1k + a2ja2k + a3ja3k = 0, 1 ≤ j < k ≤ 3.

5.6.3.2 Fórmulas de Euler

Euler introdujo en mecánica del sólido rígido unas fórmulas que per-miten fijar la posición del segundo sistema coordenado con relación alprimero, empleando únicamente tres coordenadas angulares, las cuales sedenominan ángulos de Euler.

Los movimientos resultantes de variar uno de los ángulos de Euler de-jando fijos los otros dos, se llaman “rotaciones de Euler” y tienen nombresparticulares: precesión, rotación intrínseca y nutación.

Estas rotaciones no son ni intrínsecas ni extrínsecas en su totalidad,sino una mezcla de ambas nociones. La precesión es extrínseca, la rotación

Page 308: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

292 5. Formas bilineales

intrínseca naturalmente intrínseca, y la nutación es una rotación interme-dia alrededor de la intersección de los planos elegidos, la cual se denomina“línea de nodos”. Estas rotaciones son commutativas.

Sean X1, X2, X3 los ejes del sistema coordenado X y representemospor Y1, Y2, Y3 los ejes del sistema de referencia móvil. Se desea definiruna transformación ortogonal Y = QtX, que exprese las coordenadas(y1, y2, y3) de un punto arbitrario en términos de sus coordenadas iniciales(x1, x2, x3). Para formular analíticamente esta transformación, se pasarádel sistema de referencia de ejes ortogonales X a otro sistema de referenciacon origen común Y mediante tres cambios sucesivos, conservando la or-togonalidad. En cada cambio, se asumirá que se tiene en común con elsistema precedente un eje y el plano opuesto. De esta manera, no se e-xigirán más que las fórmulas correspondientes al cambio de ejes situadosen el mismo plano.

Figura 5.4: Rotación en R3.

10. Se obtienen unos nuevos ejes W1, W2, W3 ≡ X3 rotando el plano quecontienen los vectores �e1 y �e2 del sistema X un ángulo ϕ alrededordel eje X3, en sentido contrario al de las manecillas del reloj. Por el

Page 309: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 293

Teorema 5.22, se tiene que las coordenadas de un punto en ambossistemas están relacionadas por

x1 = w1 cos ϕ − w2 sen ϕ,

x2 = w1 sen ϕ + w2 cos ϕ, (5.82)

x3 = w3.

Al expresar dicha rotación en forma matricial, se obtiene⎡⎣w1

w2

w3

⎤⎦ =

⎡⎣ cos ϕ sen ϕ 0− sen ϕ cos ϕ 0

0 0 1

⎤⎦⎡⎣x1

x2

x3

⎤⎦ = Rϕ

⎡⎣x1

x2

x3

⎤⎦ .

20. Se generan otros nuevos ejes Z1 ≡ W1, Z2, Z3 rotando el planodeterminado por los ejes W2 y W3 un ángulo θ alrededor del eje W1,lo que hará tomar al eje X3 la posición Y3 y al W2 la Z2. Luego, porel Teorema 5.22, se deduce que las coordenadas de transformaciónde un punto, serán

w1 = z1,

w2 = z2 cos θ − z3 sen θ, (5.83)

w3 = z2 sen θ + z3 cos θ.

Si se expresa (5.83) en forma matricial, se tiene que⎡⎣z1

z2

z3

⎤⎦ =

⎡⎣1 0 00 cos θ sen θ0 − sen θ cos θ

⎤⎦⎡⎣w1

w2

w3

⎤⎦ = Rθ

⎡⎣w1

w2

w3

⎤⎦ .

30. Finalmente, se rota alrededor del eje Z3 ≡ Y3 el plano que contienea los dos ejes Z2 y Z3 hasta que formen un ángulo ψ, así quedaráW1 en Y1 y Z2 en Y2 y por el Teorema 5.22, las coordenadas de unpunto en ambos sistemas están relacionadas por

z1 = y1 cos ψ − y2 sen ψ,

z2 = y1 sen ψ + y2 cos ψ, (5.84)

z3 = y3.

Al expresar (5.84) en forma matricial, se obtiene⎡⎣y1

y2

y3

⎤⎦ =

⎡⎣ cos ψ sen ψ 0− sen ψ cos ψ 0

0 0 1

⎤⎦⎡⎣z1

z2

z3

⎤⎦ = Rψ

⎡⎣z1

z2

z3

⎤⎦ .

Page 310: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

294 5. Formas bilineales

La eliminación de los sistemas coordenados W y Z en las ecuacio-nes (5.82), (5.83) y (5.84) dará la transformación del producto Y = RX,mediante la matriz R = RψRθRϕ de rotación en R3 que representa latransformación de coordenadas desde el sistema fijo al sistema móvil,

R =

⎡⎣ cos ψ sen ψ 0− sen ψ cos ψ 0

0 0 1

⎤⎦⎡⎣1 0 00 cos θ sen θ0 − sen θ cos θ

⎤⎦⎡⎣ cos ϕ sen ϕ 0− sen ϕ cos ϕ 0

0 0 1

⎤⎦ =

⎡⎣ cosψ cosϕ− senψ senϕ cos θ senψ cosϕ cos θ + senϕ cosψ senψ sen θ

− senψ cosϕ− senϕ cosψ cos θ cosψ cosϕ cos θ − senψ senϕ cosψ sen θ

senϕ sen θ − cosϕ sen θ cos θ

⎤⎦ ;

los ángulos ϕ, θ, ψ deben escogerse en el intervalo[−π

2 , π2]

y se conocencomo ángulos eulerianos. Nótese que el determinante de esta matriz es

det(R) = det(RψRθRϕ) = det(Rψ) det(Rθ) det(Rϕ) = 1.

Luego, esta matriz es ortogonal.

La comparación de los elementos de la matriz RψRθRϕ con las ex-presiones dadas en (5.81) permiten obtener esos nueve cosenos en funciónde las constantes ϕ, θ y ψ.

ObservacionesPara determinar los ángulos eulerianos ϕ, θ y ψ, se comparan los

elementos de Qt = [cij ] con los de RψRθRϕ (donde las columnas de Qson los vectores propios normalizados de la matriz simétrica asociada ala forma cuadrática) y se tiene en cuenta que:

1. Si c33 �= 1, entonces los ángulos eulerianos se pueden determinar dela siguiente manera:

cos θ = c33, tanψ =c13

c23y tanϕ = − c31

c32.

2. Cuando c33 = 1, entonces θ = 0 y la matriz de rotación RψRθRϕ

tiene la forma

RψRθRϕ =

⎡⎣ cos(ψ + ϕ

)sen

(ψ + ϕ

)0

− sen(ψ + ϕ

)cos

(ψ + ϕ

)0

0 0 1

⎤⎦ ,

en este caso,

tan(ψ + ϕ

)= −c21

c11.

Aquí, los ángulos ψ y ϕ se escogen arbitrariamente.

Page 311: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 295

3. Si la suma de los cuadrados de los elementos de la diagonal principalde la matriz de rotación RψRθRϕ es igual a 1, entonces, el ánguloθ satisface que

cos θ =2 tanϕ tanψ ±

√(sec2 ϕ + sec2 ψ

)(sec2 ϕ tan2 ψ + sec2 ψ tan2 ϕ

)1 + tan2 ϕ tan2 ψ + sec2 ϕ sec2 ψ

.

En el último caso, como la tangente de π2 no está definida, cuando

uno de los ángulos ϕ ó ψ sea igual a ±π2 , se tiene que

cos θ =

⎧⎪⎪⎨⎪⎪⎩1√

tan2 ψ + sec2 ψsi ϕ → (±π

2

)1√

tan2 ϕ + sec2 ϕsi ψ → (±π

2

),

y si uno de los ángulos ϕ ó ψ es igual a cero, entonces

cos θ =

⎧⎪⎪⎪⎨⎪⎪⎪⎩∣∣tanψ

∣∣√1 + sec2 ψ

si ϕ = 0∣∣tanϕ∣∣√

1 + sec2 ϕsi ψ = 0.

Ejemplo 5.23 Determine los ángulos eulerianos de la ecuación cuadrá-

tica dada en el Ejemplo 5.21.

Solución.La matriz ortogonal asociada a la forma cuadrática era

Q =

⎡⎣ −1/√

2 1/√

3 1/√

6

0 −1/√

3 2/√

6

1/√

2 1/√

3 1/√

6

⎤⎦ .

Al comparar los elementos de Qt con las de RψRθRϕ, se tiene que

cos θ =1√6, tanψ =

√3

2y tanϕ = − 1

2. (5.85)

Se debe escoger una solución de (5.85) para la cual los ángulos eulerianosse encuentren dentro del intervalo

[−π2 , π2

]. En este caso, los ángulos θ, ψ

y ϕ valen, aproximadamente, 65◦54′18.57′′, 50◦46′6.53′′ y −26◦33′54.18′′.

Page 312: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

296 5. Formas bilineales

Ejemplo 5.24 Determine los ángulos eulerianos de la ecuación cuadrá-

tica dada en el Ejemplo 5.22.

Solución.La matriz ortogonal asociada a la forma cuadrática era

Q =

⎡⎣ −1/√

6 1/√

2 −1/√

3

1/√

6 1/√

2 1/√

3

2/√

6 0 −1/√

3

⎤⎦ .

Si se comparan los elementos de Qt con los de RψRθRϕ, se tiene que

cos θ = − 1√3, tanψ = indefinida y tanϕ = 1. (5.86)

Se debe escoger una solución de (5.86) para la cual los ángulos eulerianosse encuentren dentro del intervalo

[−π2 , π2

], en este caso, los ángulos θ, ψ

y ϕ valen, aproximadamente, 125◦15′51.8′′, 90◦ y 45◦.

5.6.4 Clasificación de las superficies cuádricas

Para la superficie cuádrica

ax2 + by2 + cz2 + dxy + exz + fyz + gx + hy + iz + j = 0, (5.87)

se establecen las siguientes cantidades

A =

⎡⎣ a d2

e2

d2 b f

2e2

f2 c

⎤⎦ ,

ω = tr(A),

μ =3∑

i=1Mii(A),

ν = detA,

δ = det

⎡⎢⎢⎣ A... �K

. . . . . . .

�Kt... j

⎤⎥⎥⎦ ,

donde �Kt =[g2

h2

i2

]y ω, μ, ν son los coeficientes de PA

(λ). Luego,

si λ1, λ2, λ3 son los valores propios de A, entonces la ecuación cuádri-ca (5.87) representa los siguientes lugares geométricos (L.G.):

Page 313: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

5.6. Aplicaciones a la geometría analítica 297

L.G.

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

ν �= 0

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

δ

ν�= 0� δ

ν< 0

⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎩

λ1 > 0, λ2 > 0, λ3 > 0 Un elipsoide

λ1 > 0, λ2 > 0, λ3 < 0Un hiperboloide

de una hoja

λ1 > 0, λ2 < 0, λ3 < 0Un hiperboloide

de dos hojas

λ1 < 0, λ2 < 0, λ3 < 0 Conjunto vacío

δ

ν= 0

{λ1, λ2, λ3 tienen el mismo signo. Un punto

λ1, λ2, λ3 tienen signos distintos. Un cono

ν = 0�λ3 = 0

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

�I = 0

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎩

δ

ν′�= 0

⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩λ1 > 0, λ2 > 0

Un cilindro

elíptico

λ1 > 0, λ2 < 0Un cilindro

hiperbólico

λ1 < 0, λ2 < 0 Conjunto vacío

δ

ν′= 0

{λ1λ2 > 0 Una recta

λ1λ2 < 0 Dos planos que se cortan

�I �= 0

{λ1λ2 > 0 Un paraboloide elíptico

λ1λ2 < 0 Un paraboloide hiperbólico

ν = 0�λ1 �= 0

⎧⎪⎪⎨⎪⎪⎩�I = 0 y �H = 0

{ δ

ν∗λ1 > 0 Conjunto vacío

δ

ν∗λ1 < 0 Dos planos paralelos

δ

ν∗�= 0 y/o �H �= 0 Un cilindro parabólico,

donde

δ

ν= j −

3∑i=1

1

λi

(�Kt �wi

)2,

δ

ν ′ = j −2∑

i=1

1

λi

(�Kt �wi

)2,

I = �Kt �w3, H = �Kt �w2,

aquí �wi es el vector propio de A asociado al valor propio λi. Cuando δ �= 0,estas superficies pueden ser clasificadas teniendo en cuenta la inercia dela matriz simétrica A como sigue:

Identificación de las superficies cuádricas

Inercia Nombre de la superficieIn(A) = (3, 0, 0) ElipsoideIn(A) = (2, 1, 0) Hiperboloide de una hojaIn(A) = (1, 2, 0) Hiperboloide de dos hojasIn(A) = (2, 0, 1) Paraboloide elípticoIn(A) = (1, 1, 1) Paraboloide hiperbólicoIn(A) = (1, 0, 2) Cilindro parabólico

Page 314: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

298 5. Formas bilineales

Ejercicios 5.5

1. Determine la sección cónica y el ángulo de rotación para:

a. 4x2 + 4xy + y2 = 9.

b. 36x2 + 9y2 + 4z2 − 36 = 0.

c. x2 + 8xy + 16y2 − 4x + 16y = −7.

d. x2 + 2xy + y2 + 2x + 2y = −1.

e. 4x2 − 20xy + 25y2 + 4x − 10y = −1.

f. 4x2 − 4xy + y2 − 6x + 3y = 4.

g. 9x2 − 24xy + 16y2 − 20x + 110y = 50.

h. 6x2 + 3y2 − 2z2 + 12x − 18y − 8z = −7.

i. 2x2 + 2y2 + 5z2 − 4xy + 2xz − 2yz + 10x − 26y − 2z = 0.

2. Sea A la representación matricial de la ecuación cuadrática (5.58)

con f �= 0. Sean λ1 y λ2 los valores propios de A. Demuestre que la

curva que describe (5.58) es:

a. Una hipérbola si λ1λ2 < 0.

b. Un par de rectas o una parábola si λ1λ2 = 0.

c. Un circulo, elipse o sección cónica degenerada si λ1λ2 > 0.

3. Sean:

A =

⎡⎢⎣a b2

b2 c

⎤⎥⎦ y B =

⎡⎢⎣x y2

y2 z

⎤⎥⎦ ,

demuestre que si ba− c

= yx− z

, entonces AB = BA.

Page 315: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 6

Formas hermíticas

En el capítulo anterior se desarrolló la teoría para formas cuadráticascon matriz asociada simétrica real. En este capítulo se consideran for-mas cuadráticas pero con matriz asociada compleja. Se estudia el casocomplejo independientemente del caso real, ya que si se asume �X ∈ C2

y se obtiene la expresión ‖ �X‖2 = �Xt �X, de manera análoga al productoescalar estándar de R2, se llega a resultados ilógicos. Por ejemplo, parael vector no nulo �Xt =

(a, bi

), se tiene que

�Xt �X = a2 + b2i2 = a2 − b2;

este producto puede ser cero si a = b ó a = −b, hecho que contradicela propiedad (v) del producto escalar estándar en Rn (ver Capítulo 1).Este hecho induce a la redefinición de formas cuadráticas para el casocomplejo.

6.1 Forma hermítica

Definición 6.1 Forma sesquilineal

Sea V un espacio vectorial de dimensión finita sobre el cuerpo com-

plejo C. Una forma sesquilineal es una función g : V × V → C tal que

(i) g(α�u1 + β�u2, �v

)= αg

(�u1, �v

)+ βg

(�u2, �v

)299

Page 316: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

300 6. Formas hermíticas

(ii) g(�u, α�v1 + β�v2

)= αg

(�u,�v1

)+ βg

(�u,�v2

),

donde α, β ∈ C y �ui, �vj ∈ V.

Como en la Definición 5.1, la condición (ii) se interpreta como que g eslineal en la segunda variable. Por otra parte, expresamos la condición (i)diciendo que g es lineal conjugada en la primera variable. En el resto deesta sección se omitirá el adjetivo “sesquilineal”, salvo que sea importantetenerlo en cuenta.

Definición 6.2 Sea g : V × V → C una forma sobre V, entonces g es

hermítica, si para todo �v, �w ∈ V, se cumple que:

g(�v, �w

)= g(�w,�v). (6.1)

Ejemplo 6.1 Sea g : Cn × Cn → R definida por

g(

�X, �Y)

= �XHA�Y ,

donde �X y �Y ∈ Cn y A es una matriz hermitiana. Verifique si la apli-

cación g define una forma hermítica sobre Cn.

Solución.

(i) Para todo �X1, �X2 y �Y ∈ Cn, se tiene que

g(

�X1 + �X2, �Y)

=(

�X1 + �X2

)HA�Y =

(�XH

1 + �XH2

)A�Y

= �XH1 A�Y + �XH

2 A�Y = g(

�X1, �Y)

+ g(

�X2, �Y).

(ii) Para todo β ∈ C, �X y �Y ∈ Cn, se tiene que

g(

�X, β�Y)

= �XHA(β�Y

)= β �XHA�Y

= β �XHA�Y = βg(

�X, �Y).

Así, la aplicación g es lineal en la segunda variable. Además,

g(

�X, �Y)

=(

�XHA�Y)

=(

�XHA�Y)t

= �Y HAH �X = �Y HA �X = g(�Y , �X

).

Por lo tanto, g es una forma hermítica sobre Cn.

Page 317: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6.1. Forma hermítica 301

Teorema 6.1 Sean V un espacio vectorial complejo y g una forma ses-

quilineal sobre V tal que g(�u, �u) sea real para todo �u ∈ V. Entonces, g es

hermítica.

Demostración.Sean �u,�v ∈ V y g una forma sesquilineal sobre V tal que g(�u, �u) sea

real para todo �u ∈ V. Se debe probar que g(�u,�v) = g(�v, �u). En efecto,

g(�u + �v, �u + �v) = g(�u, �u) + g(�u,�v) + g(�v, �u) + g(�v,�v).

Como por hipótesis g(�u+�v, �u+�v), g(�u, �u) y g(�v,�v) son reales, el númerog(�u,�v) + g(�v, �u) es real. De manera análoga, se tiene

g(�u + i�v, �u + i�v) = g(�u, �u) + ig(�u,�v) − ig(�v, �u) + g(�v,�v).

Por el mismo razonamiento anterior, vemos que ig(�u,�v) − ig(�v, �u) es re-al. Al concluir que estos dos números son reales, se pueden igualar suscomplejos conjugados y se obtiene

g(�u,�v) + g(�v, �u) = g(�u,�v) + g(�v, �u) (6.2)

ig(�u,�v) − ig(�v, �u) = − ig(�u,�v) + ig(�v, �u). (6.3)

Al multiplicar (6.3) por (−i) y sumarla a la expresión (6.2), se llega a

2g(�u,�v) = 2g(�v, �u).

Por lo tanto, se satisface (6.1).

Teorema 6.2 Sea V un espacio vectorial de dimensión finita sobre C.

Sea g una forma hermitiana sobre V. Entonces, existe una matriz única

hermitiana A, tal que para todo �u,�v ∈ V,

gA(�u,�v) = �uHA�v. (6.4)

Demostración.La prueba es completamente análoga a la del Teorema 5.1 y se deja

como ejercicio para el lector.

Page 318: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

302 6. Formas hermíticas

Teorema 6.3 Identidad de polarización

Sea g una forma hermitiana sobre un espacio vectorial complejo V,

entonces para todo �u,�v ∈ V, se cumple que

gA(�u + �v, �u + �v

)− gA(�u − �v, �u − �v

)= 2

[gA(�u,�v) + gA(�v, �u)

]. (6.5)

Demostración.La verificación de esta identidad se hace en forma trivial, solo desa-

rrollando el miembro izquierdo que aparece en (6.5).

Teorema 6.4 Sea V como antes. Si g es una forma hermitiana tal que

gA(�v,�v) = 0 para todo �v ∈ V, entonces A = O .

Demostración.Por el Teorema 6.3, para todo �u,�v ∈ V, se tiene que

gA(�u + �v, �u + �v) − gA(�u − �v, �u − �v) = 2[gA(�u,�v) + gA(�v, �u)

].

Luego, si g es tal que gA(�v,�v) = 0 para todo �v ∈ V, el miembro izquierdode la identidad de polarización es igual a 0, de donde se obtiene que

gA(�u,�v) + gA(�v, �u) = 0, (6.6)

para todo �u,�v ∈ V. Si se reemplaza �u por i�u, entonces se tiene que

gA(i�u,�v

)+ gA

(�v, i�u

)= −igA

(�u,�v

)+ igA

(�v, �u

)= 0.

Así,−gA(�u,�v) + gA(�v, �u) = 0. (6.7)

Si se restan las relaciones (6.6) y (6.7), se obtiene

2gA(�u,�v) = 0.

Por lo tanto, gA(�u,�v) = 0. Luego, A = O . Como se quería demostrar.

Teorema 6.5 Una matriz compleja A de tamaño n × n representa una

forma hermítica si y solo si es una matriz hermitiana.

Page 319: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6.2. Forma cuadrática compleja 303

Demostración.Supóngase que A es hermitiana. Como para todo �X, �Y ∈ Cn, la

matriz �XHA�Y es una matriz de 1×1, es decir, un elemento de R, entonceses igual a su propia transpuesta conjugada. Por lo tanto,

�XHA�Y =(

�XHA�Y)t

= �Y tAt �X = �Y HAH �X = �Y HA �X,

así que A representa una forma hermitiana.Recíprocamente, supóngase que A representa una forma hermítica; es

decir,

gA(

�X, �Y)

= gA(�Y , �X

), (6.8)

para todo �X, �Y ∈ Cn. Como

gA(�Y , �X

)= �Y HA �X =

(�Y HA �X

)t= �XHAH �Y , (6.9)

al comparar (6.8) y (6.9), se tiene que

gA(

�X, �Y)

= �XtA�Y = �XtAH �Y . (6.10)

Como (6.10) se cumple para todo �X, �Y ∈ Cn, se concluye que A = AH ,es decir, A es hermitiana.

6.2 Forma cuadrática compleja

En esta sección se estudian las formas cuadráticas F ( �X) = �XHA �X, endonde A es una matriz compleja de tamaño n × n y la variable �X seescoge en Cn. Como en la práctica, generalmente uno solo se preocupa delas formas cuadráticas F ( �X) = �XHA �X que toman únicamente valoresreales, en este apartado se asumirá que la matriz A asociada a la formaes hermitiana. Cabe notar que en los casos en que F ( �X) es compleja, porlo general solo se puede estudiar la parte real de F ( �X).

Definición 6.3 Forma cuadrática compleja

Sea V un espacio vectorial de dimensión finita sobre los números com-

plejos. Sea g : V × V → R una forma hermítica sobre V. Entonces, una

Page 320: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

304 6. Formas hermíticas

forma cuadrática hermítica o forma cuadrática compleja determinada por

g es una función F : V → R, tal que

F (�v) = gA(�v,�v) = �vHA�v. (6.11)

La matriz A se llama la representación matricial de la forma cuadrática

compleja.

Ejemplo 6.2 Producto hermítico canónico

Sea V = Cn y considere la forma cuadrática compleja determinada

por el producto escalar sobre Cn:

F (�v) = |z1|2 + |z2|2 + . . . + |zn|2,

donde |zi|2 = zizi. Exprese esta forma cuadrática compleja como �vHA�v.

Solución.Vamos a determinar la matriz compleja A = [aij ] de la forma hermíti-

ca g, de tal forma que

F (�v) = �vHA�v =n∑

i=1

n∑j=1

aijzizj . (6.12)

Es decir, se quieren encontrar los valores de aij , de manera que

n∑i=1

n∑j=1

aijzizj =n∑

i=1

|zi|2.

Como la matriz A es hermitiana, aij = aji. Por lo tanto, la forma cuadráti-ca compleja dada en (6.12) se puede expresar como

n∑i=1

n∑j=1

aijzizj =

n∑i=1

aii|zi|2 +

n− 1∑i=1

n∑j > i

aijzizj +

n− 1∑i=1

n∑j > i

aij zizj , (6.13)

y si se comparan términos, se establecen las siguientes relaciones:

n∑i=1

aii|zi|2 =n∑

i=1

|zi|2 yn− 1∑i=1

n∑j > i

aijzizj +n− 1∑i=1

n∑j > i

aij zizj = 0.

Page 321: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6.3. Diagonalización de una forma hermítica 305

Pero como en la función F (�v) no aparecen términos de la forma zizj ,entonces

aij =

{1 si i = j,0 si i �= j.

Luego, A = In y, por lo tanto, F (�v) se puede expresar como �vHIn�v.

Ejemplo 6.3 Sea V = C3 y F ( �X) = |x1|2 − ix1x2 + ix2x1 − x1x3 −x3x1 − 2ix2x3 + 2ix3x2. Exprese esta forma hermítica como �XHA �X.

Solución.Si se utiliza el resultado obtenido en (6.13), para n = 3, se tiene que

�XHA �X =3∑

i=1

aii|xi|2 +2∑

i=1

3∑j > i

aijxixj +2∑

i= 1

3∑j > i

aijxixj .

Al resolver esta suma y comparar los aij con los coeficientes de la funciónF ( �X), se obtiene la matriz

A =

⎡⎣ 1 −i −1i 0 −2i

−1 2i 0

⎤⎦ ,

la cual permite expresar a F ( �X) de la forma �XHA �X.

6.3 Diagonalización de una forma hermítica

Teorema 6.6 Sea F ( �X) una forma cuadrática compleja asociada a una

matriz hermítica A. Sea L una matriz compleja triangular inferior tal que

A se pueda factorizar como LDLH . El cambio de coordenadas

�Z = LH �X (6.14)

transforma a �XHA �X en �ZHD�Z.

Page 322: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

306 6. Formas hermíticas

Demostración.La matriz A asociada a la forma se puede factorizar como

A = LDU.

Como A es hermítica, por el Teorema 3.5, U = LH . Por lo tanto,

�XHA �X = �XH(LDLH

)�X puesto que A = LDLH

=(

�XHL)D(LH �X

)=

(LH �X

)HD(LH �X

)= �ZHD�Z puesto que �Z = LH �X.

Así, queda probado el teorema.

A continuación, se presenta una versión de este método de diagonaliza-ción:

Procedimiento para diagonalizar una forma hermítica

i) Halle la matriz de coeficientes hermítica A asociada a F ( �X).

ii) Obtenga la descomposición LDLH de A sin efectuar inter-cambios de filas que destruyan el hecho de que aij = aji y conelementos en D = diag{d11, d22, . . . , dnn} tales que dii ∈ R

no necesariamente distintos de cero. Además, det(L) = 1.

iii) Transforme a F ( �X) en d11|z1|2+d22|z2|2+ . . .+dnn|zn|2, bajoel cambio de coordenadas �Z = LH �X.

Ejemplo 6.4 Considere la ecuación cuadrática compleja:

|x1|2 − ix1x2 + ix2x1 − x1x3 − x3x1 − 2ix2x3 + 2ix3x2 = 9. (6.15)

Encuentre una diagonalización para esta forma hermítica, usando el mé-

todo descrito anteriormente.

Solución.En el Ejemplo 6.3, se obtuvo que la forma cuadrática hermítica aso-

ciada

|x1|2 − ix1x2 + ix2x1 − x1x3 − x3x1 − 2ix2x3 + 2ix3x2

Page 323: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6.3. Diagonalización de una forma hermítica 307

se puede expresar matricialmente como

�XHA �X = [x1 x2 x3]

⎡⎣ 1 −i −1i 0 −2i

−1 2i 0

⎤⎦⎡⎣x1

x2

x3

⎤⎦ . (6.16)

La factorización LDLH de la matriz asociada a la forma hermítica es⎡⎣ 1 −i −1i 0 −2i−1 2i 0

⎤⎦ =

⎡⎣ 1 0 0i 1 0−1 −i 1

⎤⎦⎡⎣1 0 00 −1 00 0 0

⎤⎦⎡⎣1 −i −10 1 i0 0 1

⎤⎦ ,

de modo que

F ( �X) = �XH

⎡⎣ 1 −i −1i 0 −2i−1 2i 0

⎤⎦ �X

= �XH

⎡⎣ 1 0 0i 1 0−1 −i 1

⎤⎦⎡⎣1 0 00 −1 00 0 0

⎤⎦⎡⎣1 −i −10 1 i0 0 1

⎤⎦ �X

si se hace

�Z =

⎡⎣z1

z2

z3

⎤⎦ = LH �X =

⎡⎣1 −i −10 1 i0 0 1

⎤⎦ �X.

Nótese que det(L) = 1. Por lo tanto, el cambio de variables

z1 = x1 − ix2 − x3, z2 = x2 + ix3 y z3 = x3

permite expresar a F ( �X) de la siguiente manera:

F (�Z) = |z1|2 − |z2|2 = 9,

y al reescribir (6.15), se tiene que

|z1|2 − |z2|2 = 9,

la cual corresponde a la ecuación de una “hipérbola” sobre los ejes z1 yz2.

Page 324: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

308 6. Formas hermíticas

Teorema 6.7 Teorema de los ejes principales

Sea F ( �X) una forma hermítica asociada a una matriz hermitiana A

con valores propios (no necesariamente distintos) λ1, λ2, . . . , λn. Sea U

una matriz unitaria que diagonaliza a A. El cambio de coordenadas:

�X = U �Z (6.17)

transforma a �XHA �X en �ZHD�Z, donde la matriz diagonal

D = UHAU = diag{λ1, λ2, . . . , λn}.Demostración.

La demostración consiste en un cálculo directo

�XHA �X = (U �Z)HA(U �Z) puesto que �X = U �Z

= (�ZH UH)A(U �Z)

= �ZH(UHAU)�Z = �ZHD�Z puesto que U diagonaliza a A.

A continuación, se presentan los pasos a seguir para determinar la diago-nalización de una forma hermitiana mediante este método:

Procedimiento para diagonalizar una forma hermítica

i) Halle la matriz de coeficientes hermitiana A asociada a F ( �X).

ii) Encuentre los valores propios (no necesariamente distintos),λ1, λ2, . . . , λn de A.

iii) Encuentre una base ortonormal para Cn formada por los vec-tores propios normalizados de A.

iv) Forme la matriz U cuyas columnas sean los vectores de la basehallada en el paso iii) en el orden correspondiente al listado delos valores propios en el paso ii). La transformación �X = U �Zes una rotación si ‖det(U)‖ = 1.

v) Transforme a F ( �X) en λ1|z1|2 + λ2|z2|2 + . . . + λn|zn|2.

Page 325: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6.3. Diagonalización de una forma hermítica 309

Ejemplo 6.5 Considere la ecuación cuadrática compleja dada en el

Ejemplo 6.4. Determine la “superficie” cuadrática obtenida al eliminar

los términos de productos cruzados.

Solución.En el Ejemplo 4.6, se obtuvo que la matriz A asociada a la forma

cuadrática compleja era diagonalizable mediante la matriz unitaria

U =

⎡⎣ 1/√

3 0 2/√

6

i/√

3 1/√

2 −i/√

6

−1/√

3 −i/√

2 1/√

6

⎤⎦ .

Luego,

UHAU =

⎡⎣3 0 00 −2 00 0 0

⎤⎦ .

Por consiguiente, (6.16) se puede escribir en términos de las nuevas va-riables z1, z2, z3 como �ZHD�Z, es decir,

3|z1|2 − 2|z2|2 = 9, (6.18)

donde

�Z =

⎡⎣z1

z2

z3

⎤⎦ = UH �X =

⎡⎣ 1/√

3 −i/√

3 −1/√

3

0 1/√

2 i/√

2

2/√

6 i/√

6 1/√

6

⎤⎦⎡⎣x1

x2

x3

⎤⎦ , (6.19)

y reescribiendo (6.18), se obtiene

1

3|z1|2 − 1

9/2|z2|2 = 1,

la cual corresponde a la ecuación de una “hipérbola” sobre los ejes z1 yz2.

Definición 6.4 Forma polar de una forma hermitiana

Dada F una forma cuadrática compleja, se puede obtener una forma

hermítica g de F de acuerdo con la siguiente identidad llamada la forma

polar de g:

g(�u,�v) =1

4

[F (�u + �v) − F (�u − �v)

]+

i

4

[F (�u + i�v) − F (�u − i�v)

]. (6.20)

Page 326: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

310 6. Formas hermíticas

6.4 Clasificación de formas cuadráticas comple-

jas

Definición 6.5 Una forma cuadrática compleja F ( �X) = �XHA �X asocia-

da a una matriz A �= O, es

1. Definida positiva si F ( �X) > 0 para todo �X �= �0 en Cn.

2. Definida negativa si F ( �X) < 0 para todo �X �= �0 en Cn.

3. Indefinida si F ( �X) asume ambos valores positivos y negativos.

4. Semidefinida positiva si F ( �X) ≥ 0 para todo �X ∈ Cn.

5. Semidefinida negativa si F ( �X) ≤ 0 para todo �X ∈ Cn.

La matriz hermitiana asociada A se denomina definida positiva, semidefi-

nida positiva, definida negativa, semidefinida negativa o indefinida según

sea la forma cuadrática compleja F ( �X) que define.

Ejemplo 6.6 Verifique si la forma hermítica dada en el Ejemplo 6.2 es

definida positiva.

Solución.La forma F (�v) dada en el Ejemplo 6.2 es definida positiva ya que para

todo �v �= �0:

F (�v) = �vH�v =n∑

i=1

zizi =n∑

i=1

|zi|2 > 0,

donde �vH = (z1, z2, . . . , zn)t y zi ∈ C.

Page 327: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6.5. Orden parcial entre matrices 311

6.5 Orden parcial entre matrices

Dadas dos matrices, además de combinarlas haciendo operaciones entreellas (suma, resta, multiplicación), las podemos comparar para ordenarlaso clasificarlas. Una comparación que surgió en secciones anteriores fue versi eran semejantes. En esta sección se hablará de un orden “parcial” entrematrices semidefinidas positivas.

Definición 6.6 Orden entre matrices

Sean A y B matrices hermitianas de tamaño n×n. Se escribe A � B si

la matriz A − B es semidefinida positiva. Similarmente, A � B significa

que la matriz A − B es definida positiva.

Teorema 6.8 Si A y B son matrices hermitianas de tamaño n × n,

entonces:

A �B implica que THAT �THBT

para toda T ∈ Mnn.

Demostración.Si A − B es semidefinida positiva, entonces �Y H

(A − B

)�Y ≥ 0 para

todo �Y ∈ Cn. Así,

�XH(THAT − THBT

)�X =

(T �X

)H(A − B

)(T �X

) ≥ 0

para todo �X ∈ Cn, lo cual, a su vez, significa que THAT � THBT.

Corolario 6.8.1 Si A y B son matrices de tamaño n × n definidas po-

sitivas, entonces:

a) Si A � B, entonces λk(A) ≥ λk(B) para todo k = 1, 2, . . . , n si los

respectivos valores propios se colocan en el mismo orden (creciente

o decreciente).

Page 328: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

312 6. Formas hermíticas

b) Si A � B, entonces det A ≥ detB y tr(A) ≥ tr(B).

c) A � B si y solo si B−1 � A−1.

Demostración.Queda como ejercicio para el lector.

Ejemplo 6.7 Dadas las siguientes matrices:

A =

⎡⎢⎢⎢⎢⎣7 1 2

1 7 2

2 2 10

⎤⎥⎥⎥⎥⎦ y B =

⎡⎢⎢⎢⎢⎣2 2 1

2 5 2

1 2 2

⎤⎥⎥⎥⎥⎦ ,

muestre que A es más positiva que B.

Solución.Primero, se obtiene la matriz C = A − B:

C =

⎡⎣ 5 −1 1−1 2 01 0 8

⎤⎦ .

Los valores propios de esta matriz son

λ1 = 5, λ2 = 5 +√

11, λ3 = 5 −√

11,

como todos los valores propios son positivos, entonces C es definida po-sitiva y, por lo tanto, A es más positiva que B.

Ejercicios 6.1

1. Reduzca las siguientes formas complejas a una forma diagonal:

a) 2|x1|2 + (1 − i)x1x2 + (1 + i)x2x1 + 3|x2|2 = 4.

b) |x1|2−ix1x2+ix2x1+x1x3+x3x1−ix2x3+ix3x2−2|x3|2 = 5.

Page 329: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

6.5. Orden parcial entre matrices 313

2. Considere las matrices asociadas a cada una de las formas cuadráti-

cas complejas del Ejercicio 1. Determine qué tipo de matrices son

(definida positiva o definida negativa).

3. Sea A una matriz hermítica cuadrada de tamaño 3 × 3. Supóngase

que Δ1 > 0, Δ2 < 0 y Δ3 > 0. Muestre que A tiene un valor propio

positivo y dos negativos.

4. Sea A cualquier matriz compleja no singular. Muestre que B =

AHA es hermítica y definida positiva.

5. Muestre que si A es una matriz hermítica cuadrada de tamaño n×n

definida positiva con valores propios λ1 ≥ λ2 ≥ . . . ≥ λn > 0 y B

es una submatriz principal de A de tamaño k × k, entonces

k∏j=1

λn−j+1 ≤ det B ≤k∏

j=1

λj .

6. Sean A y B matrices hermíticas cuadradas de tamaño n × n con

valores propios λ1 ≥ λ2 ≥ . . . ≥ λn y μ1 ≥ μ2 ≥ . . . ≥ μn, respec-

tivamente. Sean σ1 ≥ σ2 ≥ . . . ≥ σn los valores propios de A + B.

Para 1 ≤ k ≤ n, demuestre que

max{λk + μn, λn + μk

} ≤ σk ≤ max{λk + μ1, λ1 + μk

}.

Page 330: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 331: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 7

Normas matriciales

En este capítulo se intenta medir la sensibilidad o la “vulnerabilidad” dela solución de un sistema no singular de ecuaciones lineales A �X = �b. Enotras palabras, se quiere medir qué tan grande es el efecto en �X = A−1�bsi se cambian ligeramente las componentes de A y �b. Es decir, se debeencontrar una manera de medir el cambio ΔA y definir la “longitud” deuna matriz, pues para vectores ya sabemos cómo obtener su longitud yahora necesitamos un concepto análogo para matrices.

7.1 Definición y resultados básicos

Definición 7.1 Norma de una matriz

Sea Mnn el espacio de las matrices de tamaño n×n con componentes

reales (complejas). Una norma de matriz ‖·‖ de Mnn en R es una función

que satisface para toda A, B ∈ Mnn los cinco axiomas siguientes:

(1) ‖A‖ ≥ 0 No negativa

(2) ‖A‖ = 0 si y solo si A = 0 Positiva

(3) ‖cA‖ = |c|‖A‖ para todo escalar c Homogénea

315

Page 332: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

316 7. Normas matriciales

(4) ‖A + B‖ ≤ ‖A‖ + ‖B‖ Desigualdad triangular

(5) ‖AB‖ ≤ ‖A‖ ‖B‖ Submultiplicativa.

Teorema 7.1 Sea ‖ · ‖ cualquier norma matricial, entonces:

1. ‖In‖ ≥ 1, donde In es la matriz identidad de tamaño n × n.

2. ‖A−1‖ ≥ ‖In‖‖A‖ para cualquier matriz A ∈ Mnn no singular.

3.∥∥Ak

∥∥ ≤ ‖A‖k para cualquier matriz A ∈ Mnn y todo k ≥ 2.

Demostración.

1. Queda como ejercicio para el lector.

2. Puesto que AA−1 = In, entonces

‖In‖ = ‖AA−1‖ ≤ ‖A‖ ‖A−1‖ por propiedad (5).

Pero como ‖A‖ > 0, se tiene que

‖A−1‖ ≥ ‖In‖‖A‖ .

3. La demostración es por inducción sobre k. El resultado es trivialpara k = 2, puesto que por la propiedad submultiplicativa

‖A2‖ ≤ ‖A‖ ‖A‖ = ‖A‖2.

Supongamos que se ha demostrado para cualquier k = m, es decir

‖Am‖ ≤ ‖A‖m.

Luego, ‖Am+1‖ = ‖AmA‖ y, por la propiedad submultiplicativa,se tiene

‖AmA‖ ≤ ‖Am‖‖A‖ ≤ ‖A‖m‖A‖ = ‖A‖m+1.

Page 333: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.2. Tipos de normas matriciales 317

7.2 Tipos de normas matriciales

Las normas que se consideran en esta sección son algunas de las normasque se pueden emplear en el espacio de matrices Mnn análogas a lasnormas de los espacios vectoriales.

Teorema 7.2 Norma L1

Dada la matriz A = [aij ], la función ‖ · ‖ : Mnn → R definida por

‖A‖1 =n∑

i,j=1

|aij |

es una norma de matriz.

Demostración.Los axiomas de (1) − (3) se satisfacen fácilmente de la definición de

valor absoluto, se demostrará, por lo tanto, que se cumplen los axiomas(4) y (5).

(4) Para la desigualdad triangular se tiene

‖A + B‖1 =n∑

i,j=1

|aij + bij | ≤n∑

i,j=1

(|aij | + |bij |)

=n∑

i,j=1

|aij | +n∑

i,j=1

|bij | = ‖A‖1 + ‖B‖1.

Por lo tanto, se cumple el axioma (4).

(5) Puesto que AB = C = [cij ] =n∑

k=1

aik bkj , entonces

‖AB‖1 =n∑

i,j=1

∣∣∣∣∣n∑

k=1

aik bkj

∣∣∣∣∣ ≤n∑

i,j,k=1

|aik bjk| ≤n∑

i,j,k,m=1

|aik bmj |

=

[n∑

i,k=1

|aik|][

n∑j,m=1

|bmj |]

= ‖A‖1 ‖B‖1.

En la verificación de este axioma, la primera desigualdad se obtienede la generalización de la desigualdad triangular y la segunda, delos términos adicionales a la suma.

Page 334: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

318 7. Normas matriciales

Por consiguiente, ‖A‖1 sí es una norma matricial.

Ejemplo 7.1 Norma euclideana (L2)

Determine si la norma L2 definida por

‖A‖2 =

(n∑

i,j=1

|aij |2) 1

2

es una norma de matriz.

Solución.Fácilmente se puede probar que los axiomas de (1)− (3) se satisfacen.

Por lo tanto, veamos si se cumplen los axiomas (4) y (5):

(4) ‖A + B‖22 =

n∑i,j=1

|aij + bij |2 ≤n∑

i,j=1

(|aij |2 + 2|aij | |bij | + |bij |2)

=n∑

i,j=1

|aij |2 + 2n∑

i,j=1

|aij bij | +n∑

i,j=1

|bij |2

≤[(

n∑i,j=1

|aij |2) 1

2

+

(n∑

i,j= 1

|bij |2) 1

2]2

= (‖A‖2 + ‖B‖2)2 .

Luego, se cumple el axioma (4).

(5) ‖AB‖22 =

n∑i,j=1

∣∣∣∣∣n∑

k=1

aik bkj

∣∣∣∣∣2

≤n∑

i,j=1

[(n∑

k=1

|aik|2)(

n∑m=1

|bmj |2)]

=

(n∑

i,k=1

|aik|2)(

n∑j,m=1

|bmj |2)

= ‖A‖22 ‖B‖2

2.

Esta desigualdad es justo la desigualdad de Cauchy-Schwarz. Por consi-guiente, ‖ · ‖2 sí es una norma.

Ejemplo 7.2 Norma L∞

Determine si la función ‖ · ‖ : Mnn → R definida por

‖A‖∞ = n max1≤i,j≤n

|aij |

Page 335: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.2. Tipos de normas matriciales 319

es una norma de matriz.

Solución.Los axiomas de (1) − (3) se satisfacen fácilmente de la definición de

máximo. Se probará si se cumplen los axiomas (4) y (5):

(4) ‖A + B‖∞ = n max1≤i,j≤n

|aij + bij | ≤ n max1≤i,j≤n

(|aij | + |bij |)= n max

1≤i,j≤n|aij | + n max

1≤i,j≤n|bij | = ‖A‖∞ + ‖B‖∞.

Por lo tanto, se cumple el axioma (4).

(5) ‖AB‖∞ = n max1≤i,j≤n

∣∣∣∣∣n∑

k=1

aik bkj

∣∣∣∣∣ ≤ n max1≤i,j≤n

n∑k=1

|aik bkj |

≤ n max1≤i,j≤n

n∑k=1

‖A‖∞n

‖B‖∞n

= ‖A‖∞ ‖B‖∞.

Por consiguiente, ‖A‖∞ sí es una norma.

Definición 7.2 Norma matricial inducida

Sea ‖ · ‖ una norma vectorial sobre Cn. Se define ‖ · ‖in sobre Mnn

por

‖A‖in = max‖�x‖=1

‖A�x‖ = max�x �=�0

‖A�x‖‖�x‖ . (7.1)

Las letras “in” en la norma es la abreviación de la frase “norma inducida”.

Teorema 7.3 Norma espectral

La norma espectral ‖ · ‖S se define sobre Mnn por

‖A‖S = σ1 = max{σi : σi es un valor singular de A}. (7.2)

Demostración.De la ecuación (7.1), se tiene que

‖A‖2in = max

�x �=�0‖A�x‖2

‖�x‖2= max

�x �=�0

{(A�x)H(A�x)

�xH�x

}.

Page 336: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

320 7. Normas matriciales

Luego, si AHA�x = σ2�x, se obtiene

‖A‖2in = max

�x �=�0

{�xH(AHA�x)

�xH�x

}= max

�x �=�0

{σ2�xH�x

�xH�x

}= σ2

máx

como AHA es una matriz hermitiana, sus valores propios son reales.

Definición 7.3 Radio espectral

El radio espectral r(A) de una matriz A ∈ Mnn es definido por la

cantidad:

r(A) = max{‖λ‖ : λ es un valor propio de A

},

donde ‖λ‖ es el valor absoluto o módulo de λ.

Ejemplo 7.3 Obtenga la norma espectral y el radio espectral de la ma-

triz:

A =

⎡⎢⎣ 3 1

1 3

⎤⎥⎦ .

Solución.Como la matriz A es simétrica, sus valores singulares y sus valores

propios son iguales, es decir, σ1 = λ1 = 4 y σ2 = λ2 = 2. Por lo tanto,

‖A‖S = 4 y r(A) = 4.

Teorema 7.4 Sea A ∈ Mnn y ‖·‖ cualquier norma de matriz, entonces:

r(A) ≤ ‖A‖.Demostración.

Supóngase que A�x = λ�x, �x �= �0 y que |λ| = r(A). Sea X ∈ Mnn lamatriz cuyas columnas son todas iguales a �x, entonces AX = λX. Luego,si ‖ · ‖ es cualquier norma de matriz, se tiene que

‖AX‖ ≤‖A‖ ‖X‖‖λX‖ ≤‖A‖ ‖X‖

‖λ‖ ‖X‖ ≤‖A‖ ‖X‖.Por consiguiente, ‖λ‖ = r(A) ≤ ‖A‖.

Page 337: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.2. Tipos de normas matriciales 321

Ejercicios 7.1

1. Calcule para cada una de las siguientes matrices la norma espectral

y el radio espectral:

a.

⎡⎢⎣ 1 1

−1 3

⎤⎥⎦ . b.

⎡⎢⎣1 1

3 −1

⎤⎥⎦ . c.

⎡⎢⎣ 1 −1

−1 3

⎤⎥⎦ .

d.

⎡⎢⎢⎢⎢⎣1 3 −2

3 1 2

−1 1 1

⎤⎥⎥⎥⎥⎦ . e.

⎡⎢⎢⎢⎢⎣3 −1 4

−4 1 −5

5 3 2

⎤⎥⎥⎥⎥⎦ .

2. Muestre que A y At tienen el mismo radio espectral y la misma

norma espectral.

3. Si A es una matriz simétrica de tamaño n×n, muestre que su norma

espectral coincide con su radio espectral.

4. Si A es una matriz hermitiana de tamaño n × n, muestre que la

norma espectral y el radio espectral son iguales.

Teorema 7.5 Lema de Banach

Sea A una matriz real de tamaño n×n y sea ‖·‖ una norma matricial

sobre Mnn. Suponiendo que ‖A‖ < 1, entonces In − A es no singular y

1

1 + ‖A‖ ≤∥∥∥(In − A

)−1∥∥∥ ≤ 1

1 − ‖A‖ .

Demostración.La matriz In−A es no singular si y solo si la única solución del sistema

homogéneo(In−A

)�x = �0 es �x = �0. Suponga entonces que

(In−A

)�x = �0

de modo que �x = A�x. Entonces, se tiene que

‖�x‖ = ‖A�x‖ ≤ ‖A‖‖�x‖.

Page 338: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

322 7. Normas matriciales

Pero como ‖A‖ < 1, entonces hay una contradicción a menos que �x = �0,como se ha tratado probar. Así que

(In − A

)−1 existe, se denotará conR. Luego,

In = R(In − A

)= R − RA. (7.3)

Por lo tanto,

1 = ‖In‖ =∥∥R

(In − A

)∥∥ ≤ ‖R‖ ‖In + (−A)‖ ≤ ‖R‖ (1 + ‖A‖) ,

de manera que ‖R‖ ≥ 1/ (1 + ‖A‖) como se afirmó. De la expresión (7.3),R = In + RA, así que

‖R‖ = ‖In + RA‖ ≤ 1 + ‖RA‖ ≤ 1 + ‖R‖‖A‖.

Por consiguiente, ‖R‖ ≤ (1 − ‖A‖)−1

, lo cual completa la prueba.

Ejemplo 7.4 Para la siguiente matriz:

A =1

10

⎡⎢⎣ 11 −6

8 9

⎤⎥⎦determine las cotas superior e inferior del lema de Banach.

Solución.La matriz A se puede escribir como A = I − B, en donde

B =1

10

[−1 6−8 1

].

Como se puede emplear cualquier norma matricial, usando la norma es-pectral, se tiene que

‖B‖S =7 +

√2

10< 1.

El lema de Banach dice que A = I − B es no singular, y por lo tanto

10

17 +√

2≤ ∥∥A−1

∥∥S≤ 10

3 −√2.

El lema de Banach dice que matrices suficientemente “cercanas” aIn son no singulares. El teorema siguiente es una generalización de estehecho.

Page 339: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.2. Tipos de normas matriciales 323

Teorema 7.6 Inversas perturbadas

Sean A y B matrices de tamaño n×n siendo A no singular y sea ‖ · ‖una norma matricial sobre Mnn. Defínase α =

∥∥A−1B∥∥ o α =

∥∥BA−1∥∥ .

Si α < 1 (es decir en especial si ‖B‖ < 1/∥∥A−1

∥∥), entonces A − B

también es no singular y∥∥A−1∥∥

1 + α≤

∥∥∥(A − B)−1∥∥∥ ≤

∥∥A−1∥∥

1 − α.

Demostración.Supongamos que

∥∥A−1B∥∥ < 1. El otro caso es semejante. Como A−1

existe, se puede escribir A − B como

A(In − A−1B

)= A

(In − R

),

donde R = A−1B. Por hipótesis, ‖R‖ = α < 1, de modo que al aplicarel lema de Banach, se obtiene que In − R es no singular, como lo es A.Luego,

A(In − R

)= A − B (7.4)

es también no singular y(A − B

)−1=

[A(In − R

)]−1=

(In − R

)−1A−1.

Por lo tanto,∥∥∥(A − B)−1

∥∥∥ ≤∥∥∥(In − R

)−1∥∥∥∥∥A−1

∥∥ ≤∥∥A−1

∥∥1 − α

.

Por el lema de Banach, esta es la cota superior que se deseaba. Paraobtener la cota inferior, se reescribe (7.4) como

A−1 = (In − R)(A − B

)−1,

de lo cual se deduce que

‖A−1‖ ≤ ‖In − R‖∥∥∥(A − B)−1

∥∥∥ ≤ (1 + α)∥∥∥(A − B)−1

∥∥∥ .

Al dividir por (1 + α), se obtiene la cota inferior que se buscaba.

Page 340: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

324 7. Normas matriciales

7.3 Condición de sistemas de ecuaciones lineales

El concepto de condición es importante en todas las matemáticas apli-cadas. Si “pequeños cambios en los datos” de un problema producen cam-bios razonablemente pequeños en su solución, se dice que el problemaestá bien planteado. Si “pequeños cambios en los datos” de algún proble-ma ocasionan cambios inaceptablemente grandes en la solución, se diceque el problema está mal planteado. La razón de la importancia de esteconcepto debería ser evidente: en los problemas aplicados, casi siemprelos datos son inexactos por errores de medición y de modelamiento, y escrucial conocer los efectos que tienen las inexactitudes en los datos sobrela solución del problema.

Definición 7.4 Sistema de ecuaciones de mal comportamiento

Un sistema de ecuaciones lineales

A �X = �b (7.5)

con A una matriz de tamaño n × n, �X ∈ Rn y �b ∈ Rn, se dice que

es un sistema de mal comportamiento si las n columnas de la matriz

son casi linealmente dependientes o, en otras palabras, si la matriz de

los coeficientes es casi singular. Esto significa que un cambio pequeño en

algunos elementos de A produce una matriz singular.

Definición 7.5 Número de condición

Sea A una matriz no singular real de tamaño n × n, el número de

condición se define como

κ(A)

= ‖A‖S‖A−1‖S =σmaxσmin

, (7.6)

donde, σmax y σmin son los valores singulares más grande y más pequeño,

respectivamente, asociados a A.

Page 341: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.3. Condición de sistemas de ecuaciones lineales 325

Teorema 7.7 Sea A no singular y sea ‖ · ‖ una norma matricial sobre

Mnn. La sensibilidad de la solución de un sistema de ecuaciones lineales

A�x = �b

con respecto a la perturbación ΔA en A se relaciona directamente con el

número de condición. En otras palabras, si

�y resuelve a (A + ΔA) �y =�b.

Entonces, el cambio en la solución satisface que

‖�y − �x‖‖�y‖ ≤ ακ(A),

en donde α = ‖ΔA‖ / ‖A‖ es el error relativo en A.

Demostración.Puesto que la solución del sistema perturbado es �y, entonces

(A + ΔA) �y −�b = �0

A�y + ΔA�y − A�x = �0

A (�y − �x) = − ΔA�y

�y − �x = A−1 (−ΔA�y) .

Luego, si ‖ · ‖ es cualquier norma matricial, se tiene que

‖�y − �x‖ =∥∥−A−1ΔA�y

∥∥ ≤ ∥∥A−1ΔA∥∥ ‖�y‖

≤ ∥∥A−1∥∥ ‖ΔA‖ ‖�y‖ ,

como se quería.

Ejemplo 7.5 Resuelva el sistema de ecuaciones:

(1 + ε)x1 + x2 = 2, x1 + x2 = 1,

Page 342: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

326 7. Normas matriciales

con ε ∈ R y en las fórmulas que obtenga para x1 y x2, sustituya:

(i) ε = 0. 01, 0. 02 y (ii) ε = 2. 01, 2. 04.

Compare los cambios en porcentaje del coeficiente de x1 en la primera

ecuación, en los casos (i) y (ii), con los cambios en porcentaje de la

correspondiente solución de x1.

Solución.Aplicando el método de eliminación de Gauss, se obtiene[

1 + ε 1 | 21 1 | 1

]∼

F1 −F2

[ε 0 | 11 1 | 1

].

Esto conduce a x1 = 1ε

y x2 = 1 − 1ε, (ε �= 0)

(i) (ii)

ε 0.01 0.02 2.01 2.04

Solución (100,−99) (50,−49)(

100201 , 101

201

) (2551 , 26

51

)El cambio en porcentaje del coeficiente de x1 es 1 % con una cifra decimalen cada caso.La solución de x1 en (i) varía en un 50 % y en (ii) en un 1.47 %. Esto indicaque cuando ε es pequeño, las “ecuaciones son de mal comportamiento”.

Un modo sencillo de probar si un sistema de ecuaciones es de malcomportamiento consiste, precisamente, en proceder como lo hicimos enel ejemplo anterior, esto es, efectuar un pequeño cambio en algunos co-eficientes para ver qué efectos se producen en la solución, pero esto esdifícil de hacer cuando se trata de un sistema de ecuaciones muy grande.Existe un método que nos da una indicación de cuándo se presenta el malcomportamiento, usando la Definición 7.5.

El número de condición nos da una regla práctica para determinar siun sistema de ecuaciones es de mal comportamiento:

Si 0 ≤κ(A) ≤ 100 siempre el sistema es bien condicionado,

100 <κ(A) ≤ 1000 a veces el sistema es mal condicionado,

1000 <κ(A)

siempre el sistema es mal condicionado.

Page 343: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.3. Condición de sistemas de ecuaciones lineales 327

Ejemplo 7.6 Determine el número de condición de la matriz asociada

al sistema de ecuaciones del ejemplo anterior.

Solución.Como la matriz asociada al sistema es simétrica, su norma espectral

coincide con su radio espectral; luego, se necesitan los valores propios dela matriz A. En este caso, el polinomio característico de A es

pA(λ) = λ2 − (2 + ε) λ + ε,

de donde los valores propios son

λ1 = 1 +1

2ε +

1

2

√4 + ε2 y λ2 = 1 +

1

2ε − 1

2

√4 + ε2.

Luego, el número de condición de la matriz A es

κ(A)

=1

ε

(1 +

1

2ε +

√1 +

(1

2ε)2

)2

.

Para los valores de ε dados en el Ejemplo 7.5, se tiene que

(i) (ii)

ε 0. 01 0. 02 2. 01 2. 04

κ(A)

402. 01 202. 02 5. 8285 5. 8292

Ejemplo 7.7 Suponga que la matriz de covarianza de un experimento

con tres variables x1, x2 y x3 es:

S =1

10

⎡⎢⎢⎢⎢⎣4 1 1

1 3 2

1 2 3

⎤⎥⎥⎥⎥⎦ .

Encuentre el número de condición.

Page 344: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

328 7. Normas matriciales

Solución.Como S es simétrica, entonces su norma espectral coincide con su

radio espectral; por lo tanto, se necesitan los valores propios de la matrizS. En este caso, el polinomio característico de S es

pS(λ) = −λ3 + λ2 − 27

100λ +

9

500,

de donde los valores propios son

λ1 =3

5, λ2 =

3

10y λ3 =

1

10.

Luego, el número de condición es

κ(A) =λ1

λ3=

3/5

1/10= 6.

Como κ(A)

es pequeño(< 100

), significa que cambios pequeños en los

datos producen cambios razonablemente pequeños en la estimación de lamatriz de covarianza.

Teorema 7.8 Sea A no singular y sea ‖ · ‖ una norma matricial sobre

Mnn. La sensibilidad de la solución de un sistema de ecuaciones lineales

A�x = �b

con respecto a la perturbación Δ�b en �b se relaciona directamente con el

número de condición. En otras palabras, si

A�y =�b + Δ�b con

∥∥Δ�b∥∥∥∥�b∥∥ ≤α,

entonces el cambio en la solución satisface que

‖�y − �x‖‖�x‖ ≤ ακ(A),

en donde α = ‖ΔA‖ / ‖A‖ es el error relativo en A.

Page 345: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.3. Condición de sistemas de ecuaciones lineales 329

Demostración.Puesto que la solución del sistema perturbado es �y, entonces

A�y = �b + Δ�b

A�y − A�x − Δ�b = �0

A (�y − �x) = Δ�b

�y − �x = A−1Δ�b.

Luego, si ‖ · ‖ es cualquier norma matricial, se tiene que

‖�y − �x‖ =∥∥∥A−1Δ�b

∥∥∥ ≤ ∥∥A−1∥∥∥∥∥Δ�b

∥∥∥≤ α

∥∥A−1∥∥∥∥�b∥∥.

Pero como �b = A�x, se tiene que∥∥�b∥∥ ≤ ‖A‖ ‖�x‖ . Entonces,

‖�y − �x‖ ≤ακ(A) ‖�x‖ .

Así, se completa la prueba.

Definición 7.6 Índice de condición

Sea A una matriz real de tamaño n × n, el índice de condición se

define como

IC(A)

=√

κ(A), (7.7)

donde κ(A)

es el número de condición de A.

Teorema 7.9 Sea A no singular y sea ‖ · ‖ una norma matricial sobre

Mnn. Suponga que �x resuelve a A�x = �b mientras que

�y = �x + Δ�x resuelve a (A + ΔA) �y = �b + Δ�b,

para ciertas perturbaciones ΔA y Δ�x en los datos. Suponga que la per-

turbación ΔA es lo suficientemente pequeña como para que α < 1, en

Page 346: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

330 7. Normas matriciales

donde α =∥∥(ΔA) A−1

∥∥ o α =∥∥A−1 (ΔA)

∥∥ . Entonces, el cambio Δ�x en

la solución satisface

‖Δ�x‖‖�x‖ ≤ κ(A)

1 − α

(‖Δ�b‖‖�b‖

+‖ΔA‖‖A‖

),

en donde κ(A) es el número de condición de A.

Demostración.Si 0 < α < 1, el Teorema 7.6 implica que A + ΔA es no singular y

da una cota para la norma de su inversa. Como A + ΔA es no singular,la solución �y al problema perturbado existe. De hecho, Δ�x resuelve elsistema

(A + ΔA) Δ�x = �b + Δ�b − A�x − ΔA�x = Δ�b − ΔA�x.

Denotando B = −ΔA y despejando Δ�x se tiene que

Δ�x =(A − B

)−1(Δ�b + B�x

).

Al aplicar la norma a ambos lados y usando al lado izquierdo la cotasuperior dada en el Teorema 7.6, se obtiene que

(1 − α) ‖Δ�x‖ ≤ ∥∥A−1∥∥∥∥∥Δ�b + B�x

∥∥∥≤ ∥∥A−1

∥∥(∥∥∥Δ�b∥∥∥ + ‖B‖ ‖�x‖

).

Por lo tanto, al reemplazar B se llega a

‖Δ�x‖‖�x‖ ≤

∥∥A−1∥∥

1 − α

⎛⎝∥∥∥Δ�b

∥∥∥‖�x‖ + ‖ΔA‖

⎞⎠ .

Puesto que �b = A�x, esto implica que∥∥�b∥∥ ≤ ‖A‖ ‖�x‖ . Al sustituir, se tiene

que

‖Δ�x‖‖�x‖ ≤

∥∥A−1∥∥

1 − α

⎛⎝∥∥∥Δ�b

∥∥∥∥∥�b∥∥ ‖A‖ + ‖ΔA‖⎞⎠

≤ κ(A)

1 − α

⎛⎝∥∥∥Δ�b

∥∥∥∥∥�b∥∥ +‖ΔA‖‖A‖

⎞⎠ ,

lo cual completa la demostración.

Page 347: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

7.3. Condición de sistemas de ecuaciones lineales 331

Ejemplo 7.8 Considere el sistema de ecuaciones:

x1 + 6x2 = 0, 6x1 + 46x2 = 20, (7.8)

que tiene la solución exacta x1 = −12, x2 = 2. ¿El sistema está bien

condicionado o mal condicionado?

Solución.Para determinar si el sistema de ecuaciones dado en (7.8) es estable,

se calcula el número de condición por medio de la ecuación dada en (7.6).Si se expresa matricialmente (7.8), se tiene que[

1 66 46

] [x1

x2

]=

[020

]. (7.9)

Como la matriz del sistema es simétrica y definida positiva, su normaespectral coincide con su radio espectral; por lo tanto, se necesitan losvalores propios de la matriz A. En este caso, el polinomio característicoes

pA(λ) = λ2 − 47λ + 10,

de donde los valores propios son

λmax =47

2+

3

2

√241 y λmin =

47

2− 3

2

√241.

Luego, el número de condición es

κ(A)

=λmaxλmin

=1

10

(47

2+

3

2

√241

)2

=1

20

(2189 + 141

√241

) ≈ 218.9.

En este caso, como κ(A)

es muy grande (> 100), se dice que el sistemano es estable.

Ejercicios 7.2

1. Encuentre para cada una de las siguientes matrices su número de

condición y una matriz singular cercana:

a.

⎡⎢⎣0.89 0.53

0.47 0.28

⎤⎥⎦ . b.

⎡⎢⎣1 0

0 1k

⎤⎥⎦ . c.

⎡⎢⎢⎢⎢⎣1.1 2.1 3.1

1.0 −1.0 2.0

0.2 3.3 1.4

⎤⎥⎥⎥⎥⎦ .

Page 348: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

332 7. Normas matriciales

2. Si A es una matriz simétrica real de tamaño n× n, muestre que su

número de condición es

κ(A)

=|λmax||λmin| ,

donde |λmax| y |λmin| son los absolutos de los valores propios aso-

ciados a A más grande y más pequeño, respectivamente.

3. Sea A la matriz:

A =

⎡⎢⎣1 k

0 1

⎤⎥⎦ , por lo tanto A−1 =

⎡⎢⎣1 −k

0 1

⎤⎥⎦ .

Si se emplea la norma ‖ · ‖1 o la norma ‖ · ‖∞, se obtiene que:

‖A‖ = ‖A−1‖ = 2 + k para k ≥ 0.

Luego, el número de condición κ(A) = (2 + k)2 es grande para

k grande. Sin embargo, si se considera el sistema de ecuaciones

A�x = �b, siendo

�b =

⎡⎢⎣1

1

⎤⎥⎦ , se tiene que �x =

⎡⎢⎣1 − k

1

⎤⎥⎦ .

Mientras que si solo se altera a �b por medio de δ1, δ2 (�= 0) a

�b + Δ�b =

⎡⎢⎣1 + δ1

1 + δ2

⎤⎥⎦ , entonces Δ�x =

⎡⎢⎣δ1 − kδ2

δ2

⎤⎥⎦ .

Encuentre una cota para ‖Δ�x‖/‖�x‖ en términos de ‖Δ�b‖/‖�b‖ me-

diante la norma 1 o la norma ∞ para probar que este problema está

bien condicionado, a pesar de que el número de condición de A es

grande.

Page 349: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 8

Matrices idempotentesy productos especiales

En este capítulo se enuncian algunos teoremas concernientes a un tipoespecial de matriz, la matriz idempotente y algunos productos matricialesespeciales. En muchas aplicaciones estadísticas1 se incluyen este tipo dematrices y productos, por ello se dedica este capítulo de manera exclusivaal tratamiento de dichas matrices y productos.

8.1 Definición y propiedades

En el Capítulo 5, cuando trabajamos las formas cuadráticas, una de lascondiciones que pusimos fue que la matriz asociada fuera simétrica. En elestudio de análisis de varianza, la matriz asociada a la forma cuadráticaademás de ser simétrica resulta ser idempotente (véase Ejemplo 5.5 yproblema 6 de los Ejercicios 5.1).

Definición 8.1 Matriz idempotente

Una matriz cuadrada A se dice que es idempotente si cumple que

A = A2.

1 Véase Capítulo 10.

333

Page 350: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

334 8. Matrices idempotentes y productos especiales

Teorema 8.1 Los valores propios de una matriz simétrica e idempotente

son cero o uno.

Demostración.Si A es simétrica, sus valores propios son reales. Sea λ un valor propio

de A, entonces existe un vector �v �= �0 tal que A�v = λ�v. Al premultiplicarambos lados por A, se tiene que

A2�v = λA�v = λ2�v.

Como A es idempotente, entonces A2�v = A�v = λ�v, luego

λ�v = λ2�v

(λ2 − λ)�v = �0.

Pero �v �= �0, así que λ2 − λ debe ser cero. Por lo tanto, λ = 0 o λ = 1.El recíproco del Teorema 8.1 no es cierto, véase el siguiente ejemplo.

Ejemplo 8.1 Dada la matriz:

A =1

2

⎡⎢⎢⎢⎢⎣2 1 1

0 1 −1

2 1 1

⎤⎥⎥⎥⎥⎦ ,

obtenga los valores propios y verifique si At = A y A2 = A.

Solución.En este caso, los valores propios de A son λ1 = 1 de multiplicidad

algebraica 2 y λ2 = 0. Pero At �= A y A2 �= A, ya que

A2 =

⎡⎣1 12

12

0 12 −1

21 1

212

⎤⎦⎡⎣1 12

12

0 12 −1

21 1

212

⎤⎦ =

⎡⎣ 32 1 1

2−1

2 0 −12

32 1 1

2

⎤⎦ .

Por lo tanto, si los valores propios de una matriz son 0 y 1, no implicaque la matriz sea simétrica e idempotente.

Teorema 8.2 Si A es una matriz simétrica, idempotente y no singular,

entonces A = In.

Page 351: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.1. Definición y propiedades 335

Demostración.Si A es idempotente, entonces AA = A. Multiplicando ambos lados

por A−1, se tiene lo que se quería demostrar.

Teorema 8.3 Si A es idempotente, entonces In − A es idempotente.

Demostración.Queda como ejercicio para el lector.

Teorema 8.4 Sea A una matriz simétrica e idempotente de tamaño n×n

con rango r, entonces existe una matriz ortogonal Q de tamaño n × n y

una matriz R∗ de tamaño n × n tal que

A = QR∗ y R∗Q =

⎡⎢⎢⎢⎢⎣Ir

... O

. . . · . . .

O... O

⎤⎥⎥⎥⎥⎦ ,

donde Ir es la matriz identidad de tamaño r × r.

Demostración.Por el Teorema 3.33, la matriz A se puede factorizar como sigue

A = USV t,

donde U y V son matrices ortogonales de tamaño n×n y S es una matrizdiagonal de tamaño n × n con r elementos iguales a uno y los elementosrestantes n − r de la diagonal iguales a cero.

Puesto que A2 = A, se tiene que

USV tUSV t = USV t,

de lo cual se obtiene que

SV tUS = S o SV tU = Ir.

Tomando R∗ = SV t y Q = U , se llega a

A = QR∗ con R∗Q = Ir.

Page 352: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

336 8. Matrices idempotentes y productos especiales

Teorema 8.5 Toda matriz cuadrada real A de tamaño n × n que pueda

expresarse en la forma:

A = QQt, (8.1)

donde Q es una matriz real de tamaño n × m (m < n) con columnas

ortonormales en Rm, satisface lo siguiente:

(1) A es simétrica e idempotente.

(2) A(In − A

)=

(In − A

)A = O .

(3)(In − A

)Q = O .

Demostración.

(1) Si A = QQt, entonces

At =(QQt

)t=

(Qt

)tQt = QQt = A

A2 =(QQt

)(QQt

)= Q

(QtQ

)Qt = QImQt = QQt = A.

(2) A(In − A

)= A − A2 = O, e igual para el otro caso.

(3)(In − A

)Q = Q − (

QQt)Q = Q − QIm = O .

Ejemplo 8.2 Encuentre una factorización QR de la matriz:

A =1

3

⎡⎢⎢⎢⎢⎣2 −1 −1

−1 2 −1

−1 −1 2

⎤⎥⎥⎥⎥⎦ .

Solución.Denotemos las columnas de A por

�x1 = − 1

3

⎡⎣−211

⎤⎦ , �x2 = − 1

3

⎡⎣ 1−21

⎤⎦ , �x3 = − 1

3

⎡⎣ 11

−2

⎤⎦ .

Page 353: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.1. Definición y propiedades 337

Apliquemos el algoritmo de Gram-Schmidt al conjunto {�x1, �x2, �x3}, elcual es una base para el espacio generado por las columnas de A. Como

‖�x1‖ = 13

√6, se hace �v1 =

�x1

‖�x1‖ = − 1√6

⎡⎣−211

⎤⎦ . Por otra parte,

�v′2 = �x2 − (�x2 · �v1)�v1 =1

3

⎡⎣−12

−1

⎤⎦ +1

2

1

3

⎡⎣ 2−1−1

⎤⎦ =3

6

⎡⎣ 01−1

⎤⎦ .

Entonces,∥∥�v′2∥∥ = 1

2

√2 y �v2 = 1√

2

⎡⎣ 01

−1

⎤⎦ . Por último,

�v′3 = �x3 − (�x3 · �v1)�v1 − (�x3 · �v2)�v2 =

⎡⎣−13

−1323

⎤⎦ +1

6

⎡⎣ 2−1−1

⎤⎦ +1

2

⎡⎣ 01

−1

⎤⎦ =

⎡⎣ 000

⎤⎦ ;

esto sucede porque �v3 es una combinación lineal de �v1 y �v2. Se puedeverificar que �v1 y �v2 forman una base ortonormal para el espacio generadopor las columnas de A, ya que �v1 · �v2 = 0. Entonces, formamos la matriz

Q =[�v1 �v2

]=

1√6

⎡⎣ 2 0

−1√

3

−1 −√3

⎤⎦ .

Luego, la matriz R es

R = QtA =1√6

[2 −1 −1

0√

3 −√3

]⎡⎣ 23 −1

3 −13

−13

23 −1

3−1

3 −13

23

⎤⎦=

1√6

[2 −1 −1

0√

3 −√3

].

Nótese que R = Qt, por lo tanto, la matriz A es idempotente.

Definición 8.2 Matriz de Householder

Una matriz de Householder viene dada por

H(�v)

= In − 2�v�vt, (8.2)

donde �v ∈ Rn y �vt�v = 1.

Page 354: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

338 8. Matrices idempotentes y productos especiales

Teorema 8.6 Las matrices de Householder son simétricas y ortogonales.

Demostración.Veamos primero que H

(�v)

es simétrica[H

(�v)]t

=[In − 2�v�vt

]t= In − 2�v�vt = H

(�v).

Ahora, se mostrará que[H

(�v)]t

H(�v)

= In[H

(�v)]t

H(�v)

=[In − 2�v�vt

]2= In − 4�v�vt + 4�v�vt�v�vt

= In − 4�v�vt + 4�v�vt = In,

y se tiene lo que se quería demostrar.

8.1.1 Factorización QR por reflexiones de Householder

Una secuencia de transformaciones de Householder puede utilizarse paracalcular la “factorización QR” de una matriz A = [aij ] de tamaño m×n,ya que es posible escoger la matriz de Householder de manera que el vectorelegido quede con una única componente no nula tras ser transformado(es decir, premultiplicando por la matriz de Householder). La manera deconstruir la matriz de Householder es la siguiente:

Sean �x ∈ Rm y �e1 el primer vector unitario de Rm, entonces se define

�u = �x − s‖�x‖�e1, s = sgn(x1

)(8.3)

H(�v)

= Im − 2�v�vt �v =�u

‖�u‖ ,

donde sgn(·) denota la función signo y x1 es el primer elemento de �x.Nótese que �v es un vector unitario, luego H

(�v)

es una matriz de House-holder y satisface que

�xtH(�v)

= �xt − �ut = s||�x||�et1H

(�v)(

A)·k =

(A)·k − βk�u,

donde(A)·k denota la k-ésima columna de A y

βk =αk||�x|| con αk =

�xt(A)·k − s||�x||a1k

||�x|| − ∣∣x1

∣∣ .

Este algoritmo se puede emplear para transformar gradualmente los vec-tores columna de la matriz A en una matriz triangular superior. En primer

Page 355: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.1. Definición y propiedades 339

lugar, se premultiplica A por la matriz de Householder Q1 = H(�v), que

se obtiene eligiendo �x =(A).1. Esto produce una matriz Q1A con ceros

en la primera columna (excepto el primer elemento de la fila).

Q1A = H(�v) [(

A).1

(A).2

. . .(A).n

]=

[s||�x||�e1

(A).2− β2�u . . .

(A).n− βn�u

]=

⎡⎢⎢⎢⎣s||�x|| r12 . . . r1n

0...0

⎡⎣ A2

⎤⎦⎤⎥⎥⎥⎦ .

El procedimiento se puede repetir para A2 (la cual se forma eliminandola primera fila y columna de A, respectivamente), obteniéndose así unanueva matriz de Householder Q′

2. Puesto que Q′2 es de tamaño menor

que Q1, para lograr que esta matriz opere con Q1A en lugar de A2, senecesita aumentarla hacia arriba a la izquierda, colocando un uno en ladiagonal, o en general

Qk =

[Ik−1 0

0 Q′k

].

Si se repite el proceso r veces, donde r = mın{m − 1, n}, entonces

R = Qr · · ·Q2Q1A,

es una matriz triangular superior. Luego, tomando

Q = Q1Q2 · · ·Qr,

se llega a A = QR: la descomposición QR de la matriz A.Este método tiene una estabilidad numérica mayor que la del méto-

do de Gram-Schmidt empleado anteriormente. Aunque cabe aclarar queencontrar la factorización QR de una matriz de tamaño m× n medianteeste método es extenso si se hace a mano.

Ejemplo 8.3 Encontrar la descomposición QR de la matriz dada en el

Ejemplo 8.2 mediante el uso de matrices de Householder.

Page 356: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

340 8. Matrices idempotentes y productos especiales

Solución.Para encontrar la primera matriz de Householder, se emplea la pri-

mera columna de la matriz A, es decir,(A)·1 = 1

3 (2,−1,−1)t . Luego,

�x =(A)·1 =

1

3(2,−1,−1)t y ||�x|| =

1

3

√6.

Usando la expresión (8.3), se tiene que

�u =1

3

(2 −

√6,−1,−1

)ty �v =

1

2√

3 −√6

(2 −

√6,−1,−1

)t,

entonces

Q1 = H(�v)

= I3 − 2

4(3 −√6)

⎡⎣ 2 −√6

−1−1

⎤⎦ [2 −√

6 −1 −1]

= I3 − 1

6

⎡⎣6 − 2√

6√

6√

6√6 3 +

√6 3 +

√6√

6 3 +√

6 3 +√

6

⎤⎦ =−1√

6

⎡⎢⎣−2 1 1

1 1 −√

62 1 +

√6

2

1 1 +√

62 1 −

√6

2

⎤⎥⎦ .

Ahora se calcula

R = [rij ] = Qt1A =

1

6

⎡⎣ 2√

6 −√6 −√

60 3 −30 −3 3

⎤⎦ ,

con lo que ya casi se tiene una matriz triangular. Solo se necesita hacercero el elemento r32, tomando la submatriz principal bajo el elemento r11

y aplicando de nuevo el proceso a

A2 = M11 =1

2

[1 −1−1 1

].

Mediante el mismo método que antes, se obtiene la matriz de Household-er:

Q2 =1√2

⎡⎣√2 0 00 1 −10 −1 −1

⎤⎦ .

Finalmente, se obtiene

Q =1√6

⎡⎣ 2 0√

2

−1 −√3

√2

−1√

3√

2

⎤⎦ y R =1√6

⎡⎣2 −1 −1

0 −√3

√3

0 0 0

⎤⎦ .

La matriz Q = Q1Q2 es ortogonal y R = QtA es triangular superior, deforma que A = QR es la descomposición QR buscada.

Page 357: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.1. Definición y propiedades 341

Teorema 8.7 Si A es simétrica e idempotente y P es ortogonal, entonces

P tAP es idempotente.

Demostración.Si P es ortogonal, entonces

(P tAP )(P tAP ) = P tA(PP t)AP = P t(AA)P = P tAP.

Teorema 8.8 Sea A una matriz simétrica e idempotente de tamaño n×n

con rango r, entonces existe una matriz ortogonal Q tal que QtAQ = Dr,

donde Dr es una matriz diagonal con r elementos iguales a uno y los

elementos restantes n − r de la diagonal iguales a cero.

Demostración.Este se sigue inmediatamente del Teorema 2.29.

Teorema 8.9 Si A es una matriz idempotente de tamaño n×n, entonces

su forma de Jordan J = P−1AP satisface que J 2 = J .

Demostración.Queda como ejercicio para el lector.

Teorema 8.10 Si A = [aij ] es una matriz simétrica e idempotente y si

el i-ésimo elemento de la diagonal es cero, entonces los elementos de la

i-ésima fila y la i-ésima columna son todos idénticamente cero.

Demostración.Puesto que A = A2, se tiene que el i-ésimo elemento de la diagonal

de A es

aii =n∑

j=1

aijaji.

Pero como A es simétrica aij = aji,

aii =n∑

j=1

a2ij .

Page 358: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

342 8. Matrices idempotentes y productos especiales

Luego, si aii = 0, entonces aij = 0 (para j = 1, 2, . . . , n), es decir, loselementos de la i-ésima fila son todos cero. Y como A = At se tiene quelos elementos de la i-ésima columna son también todos cero.

Teorema 8.11 El producto de dos matrices simétricas e idempotentes es

idempotente si el producto de las dos matrices es conmutativo.

Demostración.Si AB = BA, entonces

(AB)(AB) = (AB)(BA) = A(BA) = A(AB) = AB.

Teorema 8.12 Sea A una matriz real de tamaño m × n (m > n) con

ρ(A)

= n, entonces la matriz C = A(AtA

)−1At es simétrica e idempo-

tente.

Demostración.La matriz C = A

(AtA

)−1At es simétrica, ya que

Ct =[A(AtA

)−1At

]t=

(At

)t[(AtA

)−1]tAt = A

[(AtA

)t]−1At = C.

Además, es idempotente, pues

C2 =[A(AtA

)−1At

][A(AtA

)−1At

]= AIn

(AtA

)−1At = C.

Nótese que la matriz AtA es no singular, pues A es de rango completocolumna y ρ

(AtA

)= ρ

(A).

Teorema 8.13 Sea A una matriz simétrica e idempotente de tamaño

n × n, entonces

ρ(A) = tr(A).

Demostración.Por el Teorema 8.8, existe una matriz ortogonal Q tal que A =

QDrQt. Luego, se tiene que

tr(A) = tr(QDrQt) = tr(DrQ

tQ) = tr(Dr) = r = ρ(A).

Page 359: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.1. Definición y propiedades 343

Teorema 8.14 Todas las matrices simétricas idempotentes de rango in-

completo son semidefinidas positivas.

Demostración.Queda como ejercicio para el lector.

Teorema 8.15 Sea A una matriz real de tamaño n × n, entonces A es

simétrica e idempotente si y solo si

ρ(A) + ρ(In − A) = n.

Demostración.Supongamos que

ρ(A) + ρ(In − A) = n,

y sea R(A) el espacio de los renglones de A. Veamos que

Rn = R(A) ⊕R(In − A).

Obsérvese que

n = dim(Rn

)= dim

{R(A) ⊕R(In − A)}

= dim{R(A)

}+ dim

{R(In − A)}− dim

{R(A) ∩R(In − A)}

= ρ(A) + ρ(In − A) − dim{R(A) ∩R(In − A)

}= n − dim

{R(A) ∩R(In − A)}.

Esto implica que dim{R(A) ∩R(In − A)

}= 0, de lo cual se tiene que

R(A) ∩R(In − A) = �0.

Por consiguiente, Rn = R(A) ⊕R(In − A), y esto exige que

A(In − A

)= O .

Supongamos que no es así, entonces existen vectores no nulos �u y �v enRn tales que

A(In − A

)�u = �v.

Luego, �v ∈ R(A), pero como A(In − A

)=

(In − A

)A, se tiene que(

In − A)A�u = �v.

Esto implica que �v ∈ R(In − A) y se llega a una contradicción. Por lotanto, A

(In − A

)= O o A2 = A. Esto completa la prueba.

Page 360: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

344 8. Matrices idempotentes y productos especiales

Ejemplo 8.4 Determine el rango de la matriz asociada a la forma cua-

drática del Ejemplo 5.5.

Solución.La matriz asociada a la forma cuadrática dada en el Ejemplo 5.5 era

In − Jn. Veamos si es simétrica e idempotente.

(In − Jn

)t=

(In − 1

n111111t

)t=

(In − 1

n111111t

)(In − Jn

)2=

(In − 1

n111111t

)(In − 1

n111111t

)= In − 1

n111111t − 1

n111111t +

1

n2111 111t111︸︷︷︸111t = In − 1

n111111t = In − Jn.

Luego, por el teorema anterior se tiene que

ρ(In − Jn

)= n − ρ

(Jn

)= n − 1,

pues la matriz Jn tiene únicamente una fila linealmente independiente.

Teorema 8.16 Sean A1 y A2 dos matrices cuadradas del mismo tamaño

y A = A1 + A2, entonces las siguientes condiciones son equivalentes:

(1) A es simétrica e idempotente y ρ(A) = ρ(A1) + ρ(A2).

(2) A1 y A2 son simétricas e idempotentes y A1A2 = A2A1 = O .

Demostración.Supongamos que (2) es verdadero, entonces

A2 =(A1 + A2

)(A1 + A2

)= A2

1 + A22 + A1A2 + A2A1 = A1 + A2.

Puesto que A, A1 y A2 son idempotentes,

ρ(A) = tr(A) = tr(A1 + A2

)= tr

(A1

)+ tr

(A2

)= ρ

(A1

)+ ρ

(A2

).

Page 361: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.1. Definición y propiedades 345

Ahora, supongamos que (1) es verdadero, por el Teorema 8.15,

n = ρ(A) + ρ(In − A

)= ρ

(A1

)+ ρ

(A2

)+ ρ

(In − A

)≥ ρ

(A1

)+ ρ

[A2 +

(In − A

)]= ρ

(A1

)+ ρ

(In − A1

)≥ ρ

[A1 +

(In − A1

)]= ρ

(In

)= n.

Por consiguiente, ρ(A1

)+ρ

(In−A1

)= n y de nuevo por el Teorema 8.15,

se tiene que A1 es idempotente; de manera análoga, se puede mostrar queA2 es idempotente. Ahora demostremos que A1A2 = A2A1 = O . Dadoque A, A1 y A2 son idempotentes y A = A1 + A2, multiplicando amboslados por A, se obtiene que

A = A2 =(A1 + A2

)(A1 + A2

)= A2

1 + A22 + A1A2 + A2A1 =

(A1 + A2

)+ A1A2 + A2A1

= A + A1A2 + A2A1.

Esto implica que

A1A2 + A2A1 = O, es decir, A1A2 = −A2A1.

Por otra parte, el hecho de que ρ(A) = ρ(A1) + ρ(A2) implica que

R(A1) ∩R(A2) = {�0}.Este hecho unido con A1A2 = −A2A1 da A1A2 = O .

Corolario 8.16.1 Sean A1, A2 dos matrices de tamaño n × n tal que:

A1 + A2 = In,

entonces las condiciones dadas en el Teorema 8.16 se cumplen.

Demostración.Queda como ejercicio para el lector.

Una generalización del Teorema 8.16 en el que se involucran más dedos matrices se presenta a continuación.

Teorema 8.17 Teorema de Cochran

Sean A1, A2, . . . , Am una colección de m matrices de tamaño n× n y

A =m∑i=1

Ai. Considere las siguientes condiciones:

Page 362: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

346 8. Matrices idempotentes y productos especiales

(1) Cada Ai es simétrica, idempotente y conmuta con A.

(2) AiAj = O para toda i �= j y ρ(A2i

)= ρ

(Ai

)para toda i.

(3) A es simétrica e idempotente.

(4) ρ(A) =m∑i=1

ρ(Ai

).

Entonces, cualquiera dos de las condiciones (1), (2) y (3) implican la va-

lidez de la condición (4). Además, las condiciones (3) y (4) implican la

validez del resto de las condiciones.

Demostración.

Suponga que (1) y (2) son dadas. Como A =m∑i=1

Ai, es claro que es

idempotente. Puesto que A y A1, A2, . . . , Am son todas idempotentes,

ρ(A) = tr(A) =m∑i=1

tr(Ai

)=

m∑i=1

ρ(Ai

).

Así, la condición (4) es verdadera.Suponga que (2) y (3) son dadas. El cómputo de A2 produce

A2 =m∑i=1

A2i , para 1 ≤ i ≤ m.

Nótese que

AAi = AiA = A2i y A2Ai = AiA

2 = A3i ,

como A es idempotente, se tiene que A2i = A3

i , lo cual implica que A2i

(In−

Ai

)= O . La condición ρ

(Ai

)= ρ

(A2i

)es equivalente a la siguiente afir-

mación:

dim{R(

Ai

)}= dim

{R(A2i

)}.

Puesto que R(A2i

) ⊂ R(Ai

), se tiene que R(

Ai

)= R(

A2i

). Por consi-

guiente, existe una matriz D no singular tal que Ai = DA2i . Por lo tanto,

A2i

(In − A

)= O implica que Ai

(In − A

)= O de lo cual se concluye que

Ai es idempotente. Así, la condición (1) es verdadera y se sigue la (4).

Page 363: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.1. Definición y propiedades 347

Supongamos que (3) y (4) son válidas. Para i �= j, sea B = Ai + Aj

y C = A − B, por (4)

m∑i=1

ρ(Ai

)= ρ(A) = ρ

(B + C

)≤ ρ(B) + ρ(C) ≤

m∑i=1

ρ(Ai

).

De esto, se tiene que ρ(A) = ρ(B) + ρ(C), por otra parte,

n = ρ(In

)= ρ

(B + In − B

) ≤ ρ(B) + ρ(In − B

)= ρ(B) + ρ

(In − A + C

) ≤ ρ(B) + ρ(In − A

)+ ρ(C)

= ρ(A) + ρ(In − A

)= n.

Por lo tanto, ρ(B) + ρ(In−B

)= n y por el Teorema 8.15, B es idempo-

tente. Así se tiene que Ai + Aj es idempotente y ρ(B) = ρ(Ai

)+ ρ

(Aj

).

Por el Teorema 8.16, AiAj = O y Ai y Aj son idempotentes. Así, (2) y(3) se obtienen de una vez.

Suponga que (1) y (2) se cumplen. Es obvio que (4) se sigue aprove-chando la conexión entre rango y traza para matrices idempotentes. Porlo tanto, se tiene que (4) es válido y (3) se sigue ahora de lo que se haestablecido anteriormente. Esto completa la prueba.

Corolario 8.17.1 Sean A1, A2, . . . , Am una colección de matrices simé-

tricas e idempotentes de tamaño n × n tal quem∑i=1

Ai = In,

entonces las condiciones dadas en el Teorema 8.17 se cumplen. En este

caso, las condiciones (1) y (2) son equivalentes.

Demostración.Queda como ejercicio para el lector.

Teorema 8.18 Sean A1, A2, . . . , Am una colección de matrices simétri-

cas e idempotentes de tamaño n × n. Una condición necesaria y sufi-

ciente para que exista una matriz P ortogonal tal que P tA1P, P tA2P, . . . ,

P tAmP sean todas diagonales es que AiAj = AjAi para toda i y j.

Page 364: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

348 8. Matrices idempotentes y productos especiales

Demostración.Queda como ejercicio para el lector.

Ejercicios 8.1

1. Obtenga condiciones para los elementos de las matrices idempo-

tentes de tamaño 2 × 2. ¿Se puede generalizar a cualquier dimen-

sión?

2. Muestre que si A es idempotente, entonces At es idempotente.

3. Sea X una matriz de tamaño m×n (m > n) y rango n. Demuestre

que la matriz H = X(XtX

)−1Xt es una matriz simétrica e idem-

potente. Obtenga la inversa de Im − H.

4. Suponga que KA = O con K idempotente. Defina G =(A−K

)−1.

Pruebe que:

(i) AG = I − K, (ii) AGA = A y (iii) AGK = O .

8.2 Productos especiales

En esta sección se presentan nuevos conceptos de operaciones entre ma-trices, y entre otros, algunos productos especiales entre matrices.

Definición 8.3 Producto Kronecker

Dadas A = [aij ] y B = [bkl] matrices reales de tamaño m × n y

p × q, respectivamente, el producto Kronecker entre ellas, operación que

se denotará por A ⊗ B, es una matriz C = [cij ] = [aijB]ij de tamaño

mp × nq, dada por

Page 365: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.2. Productos especiales 349

A ⊗ B = [aijB]ij =

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

a11 B . . . a1j B . . . a1n B

.... . .

... . . ....

ai1 B . . . aij B . . . ain B

.... . .

... . . ....

am1 B . . . amj B . . . amn B

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦, (8.4)

donde cada submatriz aijB es de tamaño p × q. Este producto tiene sen-

tido tanto para matrices como para vectores.

Ejemplo 8.5 Considere las matrices dadas en el Ejemplo 2.8, determine

A ⊗ B y B ⊗ A.

Solución.Primero, se realiza A ⊗ B:

A ⊗ B =

[1 B 4 B4 B 1 B

]=

⎡⎢⎢⎣1

[1 11 −14

]4

[1 11 −14

]4

[1 11 −14

]1

[1 11 −14

]⎤⎥⎥⎦ =

⎡⎢⎢⎣1 1 4 41 −14 4 −564 4 1 14 −56 1 −14

⎤⎥⎥⎦ .

Ahora, se realiza B ⊗ A:

B ⊗ A =

[1 A 1 A1 A −14 A

]=

⎡⎢⎢⎣1

[1 44 1

]1

[1 44 1

]1

[1 44 1

]−14

[1 44 1

]⎤⎥⎥⎦ =

⎡⎢⎢⎣1 4 1 44 1 4 11 4 −14 −564 1 −56 −14

⎤⎥⎥⎦ ,

nótese que A ⊗ B �= B ⊗ A.

Teorema 8.19 Propiedades del producto Kronecker

Sean A, B y C matrices cualesquiera y �u y �v dos vectores columna.

Entonces:

1. α ⊗ A = A ⊗ α = αA, para cualquier escalar α.

Page 366: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

350 8. Matrices idempotentes y productos especiales

2.(αA

)⊗ (βB

)= αβ

(A ⊗ B

), para cualesquiera escalares α, β.

3. A ⊗ B �= B ⊗ A

4.(A ⊗ B

)⊗ C = A ⊗ (B ⊗ C

)5.

(A + B

)⊗ C = A ⊗ C + B ⊗ C, si A y B son del mismo tamaño.

6. A ⊗ (B + C

)= A ⊗ B + A ⊗ C, si B y C son del mismo tamaño.

7.(A ⊗ B

)t= At ⊗ Bt.

8. ρ(A ⊗ B

)= ρ

(A)ρ(B).

9. tr(A ⊗ B

)= tr

(A)tr(B), si A y B son cuadradas.

10. Sean A, B, C y D matrices de tamaño m×h, p× k, h×n y k× q,

respectivamente, entonces:

(A ⊗ B

)(C ⊗ D

)= (AC) ⊗ (BD). (8.5)

11.(A⊗B

)−1= A−1⊗B−1, si A y B son matrices cuadradas invertibles

de tamaño m×m y n×n, respectivamente, y(A⊗B

)es no singular.

12. Si A y B son matrices simétricas de tamaño m × m y n × n, res-

pectivamente, entonces A ⊗ B es simétrica.

13. Si A y B son matrices de tamaño m × n y p × q, respectivamente,

con descomposiciones en valores singulares UASAV tA y UBSBV t

B,

entonces:

(UA ⊗ UB

)(SA ⊗ SB

)(V tA ⊗ V t

B

)

Page 367: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.2. Productos especiales 351

produce una descomposición en valores singulares de A⊗B (después

de un simple reordenamiento de los elementos de la diagonal de

SA ⊗ SB y los correspondientes vectores singulares).

14. Si A y B son matrices simétricas de tamaño n×n, entonces usando

la descomposición espectral de cada matriz, el producto Kronecker

se puede expresar como sigue:

A ⊗ B =n∑

i=1

n∑j=1

λiμj(�ui�u

ti ⊗ �vj�v

tj

),

donde λi, μj ∈ R son los valores propios y �ui, �vj son los vectores

propios normalizados de las matrices A y B, respectivamente.

15. �u�vt = �u ⊗ �vt = �vt ⊗ �u.

Demostración.

1. − 3. Quedan como ejercicio para el lector.

4. Por la Definición 8.3, se tiene que

A ⊗ B = [aijB]ij ,

luego, (A ⊗ B

)⊗ C =[(

aijB)ij

]⊗ C = aij

(B ⊗ C

)ij,

por lo tanto,(A ⊗ B

)⊗ C = A ⊗ (B ⊗ C

).

5. Sea E = A + B = [eij ] . Por la Definición 8.3, se tiene que

E ⊗ C = [eijC]ij =[(

aij + bij)C]ij

= [aijC]ij + [bijC]ij = A ⊗ C + B ⊗ C.

6. − 8. Quedan como ejercicio para el lector.

Page 368: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

352 8. Matrices idempotentes y productos especiales

9. Usando (8.4), cuando m = n, se tiene que

tr(A ⊗ B

)=

n∑i=1

cii =n∑

i=1

aii tr(B)

=[ n∑i=1

aii

]tr(B)

= tr(A)tr(B).

10. Usando (8.4), cuando m = n, se tiene que

(A ⊗ B

)(C ⊗ D

)=

h∑l=1

[ailB]il [cljD]lj

=[ h∑l=1

ailclj

]BD

= (A)i·(C)·j(BD

)=

[(AC

)ij

(BD

)]ij

=(AC

)⊗ (BD

).

11. Usando la expresión (8.5), note que(A ⊗ B

)(A−1 ⊗ B−1

)= Im ⊗ In = Imn.

12. − 15. Quedan como ejercicio para el lector.

Teorema 8.20 Sea A una matriz de tamaño m × m, con valores pro-

pios λ1, λ2, . . . , λm y B una matriz de tamaño n× n, con valores propios

μ1, μ2, . . . , μn, entonces el conjunto de mn valores propios de A ⊗ B es

dado por{λiμj : i = 1, 2, . . . , m; j = 1, 2, . . . , n

}.

Demostración.Por el Teorema 3.19, existen matrices no singulares P y Q tales que

P−1AP = JA Q−1BQ = JB,

donde JA y JB son matrices triangulares superiores con los valores pro-pios de A y B como elementos de la diagonal, respectivamente. Los valorespropios de A ⊗ B son los mismos de(

P ⊗ Q)−1(

A ⊗ B)(

P ⊗ Q)

=(P−1 ⊗ Q−1

)(A ⊗ B

)(P ⊗ Q

)=

(P−1AP

)⊗ (Q−1BQ

)= JA ⊗ JB.

Esta matriz es triangular superior ya que JA y JB son triangulares y, porlo tanto, los elementos diagonales de JA ⊗ JB son sus valores propios, loscuales vienen dados por{

λiμj : i = 1, 2, . . . , m; j = 1, 2, . . . , n}.

Page 369: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.2. Productos especiales 353

Corolario 8.20.1 Si A y B son matrices cuadradas de tamaño m × m

y n × n, respectivamente, entonces

det[A ⊗ B

]=

[det

(A)]n[

det(B)]m

. (8.6)

Demostración.Por el Teorema 3.19, existen matrices no singulares P y Q tales que

P−1AP = JA Q−1BQ = JB,

entonces los valores propios de A⊗B son los mismos de JA ⊗JB, luego

det[JA ⊗ JB

]=

n∏j=1

m∏i=1

(λiμj

)=

n∏j=1

μmj

(m∏i=1

λi

)

=n∏

j=1

μmj det(A)

=(det A

)n[ n∏j=1

μj

]m=

(det A

)n(det B

)m.

Teorema 8.21 Si A y B son matrices semidefinidas positivas de tamaño

m × m y n × n, respectivamente, entonces A ⊗ B también lo es.

Demostración.Queda como ejercicio para el lector.

Ahora, se considera el operador que transforma una matriz en unvector, el cual es conocido como el operador Vec.

Definición 8.4 Operador Vec

Sea A = [aij ] una matriz real de tamaño m × n, si (A)·j denota la

j-ésima columna de A, entonces vec(A) es el vector de tamaño mn × 1

dado por

vec(A) =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

(A)·1

(A)·2...

(A)·n

⎤⎥⎥⎥⎥⎥⎥⎥⎦con (A)·j =

⎡⎢⎢⎢⎢⎢⎢⎢⎣

a1j

a2j

...

amj

⎤⎥⎥⎥⎥⎥⎥⎥⎦. (8.7)

Page 370: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

354 8. Matrices idempotentes y productos especiales

Ejemplo 8.6 Considere las matrices dadas en el Ejemplo 2.8, determine

vec(A) y vec(B).

Solución.En este caso, vec(A) y vec(B) vienen dados por

vec(A) =

⎡⎢⎢⎣1441

⎤⎥⎥⎦ vec(B) =

⎡⎢⎢⎣111

−14

⎤⎥⎥⎦ .

Teorema 8.22 Propiedades del operador Vec

Sean A, B y C matrices cualesquiera y �u y �v dos vectores columna.

Entonces:

1. vec(αA + βB

)= α vec(A) + β vec(B), si A y B son matrices del

mismo tamaño y para cualesquiera escalares α, β.

2. tr(AtB

)=

[vec(A)

]tvec(B), si A y B son matrices de tamaño

m × n.

3. Si A, B y C son matrices de tamaño m × n, n × p y p × q, respec-

tivamente, entonces vec(ABC

)=

(Ct ⊗ A

)vec(B).

4. vec(�u)

= vec(�ut

)= �u.

5. vec(�u�vt

)= �v ⊗ �u.

Demostración.Véase en Graybill (1983).

Definición 8.5 Producto Hadamard

Dadas A = [aij ] y B = [bij ] , matrices reales de tamaño m × n,

entonces el producto Hadamard entre ellas, operación que se denotará

Page 371: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.2. Productos especiales 355

por A � B, es una matriz C de tamaño m × n cuyo elemento genérico

cij , viene dado por:

A � B = C = [cij ] = [aijbij ] , i = 1, 2, . . . , m; j = 1, 2, . . . , n. (8.8)

Este producto tiene sentido tanto para matrices como para vectores.

Ejemplo 8.7 Considere las matrices dadas en el Ejemplo 2.8, determine

A � B.

Solución.Empleando la expresión (8.8), se resuelve A � B

A � B =

[a11 b11 a12 b12

a21 b21 a22 b22

]=

[1 44 −14

].

Teorema 8.23 Propiedades del producto Hadamard

Sean A, B y C matrices de tamaño m × n, entonces:

1. A � B = B � A.

2.(A � B

)� C = A � (B � C

).

3. A � (B + C

)= A � B + A � C.

4.(A + B

)� C = A � C + B � C.

5.(A � B

)t= At � Bt.

6. ρ(A � B

) ≤ ρ(A)ρ(B).

7. Si Jmn = 111m111tn, entonces A � Jmn = Jmn � A = A.

Page 372: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

356 8. Matrices idempotentes y productos especiales

8. Si m = n y D es una matriz diagonal de tamaño n × n, entonces:

a) (A � B)D = (AD) � B = A � (BD).

b) D(A � B) = (DA) � B = A � (DB).(8.9)

9. vec(A � B

)=

(vec A

)� (vec B

).

10. �u�vt � �w�xt =(�u � �w

)(�v � �x

)t, donde �u, �w ∈ Rm y �v, �x ∈ Rn.

11. Si A y B son matrices simétricas de tamaño n×n, entonces usando

la descomposición espectral de cada matriz, el producto Hadamard

se puede expresar como sigue:

A � B =n∑

i=1

n∑j=1

λiμj(�ui � �vj

)(�ui � �vj

)t,

donde λi, μj ∈ R son los valores propios y �ui, �vi son los vectores

propios normalizados de las matrices A y B, respectivamente.

12. Si A es una matriz simétrica de tamaño 2×2, el producto Hadamard

de A por ella misma k-veces, es decir A � A � . . . � A =k⊙

j=1A, es

k⊙j=1

A =(β

2

)k ⎡⎢⎣(αβ

+ cos 2θ)k (

sen 2θ)k(

sen 2θ)k (

αβ− cos 2θ

)k⎤⎥⎦ , (8.10)

donde α = λ1 + λ2, β = λ1 − λ2,(λ1 > λ2

), con λi los valo-

res propios de A y θ el ángulo de rotación de la forma cuadrática

representada por A.

Demostración.Puesto que algunas de las propiedades que se presentan en este ma-

terial aparecen demostradas en algunos textos de álgebra lineal, solo sedemostrarán las propiedades (8.9) y (8.10).

Page 373: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.2. Productos especiales 357

1. − 7. Quedan como ejercicio para el lector.

8. Se verifica solo la parte a). Para probar la otra parte, se procede demanera análoga. Por la Definición 8.5, se tiene que

A � B = C = [cij ] = [aijbij ] , i = 1, 2, . . . , m; j = 1, 2, . . . , n,

sea E = CD = [eij ] , donde

eij =n∑

k=1

cikdkj ,

pero como D es una matriz diagonal, entonces dkj = 0 si k �= j,luego cikdkj = 0 cuando k �= j. Por lo tanto,

eij = cijdjj ,

y al sustituir cij , se obtiene que

eij = aijbijdjj =(aijdjj

)bij = fijbij ,

donde

fij =

n∑k=1

aikdkj ,

luego, E = (AD) � B. Si se agrupan los términos de eij de otramanera, se tiene

eij = aijbijdjj = aij(bijdjj

)= aijgij ,

donde

gij =n∑

k=1

bikdkj ,

y en este caso, E = A � (BD).

9. − 11. Quedan como ejercicio para el lector.

12. Supongamos que la matriz tiene la siguiente forma :

A =

[a c

2c2 b

].

Page 374: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

358 8. Matrices idempotentes y productos especiales

Entonces, el ángulo θ de rotación satisface las expresiones dadasen (5.62). Luego, A se puede expresar como

A =λ1 − λ2

2

[λ1 +λ2

λ1 −λ2+ cos 2θ sen 2θ

sen 2θ λ1 +λ2

λ1 −λ2− cos 2θ

].

Por lo tanto, el producto Hadamard de A por ella misma k-vecessería

k⊙j=1

A =(λ1 − λ2

2

)k ⎡⎢⎣(λ1 +λ2

λ1 −λ2+ cos 2θ

)k (sen 2θ

)k(sen 2θ

)k (λ1 +λ2

λ1 −λ2− cos 2θ

)k⎤⎥⎦ .

Teorema 8.24 Si A y B son matrices semidefinidas positivas de tamaño

n × n, entonces A � B también lo es.

Demostración.Véase en Ding & Engle (2001).

Teorema 8.25 Sean A1, A2, . . . , Am una colección de m matrices no sin-

gulares de tamaño 2 × 2 y A =m∑i=1

αi Ai, con αi ∈ R. Si det(A) �= 0,

entonces

A−1 =m∑i=1

αidet

(Ai

)det

(A) A−1

i .

Demostración.Al emplear el Teorema 3.13, se tiene que

A2 − tr(A)A + det(A)I = O, (8.11)

y como A =m∑i=1

αi Ai, entonces

tr(A) =m∑i=1

αi tr(Ai

).

Page 375: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.2. Productos especiales 359

Al sustituir en (8.11), se llega a[m∑i= 1

αi Ai

]2

−[m∑i=1

αi tr(Ai

)][ m∑i= 1

αi Ai

]+ det(A)I = O,

esta expresión se puede reescribir como sigue:

m∑i=1

α2iA

2i+

m∑i=1

m∑j �=i

αiαj AiAj −m∑i=1

α2i tr

(Ai

)Ai

−m∑i=1

m∑j �=i

αiαj tr(Aj

)Ai + det(A)I = O,

y agrupando términos, se obtiene

m∑i=1

α2i

[A2i − tr

(Ai

)Ai

]+

m∑i=1

m∑j �=i

αiαj Ai

[Aj − tr

(Aj

)I]+ det(A)I = O,

pero como cada una de las matrices Ai satisface (8.11), se tiene que

m∑i=1

α2i

[−det(Ai

)I]+

m∑i=1

m∑j �=i

αiαj AiA−1j

[−det(Aj

)I]+ det(A)I = O .

Aquí, se usó el hecho de que cada Ai es no singular, y reagrupando, sellega a

det(A)I =m∑i=1

m∑j=1

αiαj det(Aj

)AiA

−1j

=m∑i=1

αi Ai

m∑j=1

αj det(Aj

)A−1j

= Am∑j=1

αj det(Aj

)A−1j ,

como por hipótesis det(A) �= 0, entonces A es invertible y, por lo tanto,

det(A)A−1 =m∑j=1

αj det(Aj

)A−1j .

Al dividir esta última expresión por det(A), se completa la prueba.

Page 376: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

360 8. Matrices idempotentes y productos especiales

Ejercicios 8.2

1. Encuentre el rango de A ⊗ B, donde

A =

⎡⎢⎢⎢⎢⎣2 6

1 4

3 1

⎤⎥⎥⎥⎥⎦ y B =

⎡⎢⎢⎢⎢⎣5 2 4

2 1 1

1 0 1

⎤⎥⎥⎥⎥⎦2. Sean A y B matrices de tamaño 2 × 2, dadas por:

A =

⎡⎢⎣2 6

1 4

⎤⎥⎦ y B =

⎡⎢⎣1 2

4 3

⎤⎥⎦Determine:

a. A ⊗ B, b. B ⊗ A,

c. tr(A ⊗ B

), d. det

(A ⊗ B

),

e.(A ⊗ B

)−1, f. Los valores propios de A ⊗ B.

3. Con las matrices del problema anterior, determine lo mismo pero

para el producto Hadamard.

4. Sean A, B y C matrices de tamaño m × n. Demuestre que

tr[(

At � Bt)C]

= tr[At

(B � C

)].

5. Sean A y B matrices simétricas semidefinidas positivas de tamaño

m × m. Demuestre que

a. det(A � B

) ≥ det(A)det

(B),

b. det(A � A−1

) ≥ 1, si A es definida positiva.

Page 377: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

8.2. Productos especiales 361

6. Sean A y B matrices de tamaño m × m y n × n, respectivamente,

demuestre que:

‖A ⊗ B‖2 = ‖A‖2‖B‖2.

7. Sean A y B matrices de tamaño n × n. Demuestre que para todo

k ∈ Z:

(In ⊗ A

)k= In ⊗ Ak y

(B ⊗ In

)k= Bk ⊗ In.

Page 378: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 379: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 9

Inversa generalizadade matrices

El concepto de inversa generalizada tiene sus principios en la teoría deecuaciones lineales simultáneas (sistemas de m ecuaciones lineales con nincógnitas). La solución de un conjunto de ecuaciones lineales consistente

A�x = �b, (9.1)

donde A es de tamaño m×n con rango r ≤ mın{m, n}, puede asumir dosformas diferentes. Si m = n = r, el sistema (9.1) tiene solución única �x =A−1�b. Sin embargo, cuando A es una matriz rectangular o singular, unarepresentación simple de una solución en términos de A es más difícil. Eneste capítulo se tratarán estos sistemas de ecuaciones usando las inversasgeneralizadas de matrices. Dichas matrices las estudiaremos como unaaplicación de las descomposiciones de matrices.

9.1 Definición y propiedades básicas

En esta sección, se analizarán las inversas generalizadas de matrices rec-tangulares o singulares. Estas inversas las estudiaremos como una apli-cación de los valores propios, considerando los dos casos: valores propiosreales o complejos.

363

Page 380: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

364 9. Inversa generalizada de matrices

Definición 9.1 Inversa generalizada (IG)

Para cualquier matriz A cuadrada o rectangular, se dice que G es una

inversa generalizada de A, si satisface las siguientes condiciones:

(i) AGA = A, (iii) AG es simétrica e idempotente,

(ii) GAG = G, (iv) GA es simétrica e idempotente.(9.2)

Nota 9.1 La inversa generalizada de A se llama también seudoinversa

de A.

Teorema 9.1 Si A es una matriz no singular, entonces G = A−1.

Demostración.Queda como ejercicio para el lector.

Notación.La notación y nomenclatura que se usará en este capítulo para los

cuatro tipos de inversa generalizada introducido en (9.2), es el siguiente:

Condicionesque satisface

Nombre Abreviación Notación

(i) IG condicionada g1-inversa Ag1 o Ac

(i) y (ii) IG reflexiva g2-inversa Ag2 o Ar

(i), (ii) y (iii) IG normalizada g3-inversa Ag3 o An

(i), (ii) y (iv) IG normalizada g∗3-inversa Ag∗3 o An∗

(i), (ii), (iii) y (iv) La IG g-inversa Ag o A−

Como veremos, el término “normalizada” significa de norma mínima.

En la Definición 9.1, no se establece que toda matriz tenga inversageneralizada y que además esta sea única. Por supuesto que así es, comolo establece el siguiente teorema.

Teorema 9.2 Sea A una matriz cuadrada o rectangular, entonces:

(1) Siempre existe G. (2) G es única.

Page 381: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.1. Definición y propiedades básicas 365

Demostración.

(1) Si A es la matriz nula de tamaño m × n, es claro que la g-inversade A es la matriz nula de tamaño n × m.

Si se supone que ρ(A)

= r > 0, entonces por la propiedad (iv) delrango de una matriz (ver Capítulo 1), se tiene que existen K y Lde tamaño m × r y r × n, respectivamente, y ambas con rango rtales que

A = KL.

Entonces, la matriz dada por

Ag = Lt(LLt

)−1(KtK

)−1Kt (9.3)

es una g-inversa de A, y al sustituir en (9.2), se obtiene que

(i) AAgA = KLLt(LLt

)−1(KtK

)−1KtKL = KL = A.

(ii) AgAAg = Lt(LLt

)−1(KtK

)−1Kt = Ag.

(iii) AAg = KLLt(LLt

)−1(KtK

)−1Kt = K

(KtK

)−1Kt.

(iv) AgA = Lt(LLt

)−1(KtK

)−1KtKL = Lt

(LLt

)−1L.

Nótese que las matrices AAg y AgA son simétricas e idempotentes.Así pues, siempre existe una g-inversa de cualquier matriz A.

(2) Para probar la unicidad se procede por contradicción. Para ello, sesupone que existen dos matrices Ag y Bg de tamaño n×m, ambasinversas generalizadas de A.

Por ser Ag una g-inversa de A, se tiene que

AAgA = A. (9.4)

Al multiplicar por Bg, se obtiene

AAgABg = ABg,

y dada la simetría de ABg y AAg, resulta

ABg =(ABg

)t=

[(AAg

)(ABg

)]t=

(ABgA

)Ag = AAg. (9.5)

De manera análoga, premultiplicando a (9.4) por Bg se llega a

BgA =(BgA

)t=

[(BgA

)(AgA

)]t= Ag

(ABgA

)= AgA. (9.6)

Page 382: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

366 9. Inversa generalizada de matrices

Por último, si se premultiplica en (9.5) por Bg, se tiene

BgABg = BgAAg,

y de acuerdo con (9.6) y la Definición 9.1, resulta

Bg = BgABg =(BgA

)Ag = AgAAg = Ag.

Es decir, la g-inversa de una matriz es única.

Ejemplo 9.1

Dada la matriz A =

⎡⎢⎣2 1 3

1 2 3

⎤⎥⎦, determine qué tipo de inversa gene-

ralizada es G = 13

⎡⎢⎢⎢⎢⎣2 1

1 2

0 0

⎤⎥⎥⎥⎥⎦ .

Solución.Veamos las condiciones que cumple G de las dadas en (9.2):

AG =1

3

[2 1 31 2 3

]⎡⎣2 11 20 0

⎤⎦ =1

3

[3 00 3

]. (9.7)

Nótese que AG = I, la cual es simétrica e idempotente, luego,

AGA =

[2 1 31 2 3

]= A.

Por lo tanto, la matriz G es Ag1 . Veamos si cumple la segunda condición:

GA =1

3

⎡⎣2 11 20 0

⎤⎦[2 1 31 2 3

]=

1

3

⎡⎣3 0 30 3 30 0 0

⎤⎦ , (9.8)

luego, GA no es simétrica, pero sí es idempotente. Por otra parte

GAG =1

9

⎡⎣6 33 60 0

⎤⎦ = G.

Así, G es una matriz Ag2 y de la expresión (9.7), se tiene finalmente queG es una Ag3 . No alcanza ser Ag, ya que no cumple la cuarta condición.

Page 383: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.2. Propiedades de las inversas generalizadas 367

9.2 Propiedades de las inversas generalizadas

Algunas de las propiedades más importantes de la inversa generalizadase resumen en el siguiente teorema.

Teorema 9.3 Sea A una matriz de tamaño m × n con rango r ≤mın{m, n} y Ag una matriz de tamaño n × m. Entonces:

a) (Ag)g = A.

b) (At)g = (Ag)t.

c)(AB

)g= BgAg.

d) A = AAt(Ag

)t=

(Ag

)tAtA.

e) Ag =(AtA

)gAt = At

(AAt

)g.

f)(αA

)g= αgAg, donde α �= 0 es cualquier escalar con αg = α−1.

g) Las matrices Im − AAg e In − AgA son idempotentes con rangos

iguales a m − r y n − r, respectivamente.

h) ρ(Ag) = ρ(A).

Demostración.En esta demostración, se utilizan las condiciones dadas en (9.2).

a) Se tiene inmediatamente de las condiciones.

b) Supongamos que la g-inversa de At es (At)g. Si se transpone laprimera condición de la g-inversa de la matriz A, se tiene

[AAgA]t = At

At(Ag)tAt = At.

Según el Teorema 9.2, la g-inversa es única, luego (At)g = (Ag)t.

Page 384: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

368 9. Inversa generalizada de matrices

c) - f) Quedan como ejercicio para el lector.

g) Para verificar si las matrices son idempotentes, se eleva cada unade ellas al cuadrado:(

Im − AAg)2

= Im − AAg − AAg + (AAgA)Ag = Im − AAg,(In − AgA

)2= In − AgA − AgA + Ag(AAgA) = In − AgA.

Como por el Teorema 8.13 el rango de una matriz simétrica e idem-potente es igual a su traza, se tiene que

ρ(Im − AAg) = tr(Im − AAg) = m − tr(AAg)

= m − ρ(AAg) = m − r,

ρ(In − AgA) = tr(In − AgA) = n − tr(AgA)

= n − ρ(AgA) = n − r.

Aquí se uso el hecho que el rango de un producto no puede excederel rango más pequeño de los factores, es decir

r = ρ(A) = ρ(AAgA) ≤ ρ(AAg) ≤ ρ(A) = r,

r = ρ(A) = ρ(AAgA) ≤ ρ(AgA) ≤ ρ(A) = r.

Por el teorema del emparedado, se tienen las igualdades.

h) Por la parte a), si AAgA = A, entonces

ρ(A) = ρ(AAgA) ≤ ρ(AAg) ≤ ρ(Ag).

Por otra parte, la condición AgAAg = Ag implica que

ρ(Ag) = ρ(AgAAg) ≤ ρ(AAg) ≤ ρ(A).

Así, ρ(Ag) = ρ(A).

Teorema 9.4 Si A es una matriz simétrica, entonces Ag es simétrica.

Demostración.La prueba se sigue de la parte b) del Teorema 9.3, es decir,

Ag =(At

)g=

(Ag

)t.

Page 385: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 369

Corolario 9.4.1 Si A es simétrica e idempotente, entonces:

Ag = A.

Demostración.Queda como ejercicio para el lector.

Ejemplo 9.2 Determine la inversa generalizada de la matriz asociada a

la forma cuadrática del Ejemplo 5.5.

Solución.En el Ejemplo 8.4, se mostró que In−Jn era simétrica e idempotente.

Luego, por el Corolario 9.4.1, se tiene que(In − Jn

)g= In − Jn.

Teorema 9.5 Si A y Ag3 son simétricas, entonces Ag3 = Ag.

Demostración.Puesto que Ag3 es simétrica,(

Ag3A)t

= AAg3 =(AAg3

)t= Ag3A,

y la cuarta condición dada en (9.2) se satisface.

9.3 Métodos para calcular inversas generalizadas

En esta sección, se ilustran algunos de los métodos para hallar la g-inversa. Se desarrollan solo los métodos que utilizan las distintas factori-zaciones de la matriz A estudiadas en este material.

Aunque en esta sección se consideran únicamente matrices reales,cuando el lector necesite emplear alguno de los métodos desarrolladosaquí para matrices complejas, simplemente puede realizar los cambiosadecuados en cada método. Por ejemplo, en vez de utilizar At se usa AH

y si en el método se emplea una matriz ortogonal, pues se cambia poruna matriz unitaria.

Page 386: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

370 9. Inversa generalizada de matrices

Teorema 9.6 Sea A una matriz real de tamaño m × n con rango r ≤mın{m, n} particionada como:

A =

⎡⎢⎢⎢⎢⎣A11

... A12

. . . . . . .

A21... A22

⎤⎥⎥⎥⎥⎦ ,

donde A11 ó A22 es una submatriz de tamaño r × r. Entonces:

1. Si A11 es no singular y(A/A11

)= O, una g2-inversa de A es la

matriz Ag2 de tamaño n × m dada por

Ag2 =

⎡⎢⎢⎢⎢⎣A−1

11

... Or×m1

. . . . . . .

On1 × r

... On1 ×m1

⎤⎥⎥⎥⎥⎦ . (9.9)

con m1 = m − r y n1 = n − r.

2. Si A22 es no singular y(A/A22

)= O, una g2-inversa de A es la

matriz Ag2 de tamaño n × m dada por

Ag2 =

⎡⎢⎢⎢⎢⎣On1 ×m1

... On1 × r

. . . . . . .

Or×m1

... A−122

⎤⎥⎥⎥⎥⎦ . (9.10)

Demostración.Como la partición de las matrices expuestas son consistentes para

el producto, efectúe los productos AAg2A y Ag2AAg2 . Obsérvese que seobtiene respectivamente A y Ag2 .

Ejemplo 9.3

Dada la matriz A =

⎡⎢⎣2 1 3

1 2 3

⎤⎥⎦, obtenga una g2-inversa.

Page 387: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 371

Solución.La partición de tamaño 1 × (2 + 1) de la matriz dada es

A =

⎡⎣2 1... 3

1 2... 3

⎤⎦ = (A11... A12).

Al calcular la inversa de A11, se obtiene

A−111 = −1

3

[2 11 2

].

Luego, una g2-inversa es la matriz

Ag2 =1

3

⎡⎣2 11 20 0

⎤⎦ .

Nótese que esta es igual a la dada en el Ejemplo 9.1.

Corolario 9.6.1 Sea A una matriz “diagonal” de tamaño m×n y rango

r ≤ mın{m, n} particionada como sigue:

A =

⎡⎢⎢⎢⎢⎣Dr× r

... Or×n1

. . . · . . .

Om1 × r

... Om1 ×n1

⎤⎥⎥⎥⎥⎦ , donde Dr× r =

⎡⎢⎢⎢⎢⎣d1 . . . 0

.... . .

...

0 . . . dr

⎤⎥⎥⎥⎥⎦con m1 = m − r y n1 = n − r. Entonces, la inversa generalizada de A

está dada por

G =

⎡⎢⎢⎢⎢⎣D−1r×r

... Or×m1

. . . . . .

On1×r... On1×m1

⎤⎥⎥⎥⎥⎦ . (9.11)

Demostración.Queda como ejercicio para el lector.

Page 388: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

372 9. Inversa generalizada de matrices

Teorema 9.7 Sea A una matriz de tamaño n × n y rango m (m < n)

con valores propios no nulos λ1, λ2, . . . , λm. Si A se puede factorizar como

en (2.33), entonces la Ag2 viene dada por

Ag2 =

m∑i=1

1

λkE(λk), (9.12)

donde E(λk) está dada en (2.11).

Demostración.Puesto que A se puede factorizar como en (2.33), veamos si G = Ag2

cumple la primera condición de la Definición 9.1:

AGA = A

(m∑i=1

1

λkE(λk)

)A = A

m∑i=1

1

λk

(E(λk)A

)= A

m∑i=1

E(λk) = A.

Luego, G es una matriz Ag1 . Veamos si es Ag2 .

GAG =

(m∑i=1

1

λkE(λk)

)A

(m∑i=1

1

λkE(λk)

)

=

(m∑i=1

E(λk)

)(m∑i=1

1

λkE(λk)

)= G.

Aquí se emplearon las propiedades dadas para las matrices E(λk) en elTeorema 2.12. Ahora, probemos si G es una matriz Ag3 :

AG = A

(m∑i=1

1

λkE(λk)

)=

m∑i=1

1

λk

(AE(λk)

)=

m∑i=1

E(λk).

Nótese que la última matriz no es simétrica, pero sí es idempotente. Demanera análoga, se obtiene que GA es una matriz idempotente pero noes simétrica, luego G es una g2-inversa de A.

Ejemplo 9.4 IG usando la descomposición de Sylvester

Sea A =

⎡⎢⎢⎢⎢⎣4 1 2

3 1 3

1 1 5

⎤⎥⎥⎥⎥⎦, obtenga una g2-inversa.

Page 389: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 373

Solución.En este caso, los valores propios de A son λ1 = 7, λ2 = 3 y λ3 = 0, y los

vectores propios correspondientes son �v1 =

⎡⎣111

⎤⎦, �v2 =

⎡⎣ 735

⎤⎦ y �v3 =

⎡⎣ 161

⎤⎦,

respectivamente. Por otra parte, los vectores propios correspondientes de

At son �w1 =

⎡⎣ 94

15

⎤⎦, �w2 =

⎡⎣ 101

⎤⎦ y �w3 =

⎡⎣ 231

⎤⎦, respectivamente. Luego, las

matrices de proyección espectral E(λk

)son

E(λ1

)=

�v1 �wt1

�wt1�v1

=1

28

⎡⎣111

⎤⎦ [9 4 15

]=

1

28

⎡⎣9 4 159 4 159 4 15

⎤⎦E(λ2

)=

�v2 �wt2

�wt2�v2

=1

12

⎡⎣ 735

⎤⎦ [1 0 1

]=

1

12

⎡⎣ 7 0 73 0 35 0 5

⎤⎦E(λ3

)=

�v2 �wt2

�wt2�v2

=1

21

⎡⎣ 161

⎤⎦ [2 3 1

]=

1

21

⎡⎣ 2 3 112 18 62 3 1

⎤⎦ .

Al sustituir en (9.12), se llega a

G =1

441

⎡⎣106 9 5257 9 341 9 95

⎤⎦ ,

de manera que

AG =1

441

⎡⎣4 1 23 1 31 1 5

⎤⎦⎡⎣106 9 5257 9 341 9 95

⎤⎦ =1

21

⎡⎣19 3 112 3 62 3 20

⎤⎦ ,

GA =1

441

⎡⎣106 9 5257 9 341 9 95

⎤⎦⎡⎣4 1 23 1 31 1 5

⎤⎦ =1

21

⎡⎣19 3 112 3 62 3 20

⎤⎦ .

Page 390: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

374 9. Inversa generalizada de matrices

Entonces AG = GA, pero los productos no dan como resultado ma-trices simétricas aunque son idempotentes. Por otra parte,

AGA =1

21

⎡⎣19 3 112 3 62 3 20

⎤⎦⎡⎣4 1 23 1 31 1 5

⎤⎦ =1

21

⎡⎣84 21 4263 21 6321 21 105

⎤⎦ = A

y

GAG =1

9261

⎡⎣19 3 112 3 62 3 20

⎤⎦⎡⎣106 9 5257 9 341 9 95

⎤⎦ =3

9261

⎡⎣ 742 63 364399 63 21287 63 665

⎤⎦ .

Al simplificar, se obtiene la matriz G, la cual satisface las condiciones (i)y (ii) dadas en (9.2), pero no (iii) y (iv), pues AG y GA no son matricessimétricas aunque son idempotentes.

Teorema 9.8 Sea A una matriz simétrica de tamaño n × n y rango r,

(r < n). Entonces, la inversa generalizada de A está dada por

G = PΛgP−1, (9.13)

donde P es una matriz real de tamaño n × n cuyas columnas son los

vectores propios asociados a A, particionada como:

P = [S... T ] = [�v1 . . . �vr

... �vr+1 . . . �vn]. (9.14)

Aquí, la submatriz S es de tamaño n × r, sus columnas corresponden a

los vectores propios asociados a los valores propios distintos de cero de

la matriz A y la submatriz T es de tamaño n × (n − r), cuyas columnas

corresponden a los vectores propios asociados a los valores propios nulos

de A.

Λg =

⎡⎢⎣D−1 O∗

O∗ O

⎤⎥⎦ , (9.15)

Page 391: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 375

con D la submatriz real de tamaño r × r que tiene en la diagonal los

valores propios distintos de cero asociados a A, y con O la submatriz real

de tamaño (n − r) × (n − r) en cuya diagonal están los valores propios

nulos de A.

Demostración.Puesto que A tiene n vectores propios �v1, �v2, . . . , �vn que corresponden

a los valores propios (no necesariamente diferentes) λ1, λ2, . . . , λn, dichosvectores resultan ser linealmente independientes, y por lo tanto, la matrizP dada en (9.14) es no singular.

Por consiguiente, la matriz A se puede expresar como A = PΛP−1,

donde Λ =

[D OO O

].

Veamos si G = PΛgP−1 cumple la primera condición de la Definición 9.1:

AGA = A(PΛgP−1

)A =

(PΛP−1

)(PΛgP−1

)(PΛP−1

)= PΛΛgΛP−1 = PΛP−1 = A.

Luego, G es una matriz Ag1 . Observemos si es Ag2 :

GAG =(PΛgP−1

)A(PΛgP−1

)=

(PΛgP−1

)(PΛP−1

)(PΛgP−1

)= PΛgΛΛgP−1 = PΛgP−1 = G.

Ahora, verifiquemos si G es una matriz Ag3 :

AG = A(PΛgP−1

)=

(PΛP−1

)(PΛgP−1) = P

(ΛΛg

)P−1. (9.16)

Pero como A = At, por el Teorema 2.29, la matriz A es semejante a unamatriz Q ortogonal. Si se ortonormalizan las columnas de la matriz P , setiene que P−1 = P t y, por lo tanto,

(AG)t = [P (ΛΛg)P−1]t =

{P

[Ir OO O

]P t

}t

= P

[Ir OO O

]P t = AG.

También, G es Ag3 . Observemos si cumple la cuarta condición dadaen (9.2)

GA = (PΛgP−1)A = (PΛgP−1)(PΛP−1) = P (ΛgΛ)P−1. (9.17)

Page 392: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

376 9. Inversa generalizada de matrices

Usando de nuevo el hecho de que A es diagonalizable ortogonalmente, setiene

(GA)t = [P (ΛgΛ)P−1]t =

{P

[Ir OO O

]P t

}t

= P

[Ir OO O

]P t = GA.

Así, G es la g-inversa de A y el teorema queda demostrado.

Ejemplo 9.5 Inversa generalizada de una matriz simétrica

Sea A =

⎡⎢⎢⎢⎢⎣5 4 9

4 5 9

9 9 18

⎤⎥⎥⎥⎥⎦, obtenga la g-inversa.

Solución.En este caso, la ecuación característica es:

det(A − λI) = −λ3 + 28λ2 − 27λ = 0.

Entonces, los valores propios de A son λ1 = 1, λ2 = 27 y λ3 = 0.

Para λ1 = 1, se tiene el vector propio correspondiente �v1 =

⎡⎣110

⎤⎦ .

Si λ2 = 27, se obtiene el vector propio asociado �v2 =

⎡⎣ 112

⎤⎦y para λ3 = 0, se llega al vector propio �v3 =

⎡⎣ 111

⎤⎦ .

Estableciendo

P =

⎡⎣1 1 11 1 10 2 1

⎤⎦ con P−1 = − 1

6

⎡⎣ 3 3 01 1 22 2 2

⎤⎦y

Λ =

⎡⎣1 0 00 27 00 0 0

⎤⎦ con Λg =1

27

⎡⎣27 0 00 1 00 0 0

⎤⎦ ,

Page 393: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 377

se obtiene

G = − 1

162

⎡⎣1 1 11 1 10 2 1

⎤⎦⎡⎣27 0 00 1 00 0 0

⎤⎦⎡⎣ 3 3 01 1 22 2 2

⎤⎦ .

Después de realizar la multiplicación de las matrices, queda

G =1

81

⎡⎣41 40 140 41 11 1 2

⎤⎦ ,

de manera que

AG =1

81

⎡⎣ 5 4 94 5 99 9 18

⎤⎦⎡⎣41 40 140 41 11 1 2

⎤⎦ =1

3

⎡⎣2 1 11 2 11 1 2

⎤⎦ ,

GA =1

81

⎡⎣41 40 140 41 11 1 2

⎤⎦⎡⎣ 5 4 94 5 99 9 18

⎤⎦ =1

3

⎡⎣2 1 11 2 11 1 2

⎤⎦ .

Así, AG = GA y, además, los productos dan como resultado matricessimétricas e idempotentes. Por otra parte,

AGA =1

3

⎡⎣2 1 11 2 11 1 2

⎤⎦⎡⎣ 5 4 94 5 99 9 18

⎤⎦ =1

3

⎡⎣ 15 12 2712 15 2727 27 54

⎤⎦ = A,

GAG =1

243

⎡⎣2 1 11 2 11 1 2

⎤⎦⎡⎣41 40 140 41 11 1 2

⎤⎦ =3

243

⎡⎣41 40 140 41 11 1 2

⎤⎦ = G.

Corolario 9.8.1 Sea A una matriz singular de tamaño n×n con valores

propios (reales o complejos) distintos de cero λ1, λ2, . . . , λr (r = ρ(A)).

Entonces, una g2-inversa de A es la matriz definida de la siguiente forma:

Ag2 = PΛgP−1, (9.18)

Page 394: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

378 9. Inversa generalizada de matrices

donde P 1 y Λg están definidas de manera análoga a (9.14) y (9.15), y

D =

⎧⎪⎨⎪⎩ J si m.g.(λi) ≤ m.a.

(λi)

R si posee valores propios complejos,

en donde J es la matriz de Jordan dada en (3.11) y la matriz R,

en (2.23). En este caso, AG = GA.

Demostración.En el Teorema 9.8, se demostró que G era Ag2 . Para demostrar que

AG = GA, de (9.16) y (9.17), se tiene que

AG = P (ΛΛg)P−1 y GA = P (ΛgΛ)P−1.

Dado que ΛΛg = ΛgΛ =

[Ir OO O

], el corolario queda demostrado.

Ejemplo 9.6 IG de una matriz con valores propios reales

Obtenga una g2-inversa mediante el método propuesto para la matriz

dada en el Ejemplo 9.4.

Solución.En el Ejemplo 9.4, se obtuvo que los valores propios de A eran λ1 = 7,

λ2 = 3 y λ3 = 0, y los vectores propios correspondientes eran �v1 =

⎡⎣111

⎤⎦,

�v2 =

⎡⎣ 735

⎤⎦ y �v3 =

⎡⎣ 161

⎤⎦, respectivamente. Estableciendo

P =

⎡⎣1 7 11 3 61 5 1

⎤⎦ con P−1 =1

84

⎡⎣27 12 457 0 78 12 4

⎤⎦y

Λ =

⎡⎣7 0 00 3 00 0 0

⎤⎦ con Λg =1

21

⎡⎣3 0 00 7 00 0 0

⎤⎦ ,

1 Cuando la multiplicidad algebraica de un λi sea mayor que su multiplicidadgeométrica, algunas de las columnas de P serán vectores propios generalizados.

Page 395: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 379

se obtiene

G =1

1764

⎡⎣1 7 11 3 61 5 1

⎤⎦⎡⎣3 0 00 7 00 0 0

⎤⎦⎡⎣27 12 457 0 78 12 4

⎤⎦ .

Después de realizar el producto entre matrices, se llega a

G =1

441

⎡⎣106 9 5257 9 341 9 95

⎤⎦ .

Nótese que esta matriz coincide con la obtenida en el Ejemplo 9.4, luegola matriz G es una g2-inversa de A.

Corolario 9.8.2 Sea A una matriz real de tamaño m × n (n < m) y

rango r, (r ≤ n). Entonces, la g-inversa de A está dada por

G = (AtA)gAt, (9.19)

donde (AtA)g = PΛgP−1 es la matriz definida en (9.13). Si r = n,

entonces G = (AtA)−1At y GA = In.

Demostración.En el Teorema 9.8, se demostró que la g-inversa de matrices simétri-

cas cumplen las condiciones establecidas en la Definición 9.1. Entonces,(AtA)g las cumple. Veamos si la expresión dada en (9.19) verifica lascondiciones dadas en (9.2):

AG = A(AtA)gAt.

Pero por la propiedad d) del Teorema 9.3, se tiene que A = (At)gAtA,luego,

AGA = [(At)gAtA](AtA)gAtA = (At)g(AtA)(AtA)g(AtA)

= (At)g(AtA) = A.

Por otra parte,

GA = (AtA)gAtA.

Page 396: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

380 9. Inversa generalizada de matrices

Entonces,

GAG = (AtA)gAtA(AtA)gAt = (AtA)g(AtA)(AtA)gAt

= (AtA)gAt = G.

Ahora, observemos si AG y GA son simétricas e idempotentes:

(AG)t = [A(AtA)gAt]t = A[(AtA)g]tAt

= A[(AtA)t]gAt = AG

y

(GA)t = [(AtA)gAtA]t = [(AtA)g(AtA)]t

= (AtA)g(AtA) = GA;

la última expresión se tiene debido a que (AtA)g es una g-inversa de(AtA).

Corolario 9.8.3 Sea A una matriz real de tamaño m × n (m < n) y

rango r, (r ≤ m). Entonces, la g-inversa de A es

G = At(AAt)g, (9.20)

donde (AAt)g = PΛgP−1 es la matriz definida en (9.13). Si r = m,

entonces G = At(AAt)−1 y AG = Im.

Demostración.Queda como ejercicio para el lector.

Ejemplo 9.7 Considérese la matriz dada en el Ejemplo 9.1, obtenga la

g-inversa.

Solución.Como ρ

(A)

= 2, el producto de AAt da como resultado

AAt =

[14 1313 14

]y

(AAt

)−1=

1

27

[14 1313 14

].

Page 397: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 381

Luego, la inversa generalizada es

Ag = At(AAt

)−1=

1

9

⎡⎣5 44 51 1

⎤⎦ .

la cual es diferente a la Ag2 dada en el Ejemplo 9.1.En el caso de que no se establezca primero el rango de la matriz A,

se puede realizar el producto de AtA, el cual da como resultado

AtA =

⎡⎣ 5 4 94 5 99 9 18

⎤⎦ .

En el Ejemplo 9.5, se obtuvo que la g-inversa para esta matriz era

(AtA)g =1

81

⎡⎣41 40 140 41 11 1 2

⎤⎦ .

Por lo tanto, la g-inversa de la matriz A es

Ag =1

9

⎡⎣5 44 51 1

⎤⎦ ,

la cual coincide con la obtenida anteriormente.

Ejemplo 9.8 Determine una g-inversa para la matriz:

A =

⎡⎢⎢⎢⎢⎣1 2 3

1 1 2

2 1 1

⎤⎥⎥⎥⎥⎦ .

Solución.El producto de AAt da como resultado:

B = AAt =

⎡⎣14 7 77 6 17 1 6

⎤⎦ .

Page 398: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

382 9. Inversa generalizada de matrices

En este caso, los valores propios de B son λ1 = 21, λ2 = 5 y λ3 = 0, y los

vectores propios correspondientes son �v1 =

⎡⎣211

⎤⎦, �v2 =

⎡⎣ 011

⎤⎦ y �v3 =

⎡⎣ 111

⎤⎦,

respectivamente. Estableciendo

P =

⎡⎣2 0 11 1 11 1 1

⎤⎦ con P−1 =1

6

⎡⎣ 2 1 10 3 32 2 2

⎤⎦y

Λ =

⎡⎣21 0 00 5 00 0 0

⎤⎦ con Λg =1

105

⎡⎣5 0 00 21 00 0 0

⎤⎦ ,

se obtiene

(AAt)g =1

630

⎡⎣2 0 11 1 11 1 1

⎤⎦⎡⎣5 0 00 21 00 0 0

⎤⎦⎡⎣ 2 1 10 3 32 2 2

⎤⎦ .

Después de multiplicar las matrices, queda

(AAt)g =1

315

⎡⎣10 5 55 34 295 29 34

⎤⎦ .

Por lo tanto, la g-inversa de la matriz A es

Ag =1

105

⎡⎣ 5 29 3410 5 515 18 3

⎤⎦ .

El lector puede verificar que esta matriz cumple las condiciones dadasen (9.2).

Teorema 9.9 Supóngase que A = LU es una descomposición de la ma-

triz A de tamaño m × n, de rango r ≤ mın{m, n}. Entonces, la inversa

generalizada de A está dada por

G = U t(U U t

)−1(LtL

)−1Lt, (9.21)

Page 399: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 383

donde U es una matriz de tamaño n× r de rango r, obtenida de eliminar

las filas nulas de U, y la matriz L de tamaño m × r, también de rango

r, es obtenida eliminando las columnas que multiplican a las respectivas

filas nulas de la matriz U.

Demostración.Queda como ejercicio para el lector.

Ejemplo 9.9 Considérese la transpuesta de la matriz dada en el Ejem-

plo 9.1 y utilice el Teorema 9.9 para hallar la g-inversa.

Solución.Al transponer la matriz del Ejemplo 9.1, la factorización LU es⎡⎣ 2 1

1 23 3

⎤⎦ =

⎡⎣ 1 0 012 1 032 1 1

⎤⎦⎡⎣2 10 3

20 0

⎤⎦ = LU.

Si se elimina la última fila de U y la última columna de L, se obtiene⎡⎣ 2 11 23 3

⎤⎦ =

⎡⎣ 1 012 132 1

⎤⎦[2 10 3

2

]= L U .

Luego,

U U t =

[2 10 3

2

] [2 01 3

2

]=

1

4

[20 66 9

],

y por lo tanto

U t(U U t

)−1=

[2 01 3

2

] [14

16

16

59

]=

1

6

[3 20 4

].

Por otra parte,

LtL =

[1 1

232

0 1 1

]⎡⎣ 1 012 132 1

⎤⎦ =1

2

[7 44 4

],

Page 400: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

384 9. Inversa generalizada de matrices

de donde (LtL

)−1Lt =

1

6

[4 44 7

] [1 1

232

0 1 1

]=

1

6

[4 2 24 5 1

].

Siguiendo el procedimiento dado en (9.21), se tiene que

G =1

36

[3 20 4

] [4 2 24 5 1

]=

1

9

[5 4 14 5 1

],

la cual coincide con la transpuesta obtenida en el Ejemplo 9.7.

Ejemplo 9.10 Considérese la matriz dada en el Ejemplo 9.4, obtenga la

factorización LU de A y utilice el Teorema 9.9 para hallar la g-inversa.

Solución.La factorización LU de la matriz dada en el Ejemplo 9.4 es⎡⎣4 1 2

3 1 31 1 5

⎤⎦ =

⎡⎣1 0 034 1 014 3 1

⎤⎦⎡⎣4 1 20 1

432

0 0 0

⎤⎦ = LU.

Al eliminar la última fila de U y la última columna de L, se obtiene⎡⎣4 1 23 1 31 1 5

⎤⎦ =

⎡⎣1 034 114 3

⎤⎦[4 1 20 1

432

]= L U .

Luego,

U U t =

[4 1 20 1

432

]⎡⎣4 01 1

42 3

2

⎤⎦ =1

16

[336 5252 37

],

y por lo tanto

U t(U U t

)−1=

1

608

⎡⎣4 01 1

42 3

2

⎤⎦[37 5252 336

]=

1

152

⎡⎣37 526 81 100

⎤⎦ .

Por otra parte,

LtL =

[1 3

414

0 1 3

]⎡⎣1 034 114 3

⎤⎦ =1

8

[13 1212 80

],

Page 401: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 385

de donde(LtL

)−1Lt =

1

112

[80 1212 13

] [1 3

414

0 1 3

]=

1

28

[20 12 43 1 9

].

Siguiendo el procedimiento dado en (9.21), se tiene que

G =1

4256

⎡⎣37 526 81 100

⎤⎦[20 12 43 1 9

]=

8

4256

⎡⎣112 49 7712 10 640 11 113

⎤⎦ .

Nótese que esta matriz no coincide con la obtenida en el Ejemplo 9.4, porotra parte

AG =1

532

⎡⎣4 1 23 1 31 1 5

⎤⎦⎡⎣112 49 7712 10 640 11 113

⎤⎦ =1

14

⎡⎣10 6 26 5 32 3 13

⎤⎦ y

GA =1

532

⎡⎣112 49 7712 10 640 11 113

⎤⎦⎡⎣4 1 23 1 31 1 5

⎤⎦ =1

38

⎡⎣37 6 16 2 61 6 37

⎤⎦ .

En este caso, AG y GA dan como resultado matrices simétricas e idem-potentes. Además,

AGA =1

14

⎡⎣10 6 26 5 32 3 13

⎤⎦⎡⎣4 1 23 1 31 1 5

⎤⎦ =1

14

⎡⎣56 14 2842 14 4214 14 70

⎤⎦ = A y

GAG =1

20216

⎡⎣37 6 16 2 61 6 37

⎤⎦⎡⎣112 49 7712 10 640 11 113

⎤⎦ =1

532

⎡⎣112 49 7712 10 640 11 113

⎤⎦ = G.

Así, la matriz G cumple todos los requisitos dados en (9.2).

Teorema 9.10 Supóngase que A = QR es una descomposición de la

matriz A de tamaño m×n, de rango r ≤ mın{m, n}, de modo que Q tiene

columnas ortonormales y R es triangular superior de rango r. Entonces,

la inversa generalizada de A está dada por

G = Rt(RRt

)gQt. (9.22)

Page 402: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

386 9. Inversa generalizada de matrices

Demostración.Queda como ejercicio para el lector.

Ejemplo 9.11 Considérese la matriz dada en el Ejemplo 9.1, obtenga la

factorización QR de A y utilice el Teorema 9.10 para hallar la g-inversa.

Solución.La factorización QR de la matriz dada en el Ejemplo 9.1 es[

2 1 31 2 3

]=

[25

√5 1

5

√5

15

√5 2

5

√5

] [√5 4

5

√5 9

5

√5

0 35

√5 3

5

√5

].

Luego,

RRt =

[√5 4

5

√5 9

5

√5

0 35

√5 3

5

√5

]⎡⎣√

5 045

√5 3

5

√5

95

√5 3

5

√5

⎤⎦ =1

5

[122 3939 18

],

y por lo tanto (RRt

)g=

1

135

[18 3939 122

].

Por otra parte,

Rt(RRt

)g=

1

135

⎡⎣√

5 045

√5 3

5

√5

95

√5 3

5

√5

⎤⎦[18 3939 122

]=

√5

135

⎡⎣18 399 429 3

⎤⎦ .

Empleando el procedimiento dado en (9.22), se tiene que

G =

√5

135

⎡⎣18 399 429 3

⎤⎦[25

√5 1

5

√5

15

√5 2

5

√5

]=

15

135

⎡⎣5 44 51 1

⎤⎦ =1

9

⎡⎣5 44 51 1

⎤⎦ ,

la cual coincide con la obtenida en el Ejemplo 9.7.

Ejemplo 9.12 Inversa generalizada de una matriz cuadrada

Obtenga la g-inversa, usando el procedimiento dado en (9.22) para la

matriz:

A =

⎡⎢⎢⎢⎢⎣1 1 2

1 1 2

1 1 1

⎤⎥⎥⎥⎥⎦ .

Page 403: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 387

Solución.La factorización QR de la matriz dada es⎡⎣ 1 1 2

1 1 21 1 1

⎤⎦ =

⎡⎣ 13

√3 1

6

√6 1

2

√2

13

√3 1

6

√6 1

2

√2

13

√3 1

3

√6 0

⎤⎦⎡⎣√

3√

3√

3

0 0√

60 0 0

⎤⎦ .

Luego,

RRt =

⎡⎣√

3√

3√

3

0 0√

60 0 0

⎤⎦⎡⎣√

3 0 0√3 0 0√3

√6 0

⎤⎦ =

⎡⎣ 9 3√

2 0

3√

2 6 00 0 0

⎤⎦ ,

y por lo tanto

(RRt

)g=

1

12

⎡⎣ 2√

2 0√2 3 0

0 0 0

⎤⎦ .

Por otra parte,

Rt(RRt

)g=

√3

12

⎡⎣ 1 0 01 0 0

1√

2 0

⎤⎦⎡⎣ 2√

2 0√2 3 0

0 0 0

⎤⎦ =

√3

12

⎡⎣ 2√

2 0

2√

2 0

0 2√

2 0

⎤⎦ .

Mediante el procedimiento dado en (9.22), se tiene que

G =

√3

12

⎡⎣ 2√

2 0

2√

2 0

0 2√

2 0

⎤⎦⎡⎣ 13

√3 1

3

√3 1

3

√3

16

√6 1

6

√6 1

3

√6

12

√2 1

2

√2 0

⎤⎦ =1

12

⎡⎣ 1 1 41 1 42 2 4

⎤⎦ ,

de manera que

AG =1

12

⎡⎣ 1 1 21 1 21 1 1

⎤⎦⎡⎣ 1 1 41 1 42 2 4

⎤⎦ =1

12

⎡⎣ 6 6 06 6 00 0 12

⎤⎦ ,

GA =1

12

⎡⎣ 1 1 41 1 42 2 4

⎤⎦⎡⎣ 1 1 21 1 21 1 1

⎤⎦ =1

12

⎡⎣ 6 6 06 6 00 0 12

⎤⎦ .

De este modo, AG = GA. Además,

AGA =1

12

⎡⎣ 6 6 06 6 00 0 12

⎤⎦⎡⎣ 1 1 21 1 21 1 1

⎤⎦ =1

12

⎡⎣ 12 12 2412 12 2412 12 12

⎤⎦ = A y

GAG =1

144

⎡⎣ 6 6 06 6 00 0 12

⎤⎦⎡⎣ 6 6 06 6 00 0 12

⎤⎦ =1

12

⎡⎣ 6 6 06 6 00 0 12

⎤⎦ = G.

Page 404: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

388 9. Inversa generalizada de matrices

Así, la matriz G cumple todos los requisitos dados en (9.2).

Teorema 9.11 Sea A una matriz real de tamaño n × n con valores sin-

gulares distintos de cero σ1, σ2, . . . , σr (r = ρ(A)). Entonces, la inversa

generalizada de A está dada por

G = V SgU t, (9.23)

donde U y V son matrices ortogonales de tamaño n×n y Sg es la inversa

generalizada de la matriz dada en (3.39).

Demostración.Por el Teorema 3.32, la matriz A se puede expresar como A = USV t

y, por consiguiente, la g-inversa es

G = V SgU t.

Veamos si G cumple la primera condición de la Definición 9.1:

AGA = A(V SgU t)A = (USV t)(V SgU t)(USV t)

= US(V tV )Sg(U tU)SV t = USV t = A.

Aquí, se utilizaron los hechos de que U y V son matrices ortogonales yde que Sg es una inversa generalizada de S. Luego, G es una matriz Ag1 .Veamos si es Ag2 :

GAG = (V SgU t)A(V SgU t) = (V SgU t)(USV t)(V SgU t)

= V (SgSSg)U t = V SgU t = G.

Ahora, observemos si G es una matriz Ag3

AG = A(V SgU t) = (USV t)(V SgU t) = U(SSg)U t. (9.24)

Como

SSg =

[Ir OO O

], (9.25)

la matriz AG es simétrica e idempotente, por lo tanto G también es Ag3 .Observemos si cumple la cuarta condición dada en (9.2),

GA = (V SgU t)A = (V SgU t)(USV t) = V(SgS

)V t. (9.26)

Page 405: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 389

Usando de nuevo el hecho dado en (9.25), se tiene

(GA)t = GA.

Así, G es la g-inversa de A y el teorema queda demostrado.

Ejemplo 9.13 Considérese la matriz dada en el Ejemplo 9.12, obtenga

la g-inversa.

Solución.En este caso, los valores singulares de A son σ2

1 = 12, σ22 = 3 y

σ23 = 0. Al calcular los respectivos vectores propios normalizados de AtA,

se obtiene

�v1 =1√6

⎡⎣ 112

⎤⎦ , �v2 =1√3

⎡⎣ 111

⎤⎦ y �v3 =1√2

⎡⎣110

⎤⎦ .

Por otra parte, los respectivos vectores propios normalizados de la matrizAAt son

�u1 =1√2

⎡⎣ 110

⎤⎦ , �u2 =

⎡⎣001

⎤⎦ y �u3 =1√2

⎡⎣110

⎤⎦ .

Por lo tanto, sí se establece que

U =1√2

⎡⎣ 1 0 11 0 1

0√

2 0

⎤⎦ y V t =1√6

⎡⎣ 1 1 2√2

√2

√2√

3√

3 0

⎤⎦y

S =

⎡⎣√

12 0 0

0√

3 00 0 0

⎤⎦ , luego Sg =

√3

6

⎡⎣1 0 00 2 00 0 0

⎤⎦ ,

se obtiene

G =

√3

6

1√6

1√2

⎡⎣ 1√

2√

3

1√

2√

3

2√

2 0

⎤⎦⎡⎣1 0 00 2 00 0 0

⎤⎦⎡⎣1 1 0

0 0√

21 1 0

⎤⎦ .

Page 406: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

390 9. Inversa generalizada de matrices

Después de realizar la multiplicación de las matrices, queda

G =1

12

⎡⎣ 1 1 41 1 42 2 4

⎤⎦ ,

la cual coincide con la obtenida en el Ejemplo 9.12.

Corolario 9.11.1 Sea A una matriz real de tamaño m × n con valores

singulares distintos de cero σ1, σ2, . . . , σr (r = ρ(A)). Entonces, la g-

inversa de A es la matriz definida de la siguiente forma:

G = V SgU t, (9.27)

donde U y V son matrices ortogonales de tamaño m×m y n×n, respec-

tivamente y Sg es la inversa generalizada de la matriz dada en (3.39).

Demostración.Queda como ejercicio para el lector.

Ejemplo 9.14 Considérese la matriz dada en el Ejemplo 9.1, obtenga la

g-inversa.

Solución.En este caso, los valores singulares de A son σ2

1 = 27 y σ22 = 1. Al

calcular los respectivos vectores propios normalizados de AtA, se obtiene:

�v1 =1√6

⎡⎣ 112

⎤⎦ , �v2 =1√2

⎡⎣ 110

⎤⎦ y �v3 =1√3

⎡⎣ 111

⎤⎦ .

Por otra parte, los respectivos vectores propios normalizados de la matrizAAt son

�u1 =1√2

[11

]y �u2 =

1√2

[11

].

Page 407: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 391

Por lo tanto, si se establece

U =1√2

[1 11 1

]y V t =

1√6

⎡⎣ 1 1 2√3

√3 0√

2√

2√

2

⎤⎦ ,

y

S =

[√27 0 00 1 0

], luego Sg =

1

3√

3

⎡⎣1 0

0 3√

30 0

⎤⎦ .

Así se obtiene

G =1

3√

3

1√6

1√2

⎡⎣ 1√

3√

2

1√

3√

2

2 0√

2

⎤⎦⎡⎣1 0

0 3√

30 0

⎤⎦[1 11 1

].

Después de multiplicar las matrices, queda

G =1

9

⎡⎣5 44 51 1

⎤⎦ ,

la cual coincide con la obtenida en el Ejemplo 9.7.

El primer método para determinar inversas generalizadas fue presen-tado en Penrose (1955a, 1955b) y está dado en el siguiente teorema.

Teorema 9.12 Método de Penrose

Sea A una matriz real de tamaño m × n y rango r ≤ mın{m, n},particionada de la siguiente forma:

A =

⎡⎢⎣A11 A12

A21 A22

⎤⎥⎦ , (9.28)

con A11 una submatriz no singular de tamaño r × r y(A/A11

)= O .

Entonces, la inversa generalizada de A es

G =

⎡⎢⎣At11P11A

t11 At

11P11At21

At12P11A

t11 At

12P11At21

⎤⎥⎦ , (9.29)

donde P11 =(A11A

t11 + A12A

t12

)−1A11

(At

11A11 + At21A21

)−1.

Page 408: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

392 9. Inversa generalizada de matrices

Demostración.Como A11 es no singular, la matriz A se puede particionar como sigue:[

A11 A12

A21 A22

]︸ ︷︷ ︸ =

[A11

A21

]︸ ︷︷ ︸

[Ir A−1

11 A12

]︸ ︷︷ ︸ .

Am×n = Lm×r Ur×n

En esta partición se usa el hecho que(A/A11

)= O . Luego,

Ag =[Ir A−1

11 A12

]g [A11

A21

]g.

Por el Corolario 9.8.3, se tiene que[Ir A−1

11 A12

]g=

[Ir A−1

11 A12

]t {[Ir A−1

11 A12

] [Ir A−1

11 A12

]t}−1

=

[Ir

At12

(At

11

)−1

] [Ir + A−1

11 A12At12

(At

11

)−1]−1

=

[ (Ir + A−1

11 A12At12

(At

11

)−1)−1

At12

(At

11

)−1(Ir + A−1

11 A12At12

(At

11

)−1)−1

].

Nótese que[Ir + A−1

11 A12At12

(At

11

)−1]−1=

[A−1

11

(A11 + A12A

t12

(At

11

)−1)]−1

=[A11 + A12A

t12

(At

11

)−1]−1A11

=[(

A11At11 + A12A

t12

)(At

11

)−1]−1A11

= At11

(A11A

t11 + A12A

t12

)−1A11,

por lo tanto,

[Ir A−1

11 A12

]g=

[At

11

(A11A

t11 + A12A

t12

)−1A11

At12

(A11A

t11 + A12A

t12

)−1A11

].

Por otra parte, por el Corolario 9.8.2, se tiene que[A11

A21

]g=

{[A11

A21

]t [A11

A21

]}−1 [A11

A21

]t=

[At

11A11 + At21A21

]−1 [At

11 At21

]=

[(At

11A11 + At21A21

)−1At

11

(At

11A11 + At21A21

)−1At

21

].

Page 409: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 393

Si se realizan los respectivos productos, se llega a que la Ag es

Ag =[Ir A−1

11 A12

]g [A11

A21

]g=

[At

11P11At11 At

11P11At21

At12P11A

t11 At

12P11At21

], (9.30)

con P11 =(A11A

t11 + A12A

t12

)−1A11

(At

11A11 + At21A21

)−1 y el teoremaqueda demostrado.

Corolario 9.12.1 Sea A una matriz cualquiera de rango r, particionada

como en 9.28, donde A22 es una submatriz no singular de tamaño r × r

y la submatriz(A/A22

)= O . Entonces, la inversa generalizada de A es

G =

⎡⎢⎣At21P22A

t12 At

21P22At22

At22P22A

t12 At

22P22At22

⎤⎥⎦ , (9.31)

donde P22 =(A22A

t22 + A21A

t21

)−1A22

(At

22A22 + At12A12

)−1.

Demostración.Queda como ejercicio para el lector.

Antes de dar ejemplos, se proporciona el siguiente procedimiento querecoge el método de Penrose para determinar la inversa generalizada:

Procedimiento para determinar la inversa generalizada

Realice una partición de la matriz A como sigue:

A =

[A11 A12

A21 A22

],

de tal manera que una de las submatrices A11 o A22 sea cuadraday tenga igual rango que la matriz A.

I. Si A11 es la submatriz no singular:

a) Verifique que(A/A11

)= O .

b) Obtenga:

P11 =(A11A

t11 + A12A

t12

)−1A11

(At

11A11 + At21A21

)−1.

c) Forme la matriz:[At

11P11At11 At

11P11At21

At12P11A

t11 At

12P11At21

],

este resultado es la inversa generalizada de A.

Page 410: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

394 9. Inversa generalizada de matrices

II. Si A22 es la submatriz no singular:

a) Verifique que(A/A22

)= O .

b) Obtenga:

P22 =(A22A

t22 + A21A

t21

)−1A22

(At

22A22 + At12A12

)−1.

c) Forme la matriz:[At

21P22At12 At

21P22At22

At22P22A

t12 At

22P22At22,

],

este resultado es la inversa generalizada de A.

Ejemplo 9.15 Calcule, utilizando el método descrito anteriormente, la

inversa generalizada de la matriz dada en el Ejemplo 9.4.

Solución.Para la partición (2 + 1) × (2 + 1), de la matriz dada se tiene

A =

⎡⎢⎢⎢⎢⎢⎣4 1

... 2

3 1... 3

. . . . . . . . . .

1 1... 5

⎤⎥⎥⎥⎥⎥⎦ =

[A11 A12

A21 A22

].

Luego, A11 es no singular ya que su determinante es 1. El lector puedeverificar que

(A/A11

)= O . Además,

A11At11 + A12A

t12 =

[17 1313 10

]+

[4 66 9

]=

[21 1919 19

]y

At11A11 + At

21A21 =

[25 77 2

]+

[1 11 1

]=

[26 88 3

].

Por lo tanto, P11 se obtiene como

P11 =

[21 1919 19

]−1 [4 13 1

] [26 88 3

]−1

=1

532

[57 15255 156

].

Page 411: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.3. Métodos para calcular inversas generalizadas 395

El lector puede realizar los otros productos y llegar a que

G =1

532

⎡⎣112 49 7712 10 640 11 113

⎤⎦ ,

la cual coincide con la obtenida en el Ejemplo 9.10.

Ejemplo 9.16 Considérese la matriz dada en el Ejemplo 9.12. Obtenga

la g-inversa mediante el método descrito anteriormente.

Solución.Realizando una partición (1 + 2) × (1 + 2) a la matriz dada, se tiene

A =

⎡⎢⎢⎢⎢⎢⎣1

... 1 2. . . . . . . . . .

1... 1 2

1... 1 1

⎤⎥⎥⎥⎥⎥⎦ =

[A11 A12

A21 A22

].

Luego, A22 es no singular, ya que su determinante es −3. El lector puedeverificar que

(A/A22

)= O . También,

A22At22 + A21A

t21 =

[5 11 2

]+

[1 11 1

]=

[6 00 3

]y

At22A22 + At

12A12 =

[2 11 5

]+

[1 22 4

]=

[3 33 9

].

Por lo tanto, P22 se obtiene como

P22 =

[6 00 3

]−1 [1 21 1

] [3 33 9

]−1

=1

36

[1 18 4

].

El lector puede realizar los otros productos y llegar a que

G =1

12

⎡⎣ 1 1 41 1 42 2 4

⎤⎦ .

Nótese que esta matriz coincide con la obtenida en el Ejemplo 9.12.

Page 412: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

396 9. Inversa generalizada de matrices

9.4 Vectores y valores propios

Si A es una matriz no singular, por el Teorema 2.10 se sabe que losvalores propios de A−1 son los recíprocos de los valores propios de A ylos correspondientes vectores propios son los mismos. En esta sección semuestran las relaciones entre los valores y vectores propios de una matrizcuadrada y los asociados a la g-inversa.

Teorema 9.13 Sea G la g-inversa de A y λ un valor propio distinto

de cero de A con vector propio correspondiente �v �= �0. Entonces, una

condición suficiente para que G�v = λ−1�v es que AG = GA.

Demostración.Si A�v = λ�v, entonces, premultiplicando por AG, se obtiene que

AGA︸ ︷︷ ︸�v = λAG�v

A �v = λAG�v

λ�v = λAG�v.

Como λ �= 0, entonces

�v = AG�v si AG = GA

= GA�v = λG�v.

Es decir, G�v = λ−1�v.

Ejemplo 9.17 Determine los vectores y valores propios de la matriz g2-

inversa, obtenida en el Ejemplo 9.4.

Solución.En el Ejemplo 9.4, se obtuvo que

G =1

441

⎡⎣106 9 5257 9 341 9 95

⎤⎦ .

El polinomio característico de G es

pG(λ) = − 1

21λ(7λ − 1

)(3λ − 1

),

Page 413: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.4. Vectores y valores propios 397

luego, los valores propios de G son λ1 = 0, λ2 = 17 y λ3 = 1

3 , y los

vectores propios correspondientes son �v1 =

⎡⎣ 161

⎤⎦, �v2 =

⎡⎣111

⎤⎦ y �v3 =

⎡⎣ 735

⎤⎦,

respectivamente.

Teorema 9.14 Si A es simétrica, los valores propios no nulos de A y

Ag3 son recíprocos.

Demostración.Si A�v = λ�v, entonces, premultiplicando por AAg3 , da

AAg3A︸ ︷︷ ︸�v = λAAg3�v

A �v = λ(AAg3

)t�v

λ�v = λ(Ag3

)tA�v.

Como λ �= 0, entonces (Ag3

)t�v = λ−1�v.

El resultado se sigue, puesto que una matriz y su transpuesta tienen losmismos valores propios.

Ejercicios 9.1

1. En los siguientes problemas, determine la inversa generalizada con

los métodos descritos en esta sección:

a)

⎡⎢⎣ 1 1

1 1

⎤⎥⎦ . b)

⎡⎢⎣1 1 1

1 0 2

⎤⎥⎦ . c)

⎡⎢⎣1 0 3

2 1 6

⎤⎥⎦ .

d)

⎡⎢⎢⎢⎢⎣1 1 1

1 1 1

1 1 3

⎤⎥⎥⎥⎥⎦ . e)

⎡⎢⎢⎢⎢⎣5 2 1

2 2 2

1 2 5

⎤⎥⎥⎥⎥⎦ . f)

⎡⎢⎢⎢⎢⎣3 1 4 1

1 1 5 1

4 5 2 0

⎤⎥⎥⎥⎥⎦ .

2. Encuentre una inversa generalizada para cada una de las siguientes

matrices:

Page 414: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

398 9. Inversa generalizada de matrices

(a) PAQ cuando P y Q son no singulares

(b) GA cuando G es una inversa generalizada de A

(c) kA cuando k es un escalar

(d) PAP t cuando P es ortogonal y A es idempotente

3. Sean A y X matrices simétricas tal que AX = 0, si X es idempo-

tente y A+X es no singular, pruebe que(A+X

)−1 es una inversa

generalizada para A y X.

4. Para X particionada como X =

⎡⎢⎣X1

X2

⎤⎥⎦ con X1 de rango completo

columna, pruebe que X(XtX)gXt = X1(Xt1X1)

gXt1.

9.5 Solución de sistemas de ecuaciones lineales

Entre las múltiples aplicaciones que tiene el concepto de inversa genera-lizada cabe señalar el papel que desempeña en el análisis y la “solución”de sistemas lineales consistentes e inconsistentes. En el caso de sistemasconsistentes, como las soluciones existen, permite caracterizarlas, y parasistemas inconsistentes, a pesar de que por definición carece de soluciones,proporciona soluciones aproximadas. En esta sección se analiza con ayudade la g-inversa de la matriz A cuando (9.1) es consistente y cómo son sussoluciones.

Teorema 9.15 El sistema de ecuaciones lineales dado en (9.1) es con-

sistente si y solo si se verifica que

AAg1�b = �b. (9.32)

Page 415: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.5. Solución de sistemas de ecuaciones lineales 399

Demostración.Si para Ag1 , se cumple que

AAg1�b = �b,

entonces el sistema (9.1) es consistente, puesto que al menos �x′ = Ag1�bes solución.

Recíprocamente, la condición es necesaria pues si el sistema es con-sistente, existe �x0 ∈ Rn tal que

A�x0 = �b.

Ahora bien, como Ag1 siempre existe, premultiplicando la expresión an-terior por AAg1 , se obtiene

AAg1A︸ ︷︷ ︸ �x0 = AAg1�b

A �x0︸ ︷︷ ︸ = AAg1�b

�b = AAg1�b,

lo cual prueba el teorema.

Teorema 9.16 Dado un sistema consistente:

A�x = �b,

con A de tamaño m × n, �x ∈ Rn y �b ∈ Rm, se verifica que:

i) Para todo �d ∈ Rn,

�x0 = Ag1�b +(In − Ag1A

)�d (9.33)

es solución del sistema.

ii) Si �x′ es una solución cualquiera del sistema, existe �d ∈ Rn tal que

�x′ puede expresarse en la forma dada en (9.33).

Page 416: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

400 9. Inversa generalizada de matrices

Demostración.

i) Sea �x0 una solución del sistema, es decir

A�x0 = �b.

Entonces, por el Teorema 9.15 y la definición de Ag1 , se tiene que

A�x0 = AAg1�b + A(In − Ag1A

)�d = �b + A�d − A�d.

ii) Si �x′ es una solución cualquiera del sistema, se verifica que

�b − A�x′ = �0.

Si se premultiplica por Ag1 y se suma �x′ a ambos lados, se tiene que

Ag1�b − Ag1A�x′ + �x′ = �x′

Ag1�b +(In − Ag1A

)�x′ = �x′.

Luego, tomando en el lado izquierdo �d = �x′, se obtiene lo que sedeseaba.

Teorema 9.17 Dado el sistema consistente:

A�x = �b,

con A de tamaño m×n, �x ∈ Rn y �b ∈ Rm, se verifica que existe solución

única �x′ si y solo si AgA = In, siendo Ag la g-inversa de la matriz A.

Demostración.Queda como ejercicio para el lector.

Ejemplo 9.18 Determine una solución del sistema de ecuaciones:

x1 + 6x2 + 11x3 = 0

6x1 + 46x2 + 86x3 = 20 (9.34)

11x1 + 86x2 + 161x3 = 40.

Page 417: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.5. Solución de sistemas de ecuaciones lineales 401

Solución.Si se reescribe (9.34), se llega a⎡⎣ 1 6 11

6 46 8611 86 161

⎤⎦⎡⎣x1

x2

x3

⎤⎦ =

⎡⎣ 02040

⎤⎦ . (9.35)

El sistema dado en (9.34) se puede resolver usando inversa generalizaday usando cualquiera de los métodos descritos en este capítulo. De estamanera, se tiene que

Ag =1

180

⎡⎣ 517 190 137190 70 50137 50 37

⎤⎦ .

Veamos si el sistema de ecuaciones (9.34) es consistente determinado

AgA =1

180

⎡⎣ 517 190 137190 70 50137 50 37

⎤⎦⎡⎣ 1 6 116 46 8611 86 161

⎤⎦=

1

6

⎡⎣ 5 2 12 2 21 2 5

⎤⎦ �= I3.

Por el Teorema 9.17, el sistema es consistente indeterminado, luego unasolución de (9.34) es⎡⎣x1

x2

x3

⎤⎦ =1

180

⎡⎣ 517 190 137190 70 50137 50 37

⎤⎦⎡⎣ 02040

⎤⎦=

1

9

⎡⎣ 517 190 137190 70 50137 50 37

⎤⎦⎡⎣012

⎤⎦ =1

3

⎡⎣28108

⎤⎦ . (9.36)

Teniendo en cuenta el Teorema 9.16, para todo �d = (α, β, γ) ∈ R3, elvector

�x0 = Ag�b +(In − AgA

)�d =

1

6

⎡⎣ 56 + α − 2β + γ20 − 2α + 4β − 2γ16 + α − 2β + γ

⎤⎦ ,

es una solución del sistema, como el lector puede comprobar fácilmentesustituyendo �x0 en (9.34).

Page 418: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

402 9. Inversa generalizada de matrices

Teorema 9.18 Dado el sistema de ecuaciones lineales:

A�x = �b,

en donde A es una matriz de tamaño m×n con rango r, �x ∈ Rn y �b ∈ Rm.

Considérese la función residuo:

rrr(�x)

= A�x −�b

para cualquier �x. Entonces, �x′ = Ag�b es una solución aproximada mínimo

cuadrática (LS por su sigla en inglés) del sistema si y solo si mínimiza a

‖rrr(�x)‖.Demostración.

Si se reescribe la norma euclídea de rrr(�x), se obtiene que

‖rrr(�x)‖2 = rrr(�x)t

rrr(�x)︸ ︷︷ ︸ =

(A�x −�b

)t(A�x −�b

)=

(�xtAt −�bt

)(A�x −�b

)F(�x)

= �xtAtA�x −�btA�x − �xtAt�b +�bt�b.

Para determinar la �x que minimiza esta suma de cuadrados de los resi-duos, se calculan las derivadas parciales2 de F

(�x)

con respecto a �x

∂F(�x)

∂�x= 2AtA�x − 2At�b = �0. (9.37)

Al despejar �x, se obtiene un mínimo global de F(�x)

pues

∂2F(�x)

∂�x2= 2AtA,

la cual es una matriz definida positiva si A es de rango completo, o se-midefinida positiva en caso contrario, y por ello, en ambas situaciones,F(�x)

es una función convexa.Luego, si se sustituye �x′ en (9.37), se tiene

AtAAg�b − At�b = �0 o(AtAAg − At

)�b = �0,

2 Si el lector desea consultar técnicas de derivación matricial, puede ver Barbolla& Sanz (1998, cap. 5).

Page 419: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.5. Solución de sistemas de ecuaciones lineales 403

pero como �b es cualquier vector de Rm, esto equivale a la condición

AtAAg = At;

esto se sigue inmediatamente del Teorema 9.3 parte d).

Definición 9.2 Dado el sistema lineal A�x = �b y la función residuo

rrr(�x)

= A�x −�b, se dice que:

i) �x′ es una solución aproximada mínimo cuadrática (LS por su sigla

en inglés) del sistema si y solo si para todo �x ∈ Rn, se verifica que

rrr(�x′)trrr(�x′) ≤ rrr

(�x)t

rrr(�x).

ii) Una solución aproximada mínimo cuadrática �x′ es de norma míni-

ma (MNLS por su sigla en inglés) si y solo si para todo �x ∈ Rn,

se cumple que

rrr(�x′)trrr(�x′) = rrr

(�x)t

rrr(�x).

En el siguiente resultado, se recogen dos características de las solucionesmínimo cuadráticas LS para sistemas inconsistentes a partir de la g3-inversa de la matriz de coeficientes del sistema.

Teorema 9.19 Dado el sistema de ecuaciones lineales inconsistente:

A�x = �b,

con A de tamaño m × n, �x ∈ Rn y �b ∈ Rm, se verifica que

(i) �x′ = G�b es una solución LS del sistema si y solo si G es una Ag3 .

(ii) La solución �x0 dada en (9.33) es una solución LS del sistema si y

solo si �x′ es solución del sistema consistente:

A�x = AAg3�b.

Page 420: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

404 9. Inversa generalizada de matrices

Demostración.

(i) Por el Teorema 9.18, una solución LS del sistema es de la forma

�x = Ag�b.

Falta entonces comprobar qué condiciones de las dadas en (9.2)debe cumplir G si �x′ = G�b es solución LS del sistema y, por tanto,solución de (9.37). Así, sustituyendo �x′ en (9.37), se tiene

AtAG�b − At�b = �0,

y como �b es cualquier vector de Rm, esto equivale a la condición

AtAG = At,

que se verifica si y solo si G es una g3-inversa de A, ya que

AG es simétrica y AtGtAt = At.

(ii) Si el sistemaA�x = AAg3�b

es consistente, entonces por el Teorema 9.16, sus soluciones son dela forma

�x′ = Ag1(AAg3�b

)+

(In − Ag1A

)�d

para cualquier �d ∈ Rm o también

�x′ = Ag3(AAg3�b

)+

(In − Ag3A

)�d = Ag3�b +

(In − Ag3A

)�d,

como cualquier g3-inversa de A es a su vez g1-inversa.

La demostración concluye si se muestra que �x′ es una solución LSdel sistema A�x = �b. Para ello, razonando como en (i), �x′ debe sersolución de (9.37), lo cual es válido pues de acuerdo con la definiciónde la g3-inversa,

AtA[Ag3�b +

(In − Ag3A

)�d]− At�b = AtAAg3�b − At�b,

y como AAg3 =(Ag3

)tAt, dada la simetría de AAg3 , se obtiene

finalmente que

At(Ag3

)tAt�b − At�b = �0.

Page 421: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.5. Solución de sistemas de ecuaciones lineales 405

Teorema 9.20 Dado el sistema inconsistente:

A�x = �b,

con A de tamaño m× n, �x ∈ Rn y �b ∈ Rm, su solución MNLS es única

y está dada por

�x′ = Ag�b. (9.38)

Demostración.Si Ag es la g-inversa de A, también es g3-inversa de A y, por ello, en

virtud del teorema anterior, está garantizado que

�x′ = Ag�b

es solución LS del sistema.Bastará, por tanto, probar que �x′ es única y de mínima norma.

• �x′ es MNLS.

En efecto, por ser �x′ LS, es solución del sistema

A�x = AAg�b

o equivalentemente

AgA�x = AgAAg�b = Ag�b. (9.39)

Por lo tanto, cualquier solución LS es de la forma

�x = Ag�b +(In − AgA

)�x,

y el cuadrado de su norma euclídea es

�xt�x = �bt(Ag

)tAg�b +

(�x − AgA�x

)t(�x − AgA�x

).

Si se sustituye (9.39) en esta expresión, resulta

�xt�x =�bt(Ag

)tAg�b +

(�x − Ag�b

)t(�x − Ag�b

)=

∥∥Ag�b∥∥2

+∥∥�x − Ag�b

∥∥2,

de donde

�xt�x ≥ (�x′)t(�x′) =

∥∥Ag�b∥∥2

cuando �x′ = Ag�b.

Page 422: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

406 9. Inversa generalizada de matrices

• �x′ es única.

Supóngase que �x0 ∈ Rn es también solución MNLS del sistema.Entonces, �x0 cumple que(

�x0

)t(�x0

)=

∥∥Ag�b∥∥2

+∥∥�x0 − Ag�b

∥∥2=

(�x′)t(�x′) =

∥∥Ag�b∥∥2

.

Por lo tanto, ∥∥�x0 − Ag�b∥∥2

= 0.

Es decir,

�x0 − Ag�b = �0 ⇔ �x0 = Ag�b.

En consecuencia,

�x0 = �x′,

y esto es lo que se quería demostrar.

Ejercicios 9.2

1. Encuentre una solución para cada uno de los sistemas de ecuaciones

lineales dados a continuación:

a) 3x1 − 2x2 − x3 = 1 b) x1 − x2 − x3 = 2

−x1 + 2x2 + 2x3 = 2 2x1 + x2 + 2x3 = 4

x1 + 2x2 + 3x3 = 4. x1 − 4x2 − 5x3 = 2.

c) x1 − 2x2 + 3x3 + x4 = 2 d) x1 − 2x2 + x3+ x4 = 2

x1 − x3 + x4 = 5 3x1 + 2x3−2x4 = −8

3x1 − 2x2 + 2x3 = 2. 4x2 − x3− x4 = 1

5x1 + 3x3− x4 = −3.

Page 423: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

9.5. Solución de sistemas de ecuaciones lineales 407

2. Sea X una matriz de tamaño m× n (m > n) y rango r < n. Sea G

una inversa generalizada de XtX, defina:

�b = GXt�Y , s2 = (�Y − X�b)t(�Y − X�b),

�b0 = �b − GQ(QtGQ

)−1(Qt�b − �m

), con Q =

(GXtXGt

)tX.

Pruebe que:

(a) s2 = �Y t�Y −�btXt�Y .

(b) Qt�b0 = �m.

(c) (�Y −X�b0)t(�Y −X�b0) = s2 + (Qt�b− �m)t(QtGQ)−1(Qt�b− �m).

Page 424: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 425: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Capítulo 10

Aplicaciones

En este capítulo se recopilan algunos desarrollos teóricos de la estadística.El lector que esté interesado en profundizarlos puede consultar textosde modelos lineales o estadística multivariada (o cursar las asignaturascorrespondientes). El propósito de este capítulo es ilustrar la utilidad delos conceptos tratados en este escrito, y por eso se omiten tanto conceptosbásicos del área de la estadística, como aquellos temas avanzados que ellector aprenderá posteriormente.

10.1 Matrices estocásticas

Las matrices estocásticas corresponden a un tipo especial de matricesdefinidas positivas, y se usan con frecuencia en el estudio de fenómenosaleatorios, en teoría de la probabilidad y estadística.

Definición 10.1 Una matriz A = [aij ] de tamaño n × n se dice que

es estocástica por filas (columnas) si todos sus elementos son números

reales no negativos y la suma de los elementos de cada una de sus filas

(columnas) es igual a 1. Es decir:

0 ≤ aij ≤ 1 i, j = 1, 2, . . . , n

409

Page 426: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

410 10. Aplicaciones

y además:

A111 =n∑

j=1

aij = 1 si A es estocástica por filas

111tA =n∑

i=1

aij = 1 si A es estocástica por columnas,

donde 111 es el vector columna de unos de tamaño n × 1. Se dice que A

es doblemente estocástica cuando es estocástica tanto por filas como por

columnas.

Teorema 10.1 Si A y B son estocásticas (doblemente estocásticas), se

verifica:

i) AB es estocástica (doblemente estocástica).

ii) Para todo k ∈ N, Ak es estocástica (doblemente estocástica).

iii) Cuando A es doblemente estocástica, entonces At también lo es.

Teorema 10.2 Si A es una matriz estocástica por filas (columnas), en-

tonces λ = 1 es uno de sus valores propios.

Demostración.Sea A una matriz de tamaño n×n tal que A es una matriz estocástica

por columnas. Basta probar que

det(A − I

)= 0.

Para ello, veamos que las filas de la matriz A − I no son linealmenteindependientes. Si B = A− I, consideremos la suma vectorial de las filasde la matriz B:

�Bt1 + �Bt

2 + . . . �Btn =

⎡⎢⎢⎢⎣a11 − 1

a12...

a1n

⎤⎥⎥⎥⎦ +

⎡⎢⎢⎢⎣a21

a22 − 1...

a2n

⎤⎥⎥⎥⎦ + . . . +

⎡⎢⎢⎢⎣an1

an2...

ann − 1

⎤⎥⎥⎥⎦ .

Page 427: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.1. Matrices estocásticas 411

Es decir,

�Bt1 + �Bt

2 + . . . �Btn =

⎡⎢⎢⎢⎣a11 + a21 + . . . + an1 − 1a12 + a22 + . . . + an2 − 1

...a1n + a2n + . . . + ann − 1

⎤⎥⎥⎥⎦ . (10.1)

Como A es una matriz estocástica por columnas, las entradas de cadacolumna de A suman uno, y por lo tanto

n∑i=1

aij = 1 ∀j,

luego, (10.1) se transforma en �Bt1 + �Bt

2 + . . . + �Btn = �0, es decir, se

encontró una combinación lineal no trivial de las filas de B = A − Ique producen el vector cero de Rn. Por lo tanto, las filas de A − I sonlinealmente dependientes, luego la matriz A − I es singular, es decir,det

(A − I

)= 0 y entonces, λ = 1 es un valor propio de A.

Definición 10.2 Matriz regular

Una matriz estocástica A se dice regular si todos los elementos de

al menos una de sus potencias Ak (k entero positivo) son estrictamente

positivos (mayores que cero).

Definición 10.3 Cadena de Markov

Una cadena de Markov, o proceso de Markov, es un proceso en el

cual la probabilidad de que el sistema esté en un estado particular en un

periodo dado de observación depende solamente de su estado en el periodo

de observación inmediatamente anterior.

Definición 10.4 Probabilidad de transición

Se define la probabilidad de transición pij (i, j = 1, 2, ..., n) como la

probabilidad de que el sistema pase del estado j al estado i en la siguiente

observación.

Page 428: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

412 10. Aplicaciones

Definición 10.5 Matriz de transición

A cada cadena de Markov se le puede asignar una única matriz de

transición P , cuyos elementos son las probabilidades pij . Esta matriz es

cuadrada y su dimensión depende del número posible de estados, la matriz

P resulta ser estocástica.

Definición 10.6 Vector de probabilidad

Un vector de probabilidad es un vector columna con entradas no ne-

gativas en el que la suma de sus elementos es igual a la unidad. Se dice

que los vectores de probabilidad X(n), para n = 0, 1, . . . , son los vectores

de estado de un proceso de Markov si la componente de orden i, p(n)i de

X(n) es la probabilidad de que el sistema esté en el estado i cuando se

hace la observación n.

Teorema 10.3 Si P es la matriz de transición de un proceso de Markov

y X(n) es el vector columna de la observación n, se tendrá que:

X(n) =

⎧⎪⎨⎪⎩ PX(n−1) si P es estocástica por columnas

P tX(n−1) si P es estocástica por filas(10.2)

La ecuación (10.2) implica

X(1) = PX(0)

X(2) = PX(1) = P(PX(0)

)= P 2X(0)

X(3) = PX(2) = P(P 2X(0)

)= P 3X(0)

y, en general,X(n) = PnX(0). (10.3)

Así, la matriz de transición y el vector de estados inicial X(0) determinancompletamente los demás vectores de estado.

Page 429: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.1. Matrices estocásticas 413

Definición 10.7 Un proceso de Markov es regular si su matriz de tran-

sición es una matriz estocástica regular.

Teorema 10.4 Si P es una matriz de transición regular de tamaño n×n,

entonces cuando n → ∞, Pn tiende a una matriz R de tamaño n× n de

la forma:

R = [�v �v . . . �v] ,

donde �v es un vector de probabilidad de tamaño n × 1, con todos sus

elementos mayores que cero.

Demostración.El lector puede consultarla en Kemeny & Snell (1976).

Teorema 10.5 Si P es una matriz de transición regular de tamaño n×n

y R y �v son como en el Teorema 10.4, entonces:

(i) Para cualquier vector X(0) de probabilidad inicial, PnX(0) tiende a

�v cuando aumenta n, esto es

lımn→∞

(PnX(0)

)= �v.

Es decir, todo proceso regular de Markov tiene un vector esta-

cionario �v.

(ii) El vector estacionario �v es el único vector de probabilidad que sa-

tisface la ecuación:

P�v = �v, o(P − I

)�v = �0.

Luego, �v es un vector propio de P asociado al valor propio λ = 1.

Page 430: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

414 10. Aplicaciones

Ejemplo 10.1 Una empresa de investigación de mercado estudia un

grupo de consumidores de café, los cuales compran una lata del grano cada

semana. Las personas que actualmente toman la marca A, la comprarán

de nuevo la próxima semana con una probabilidad de 0.50, cambiarán a la

marca B con una probabilidad de 0.25 y comprarán la marca D con una

probabilidad de 0.25. De las personas que ahora consumen la marca B,

preferirán la próxima semana la marca A, B o D con probabilidades de

0.60, 0.30, 0.10, respectivamente. Ahora, de las personas que en la actua-

lidad compran la marca D adquirirán la próxima semana la marca A, B

o D con probabilidades de 0.30, 0.40, 0.30. Suponga que al iniciar el es-

tudio, la marca A tiene el 20 % del mercado, la marca B tiene el 20 % y

la otra marca el 60 %. ¿A largo plazo cuál será el porcentaje del mercado

que tendrán las marcas A, B y D?

Solución.Si se aborda el problema por medio de las cadenas de Markov.

P =

A B D⎡⎣ 0.50 0.60 0.400.25 0.30 0.300.25 0.10 0.30

⎤⎦ ABD

Como P es estocástica por columnas, al calcular los valores propios de P,

se obtienen λ1 = 1, λ2 = 120 −

√3

20 i y λ3 = 120 +

√3

20 i, y los vectores propios

correspondientes son �v1 =

⎡⎣462520

⎤⎦ y �v2 =

⎡⎣ 110

⎤⎦+ i

⎡⎣√

30√3

⎤⎦, respectivamente.

Esto implica que la matriz P no es diagonalizable; sin embargo,

Pn =

⎡⎣ 46 1√

325 1 0

20 0√

3

⎤⎦⎡⎢⎣ 1 0 0

0 120

√3

20

0√

320

120

⎤⎥⎦n ⎡⎣ 46 1

√3

25 1 0

20 0√

3

⎤⎦−1

.

Page 431: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.1. Matrices estocásticas 415

Luego,

lımn→∞Pn =

1

273

⎡⎣ 46 1√

325 1 0

20 0√

3

⎤⎦⎡⎢⎣ 1 0 0

0 120

√3

20

0√

320

120

⎤⎥⎦n ⎡⎣ 3 3 3

75 198 75

20√

3 20√

3 71√

3

⎤⎦ .

Aquí, las potencias de la forma 3n cumplen que⎡⎢⎣ 1 0 0

0 120

√3

20

0√

320

120

⎤⎥⎦3n

=

⎡⎢⎣ 1 0 0

0 ( 1)n

103n 0

0 0 ( 1)n

103n

⎤⎥⎦ ,

y como(

1103

)n tiende a cero cuando n → ∞,

lımn→∞P 3n =

1

91

⎡⎣ 46 46 4625 25 2520 20 20

⎤⎦ .

Nótese que lımn→∞Pn da como resultado una matriz con todas sus co-

lumnas iguales al vector de probabilidad correspondiente al vector propio

asociado al valor propio λ = 1. Para convertir el vector propio �v1 =

⎡⎣462520

⎤⎦,

en un vector de probabilidad, se divide cada una de sus componentes porla suma de todos sus elementos, es decir

�v =1

91�v1 =

1

91

⎡⎣462520

⎤⎦ .

Por lo tanto, el vector de estados a largo plazo es

lımn→∞X(n) = lım

n→∞PnX(0) =1

91

⎡⎣ 46 46 4625 25 2520 20 20

⎤⎦⎡⎣151535

⎤⎦ =

⎡⎣469125912091

⎤⎦Entonces, se puede decir que a largo plazo la marca A tendrá el controlde cerca del 46

91 ≈ 50.55 % del mercado, la marca B el 2591 ≈ 27.47 % del

mercado y la otra marca el 2091 ≈ 21.98 % del mercado.

Page 432: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

416 10. Aplicaciones

Ejemplo 10.2 Supóngase que el clima en cierta ciudad es bueno, regular

o malo. Si el clima es bueno hoy, será bueno mañana con una probabilidad

de 0.60, será regular con una probabilidad de 0.20 y será malo con una

probabilidad de 0.20. Si el clima es regular hoy, será bueno, regular o

malo con probabilidades de 0.25, 0.50, 0.25, respectivamente. Ahora, si el

clima es malo hoy, mañana será bueno, regular o malo con probabilidades

de 0.25, 0.25, 0.50. ¿A largo plazo cuál será el porcentaje de días buenos,

regulares y malos?

Solución.Se aborda el problema por medio de las cadenas de Markov con

P =

B R MBRM

⎡⎣ 0.60 0.20 0.200.25 0.50 0.250.25 0.25 0.50

⎤⎦ .

Como P es estocástica por filas, entonces se transpone

P t =

⎡⎣ 35

14

14

15

12

14

15

14

12

⎤⎦ .

En este caso, los valores propios de P t son λ1 = 1, λ2 = 720 y λ3 = 1

4 , y los

vectores propios correspondientes son �v1 =

⎡⎣544

⎤⎦, �v2 =

⎡⎣ 211

⎤⎦ y �v3 =

⎡⎣ 011

⎤⎦,

respectivamente.Luego, la diagonalización de P t da como resultado

(P t

)n=

⎡⎣ 5 2 04 1 14 1 1

⎤⎦⎡⎣ 1 0 00 7

20 00 0 1

4

⎤⎦n ⎡⎣ 5 2 04 1 14 1 1

⎤⎦−1

.

Dado que(

720

)n y(

14

)n tienden a cero cuando n → ∞,

lımn→∞

(P t

)n=

1

26

⎡⎣5 2 04 1 14 1 1

⎤⎦⎡⎣1 0 00 0 00 0 0

⎤⎦⎡⎣ 2 2 28 5 50 13 13

⎤⎦ =1

13

⎡⎣5 5 54 4 44 4 4

⎤⎦ .

Page 433: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.2. Modelos genéticos 417

Nótese que lımn→∞

(P t

)n da como resultado una matriz con todas sus co-

lumnas iguales al vector de probabilidad correspondiente al vector propio

asociado al valor propio λ = 1. Para convertir el vector propio �v1 =

⎡⎣544

⎤⎦,

en un vector de probabilidad, se divide cada una de sus componentes porla suma de todos sus elementos, es decir

�v =1

13�v1 =

1

13

⎡⎣544

⎤⎦ .

Entonces, se puede decir que a la larga el clima será bueno el 513 ≈ 38.46 %

de los días, regular el 413 ≈ 30.77 % de los días y malo el 4

13 ≈ 30.77 % delos días.

10.2 Modelos genéticos

La relación entre las matemáticas y la biología forma parte de un pro-blema antiguo en la historia de las ciencias. Esta sección se ha dedicadoa una de las aplicaciones de métodos de modelación matemática en ge-nética. Para desarrollar este tipo de aplicación únicamente es requisitoconocer el proceso para diagonalizar una matriz desde el punto de vistamatemático, ya que también se tendrán que manejar términos propiosutilizados en el desarrollo de la genética. Para una mejor comprensión,se darán a conocer algunas nociones básicas de este tema. Se comienzacon una reseña histórica muy breve de cómo inició la genética y de cómodesde el principio estuvo muy ligada a la estadística; además, se da unaexplicación sencilla de qué es la genética en cuanto a lo que al lector leinteresa.

La ciencia de la genética nació en 1900, cuando varios investigadoresde la reproducción de las plantas descubrieron el trabajo del monje aus-tríaco Gregor Mendel, cuya publicación había sido ignorada en la práctica.En Mendel (1865) se presenta el resultado de cerca de 10 años de observa-ciones minuciosas con la planta del guisante (o chícharo) y se describen lospatrones de la herencia en función de siete pares de rasgos contrastantesque aparecían en siete variedades diferentes de esta planta. En su trabajoobservó que los caracteres se heredaban como unidades separadas y cada

Page 434: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

418 10. Aplicaciones

una de ellas lo hacía de forma independiente con respecto a las otras. Estole permitió señalar que cada progenitor tiene pares de unidades, pero quesolo aporta una unidad de cada pareja a su descendiente. Su investigaciónlogró expresarla matemáticamente mediante las leyes de la probabilidady así predijo los resultados de los cruces genéticos, datos que se escribenen fracciones o porcentajes. Más tarde, las unidades descritas por Mendelrecibieron el nombre de genes.

La observación obtenida al cruzar dos plantas puras con diferentescaracteres llevó a Mendel a deducir que existía un rasgo más fuerte, al quellamó dominante, y un rasgo más débil o que aparentemente desaparece alque le dio el nombre de recesivo. Estos dos conceptos de rasgo dominantey recesivo, aunque muy fáciles de comprender, son de vital importanciaa la hora de desarrollar la parte matemática de esta rama.

En la historia de la biología este ha sido uno de los experimentos másextensos que ha realizado un solo autor. La recepción que tuvo esta publi-cación fue prácticamente nula entre la comunidad científica de su época.Después de casi cuatro décadas, las leyes de Mendel fueron redescubiertas.A partir de entonces, comenzó el desarrollo impetuoso de la genética. Auncuando sea un simplismo, que la comunidad científica ignorara las leyes deMendel, ha costado cuarenta años de retraso a la biotecnología moderna.

Un gen particular puede ocurrir en varias formas o alelos. Para sim-plificar, consideraremos un gen con dos alelos, los genetistas denotan loscaracteres dominantes con letras mayúsculas y los caracteres recesivos,con minúsculas. De esta manera, los alelos serán A y a.

10.2.1 Herencia autosómica

En esta sección se considera la herencia como autosómica, esto quieredecir que un individuo hereda un gen de cada uno de los genes de suspadres, formando así su propio par. Hasta donde se sabe, es el azar el quedetermina cuál de los dos genes de un progenitor pasa a su descendiente.Si fuera posible clasificar los individuos de una población de una especiedada en cuanto a los genotipos AA, Aa y aa (téngase en cuenta que elgenotipo Aa es igual que el aA), se podrían determinar las proporcionesde los alelos en la población. Esto no sería factible si, por ejemplo, no sepudieran distinguir AA de Aa.

Para n = 0, 1, 2, . . . , se establecen las siguientes proporciones:

pn : Proporción del genotipo AA que hay en la generación de orden n.

qn : Proporción del genotipo Aa que hay en la generación de orden n.

Page 435: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.2. Modelos genéticos 419

rn : Proporción del genotipo aa que hay en la generación de orden n.

Si se supone que se pueden determinar esas proporciones, nótese que sedebe tener

pn + qn + rn = 1. (10.4)

Entonces, las proporciones u y v de los dos alelos A y a en la poblaciónsatisfacen las ecuaciones

u = pn +1

2qn y v =

1

2qn + rn. (10.5)

Aquí, se usó el hecho de que los alelos A y a constituyen el 100 % delgenotipo AA (con proporción pn) y el 50 % del genotipo Aa, y simi-larmente para los alelos. Si se supone que los genotipos ocurren en lasmismas proporciones entre los machos y las hembras, entonces u y v re-presentan (en toda la población) las probabilidades de que el gen sea Ao a, respectivamente.

Ejemplo 10.3 En una población, la distribución de genotipos en la n-

ésima generación es de 50 % de AA, 30 % de Aa y 20 % de aa. ¿Qué

proporciones de los genes en esta población son A y a?

Solución.En este ejemplo, pn = 0.50, qn = 0.30 y rn = 0.20. Por lo tanto,

u = 0.50 +1

2(0.30) = 0.65 y v = 0.15 + 20 = 0.35.

Es decir, que de la “población” de genes el 65 % es de alelo A y el 35 %es de alelo a.

Con frecuencia, es interesante el problema inverso al de la determi-nación de las proporciones de los genotipos cuando se conocen las pro-porciones de los alelos. En general, este problema no tiene solución única.El sistema de ecuaciones dado en (10.5) se reduce a una ecuación de dosincógnitas, u = pn + (1/2)qn. Para obtener una segunda ecuación inde-pendiente, supondremos apareamiento aleatorio. Esto quiere decir que laprobabilidad de que un individuo dado se aparee con otro individuo nodepende del genotipo de este último. En muchos casos, esta es una suposi-ción correcta. En otros no; por ejemplo, se sabe que la gente alta tiendea casarse con gente alta y, por lo tanto, la característica de la estatura

Page 436: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

420 10. Aplicaciones

en los humanos no se puede analizar de esta manera. Por otro lado, seha demostrado que la suposición de apareo aleatorio se aplica a la ca-racterística de los tipos de sangre humana. La mayoría de los individuosescogen su cónyuge sin preocuparse por su tipo de sangre.

De nuevo, supóngase que u y v son las proporciones de los alelos Ay a entre los machos y entre las hembras. Entonces, si suponemos que lapoblación es grande, la probabilidad de que la descendencia reciba el aleloA de los dos padres es u2. De manera similar, las probabilidades de losgenotipos AA y aa son 2uv y v2, respectivamente. El término 2uv vienedel hecho de que los alelos Aa y aA son el mismo, hecho que ya se habíaenunciado. Este resultado conduce al siguiente teorema, descubierto demanera independiente por Hardy y Weinberg en 1908.

Teorema 10.6 Ley de Hardy–Weinberg

Supóngase que en una gran población de padres, los alelos A y a de

un gen en particular se presentan en las proporciones u y v = 1 − u.

Suponiendo que estas proporciones son las mismas para los machos y

para las hembras y, además, que el apareo es aleatorio, la primera y todas

las generaciones sucesivas se compondrán de los tres genotipos, AA, Aa

y aa en las proporciones u2, 2uv y v2, respectivamente.

Demostración.Como se ha visto, un individuo de la primera generación es de genotipo

AA si sus dos padres contribuyen con los alelos A. Como la probabilidades u de que cualquiera de los padres contribuya con un alelo A, la pro-babilidad del genotipo AA en la descendencia inmediata es de v2. Demanera análoga, las probabilidades de los genotipos Aa y aa son de 2uvy v2, respectivamente. Esto implica que las proporciones p1 y q1 de losalelos A y a en la primera generación están dadas por

p1 = u2 +1

2(2uv) = u(u + v) = u

y

q1 =1

2(2uv) + v2 = v(u + v) = v.

Page 437: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.2. Modelos genéticos 421

Por lo tanto, las proporciones de los dos alelos no se afectan por la genera-ción inicial. Esto continúa de generación en generación. Concluimos que,después de la generación inicial, las proporciones de los tres genotiposAA, Aa y aa permanecen constantes en u2, 2uv y v2.

Ejemplo 10.4 El color de la semilla de chícharo está controlado por un

par de genes. Los tres genotipos AA, Aa y aa se caracterizan por sus

semillas de color rojo, rosa y blanco, respectivamente. Si se cultiva un

campo al azar con 60 % de flores rojas y 40 % de flores blancas. ¿Qué

proporciones de los tres genotipos estarán presentes en la cuarta genera-

ción?

SoluciónEn este ejemplo, u = 0.6 y v = 0.4. Por la ley de Hardy–Weinberg, las

proporciones de flores rojas, rosadas y blancas en la primera generación yen todas las subsecuentes son de u2, 2uv y v2, es decir, 0.36, 0.48 y 0.16,respectivamente. Nótese que la suposición de cultivo aleatorio equivale ala suposición de polinización aleatoria.

La ley de Hardy–Weinberg solo es válida cuando el apareamiento esaleatorio y cuando los tres genotipos son igualmente probables. En ciertoscasos, es bastante difícil verificar que el apareo es aleatorio. Sin embargo,si las proporciones de los genotipos permanecen constantes durante variasgeneraciones y si satisfacen la ley de Hardy-Weinberg, esto se puede tomarcomo una fuerte evidencia de que el apareamiento es aleatorio. Así, comoel conocimiento de que el apareo es aleatorio para los tipos de sangrehumana, también algunas características para las plantas y los animales,se derivaron de las observaciones de las proporciones de los genotipos quecumplen esta ley.

10.2.2 Los cuadros de Punnett

Un cuadro de Punnett es una gráfica que muestra todas las combinacionesposibles de genes resultantes del cruce de dos organismos (de quienes losgenes son conocidos). Se nombran cuadros de Punnett por el genetistainglés Reginald Punnett. Él descubrió algunos principios básicos de la

Page 438: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

422 10. Aplicaciones

genética, incluso la unión del sexo y determinación del sexo. Además,trabajó con las características del color de las plumas de los pollos demanera separada para pollos machos y hembras.

Para ilustrar cómo se construye un cuadro de Punnett, se debe teneren cuenta que si uno de los padres es del genotipo Aa, entonces es igual-mente probable que el descendiente herede de este progenitor el alelo A oel alelo a. Por otra parte, si uno de los padres es de genotipo aa y el otroes de Aa, el descendiente recibirá siempre un alelo a del progenitor degenotipo aa y un alelo A o a, con la misma probabilidad del progenitorde genotipo Aa. Así, el descendiente tiene la misma probabilidad de serde genotipo AA o Aa. En la Tabla 10.1, se ubican las probabilidades delos posibles genotipos de los descendientes para todas las combinacionesposibles de los genotipos de los padres:

Genotipos Progenitores

Hijos AA-AA AA-Aa AA-aa Aa-Aa Aa-aa aa-aa

AA 1 12 0 1

4 0 0

Aa 0 12 1 1

212 0

aa 0 0 0 14

12 1

Tabla 10.1: Probabilidades de los posibles genotipos

Situaciones en el que el apareamiento no es aleatorio, se presentan fre-cuentemente en experimentos biológicos controlados. Un ejemplo evidentese da en la cría de caballos de carreras, en la que un ganador probadotiene gran demanda como semental. El ejemplo siguiente muestra una delas situaciones de apareamiento controlado.

Ejemplo 10.5 Un agricultor tiene una gran población de plantas con

cierta distribución de los tres posibles genotipos, AA, Aa y aa. Este hom-

bre desea iniciar un programa de cultivos en el que todas las plantas de

la población sean fecundadas por una planta del genotipo AA. Se quiere

obtener la fórmula de la distribución de los tres posibles genotipos de la

población, después de un cierto número de generaciones.

Page 439: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.2. Modelos genéticos 423

SoluciónSean pn, qn y rn las proporciones de los tres genotipos en la generación

n. Luego, para n = 0, 1, 2, . . . , se tiene que

pn = pn− 1 +1

2qn− 1, qn =

1

2qn− 1 + rn− 1, rn = 0. (10.6)

Estas ecuaciones determinan la distribución de los genotipos en cada ge-neración a partir de la distribución en la generación anterior y se lograronestablecer por medio de la Tabla 10.1. El sistema (10.6) se puede expresaren notación matricial como

X(n) = PX(n−1) n = 1, 2, . . . , (10.7)

donde

X(n) =

⎡⎣pnqnrn

⎤⎦ , X(n−1) =

⎡⎣pn− 1

qn− 1

rn− 1

⎤⎦ y P =

⎡⎣ 1 12 0

0 12 1

0 0 0

⎤⎦ .

Nótese que las columnas de la matriz P son iguales a las tres primerascolumnas dadas en la Tabla 10.1.

La ecuación (10.7) implica

X(1) = PX(0)

X(2) = PX(1) = P(PX(0)

)= P 2X(0)

X(3) = PX(2) = P(P 2X(0)

)= P 3X(0),

y en general,X(n) = PnX(0). (10.8)

Así, las proporciones de los genotipos futuros están completamente de-terminados por la matriz P y el vector X(0) de las proporciones iniciales.

Ahora, es fácil comprobar que los valores propios de P son λ1 =1, λ2 = 1

2 y λ3 = 0, con vectores propios correspondientes:

�v1 =

⎡⎣100

⎤⎦ , �v2 =

⎡⎣ 110

⎤⎦ y �v3 =

⎡⎣ 12112

⎤⎦ .

Luego, P será diagonalizable por la matriz

C =

⎡⎣ 1 1 12

0 1 10 0 1

2

⎤⎦ , ya que C−1PC = D =

⎡⎣ 1 0 00 1

2 00 0 0

⎤⎦ .

Page 440: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

424 10. Aplicaciones

Por último, como P = CDC−1, se tiene que

Pn = (CDC−1)n.

Este hecho no es desconocido para nosotros, pues

Pn = CDnC−1.

Determinar C−1 no tiene mayor inconveniente, después de un cálculobreve, se llega a

C−1 =

⎡⎣ 1 1 10 1 20 0 2

⎤⎦ ,

y como ya se halló C y C−1, y como también sabemos que la matriz Des la matriz diagonal que contiene los valores propios asociados a P , setiene que

Dn =

⎡⎣ 1 0 00

(12

)n0

0 0 0

⎤⎦ .

Como lımn→∞

(12

)n → 0, se ve que Dn tiende a la matriz

lımn→∞Dn =

⎡⎣ 1 0 00 0 00 0 0

⎤⎦ ,

de donde se tiene que

lımn→∞Pn =

⎡⎣ 1 1 12

0 1 10 0 1

2

⎤⎦⎡⎣ 1 0 00 0 00 0 0

⎤⎦⎡⎣ 1 1 10 1 20 0 2

⎤⎦ =

⎡⎣ 1 1 10 0 00 0 0

⎤⎦ .

Nótese que como P es estocástica por columnas, entonces lımn→∞Pn dio

como resultado una matriz con todas sus columnas iguales al vector deprobabilidad correspondiente al vector propio asociado al valor propioλ = 1.

Por otra parte,

lımn→∞X(n) = lım

n→∞PnX(0) =

⎡⎣ 1 1 10 0 00 0 0

⎤⎦⎡⎣p0

q0

r0

⎤⎦ =

⎡⎣p0 + q0 + r0

00

⎤⎦ =

⎡⎣100

⎤⎦ ,

ya que p0 + q0 + r0 = 1. Así, queda demostrado que a largo plazo todaslas plantas serán genotipo AA.

Page 441: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.3. Modelo de regresión lineal 425

10.3 Modelo de regresión lineal

El problema central de la inferencia estadística en una distribución bi-variada es determinar la relación entre las variables y conocer de quémanera los cambios en una variable afectan la otra.

La variable que es la base de estimación es convencionalmente llama-da variable independiente que se designa por X y la variable cuyo valor esestimado se llama variable dependiente la cual se designa por Y. La selec-ción de las variables dependiente e independiente se hacen de acuerdo conlo conocido y con lo que se desee estimar. En este caso de dependenciasentre variables, Y es una variable aleatoria pero X no lo es.

La naturaleza de la relación entre variables se establece a través delanálisis de regresión. Esta es una técnica con la cual se establece la rela-ción funcional entre las variables, de modo que permite predecir el valorque toma una variable en función del valor determinado de la otra. Laregresión es generalmente clasificada en dos tipos: regresión simple y re-gresión múltiple o general.

La regresión simple hace referencia al estudio de las relaciones entredos variables de las cuales una es independiente (X) y la otra es depen-diente (Y ).

La regresión múltiple comprende tres o más variables, una de lascuales es la variable dependiente que debe ser estimada con base en losvalores de las otras variables que son las independientes.

Definición 10.8 Modelo

Es una relación entre dos o más variables cuantitativas, de tal forma

que se pueda predecir una variable en función de otra u otras. En este

punto es necesario distinguir entre dos tipos de relaciones:

1. Una relación determinística o funcional es de la forma

Y = f(X),

donde X es la variable independiente y Y es la variable dependiente.

2. Una relación estocástica o estadística no es una relación perfecta, es

decir, no proporciona valores únicos de Y para valores determinados

Page 442: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

426 10. Aplicaciones

de X, pero se puede describir con precisión en términos probabilís-

ticos.

En el análisis de regresión, se consideran relaciones del segundo tipo, nodel primero.

Ejemplo 10.6 La relación entre la variable aleatoria Y y la variable no

aleatoria X puede ser expresada por:

Y = β0 exp(β1X

)+ ε. (10.9)

La ecuación (10.9) significa que para un valor dado de la variable X, elcorrespondiente de Y es la suma del valor β0 exp

(β1X

)más una cantidad

ε. Los parámetros son β0 y β1 y ε es la diferencia entre Y y el valoresperado de Y condicionada a un valor de X, es decir,

ε = Y − E(Y |X)

.

Definición 10.9 Modelo lineal

Es una ecuación matemática que involucra variables aleatorias ligadas

por parámetros y que es “lineal en los parámetros”, y en algunas ocasiones

en las variables aleatorias. La frase lineal en los parámetros significa que

ningún parámetro en el modelo aparece como un exponente o es multipli-

cado (o dividido) por cualquier otro parámetro.

Ejemplo 10.7 Cuáles de los siguientes modelos son lineales:

(i) Y = β0 + β11

X. (ii) Y = β0 + β1

√X.

(iii) Y = β20 + β1X.

Solución.Los modelos dados en (i) y (ii) son lineales en los parámetros y el

modelo dado en (iii) no es lineal en los parámetros, ya que β0 no tieneexponente uno.

Page 443: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.3. Modelo de regresión lineal 427

Definición 10.10 Modelo de regresión lineal simple

El modelo de la forma:

yi = β0 + β1xi + εi, i = 1, 2, . . . , n, (10.10)

donde

yi : Es el valor de la variable respuesta en el i-ésimo ensayo.

β0, β1 : Son los coeficientes (o parámetros) de regresión que corresponden

al intercepto y a la pendiente, respectivamente.

xi : Es un valor conocido, el valor de la variable independiente en el

i-ésimo ensayo.

εi : Es la componente aleatoria, y se conoce como error o perturbación.

Se dice que es un modelo de regresión lineal simple. El nombre se debe

al hecho de que es lineal tanto en los parámetros como en la variable

independiente y simple porque solo se tiene una variable independiente.

La ecuación (10.10) es una expresión abreviada para el siguiente conjuntode n ecuaciones simultáneas:

y1 = β0 + β1x1 + ε1

y2 = β0 + β1x2 + ε2 (10.11)... =

...

yn = β0 + β1xn + εn.

El sistema de ecuaciones (10.11) puede escribirse en forma matricial comosigue ⎡⎢⎢⎢⎣

y1

y2...

yn

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎣1 x1

1 x2...

...1 xn

⎤⎥⎥⎥⎦[β0

β1

]+

⎡⎢⎢⎢⎣ε1

ε2...

εn

⎤⎥⎥⎥⎦ (10.12)

�Y = X �β + �ε.

Page 444: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

428 10. Aplicaciones

Esta última representación permite formular la siguiente definición.

Definición 10.11 Modelo lineal general

Un modelo de la forma:

yi =

p− 1∑j=0

βjxij + εi, i = 1, 2, . . . , n, (10.13)

donde xi0 = 1. El sistema de ecuaciones (10.13) puede escribirse en forma

matricial como sigue:

�Y = X�β + �ε, (10.14)

donde:

�Y : Es un vector columna de tamaño n × 1, de observaciones sobre la

variable dependiente Y.

X : Es una matriz de tamaño n × p, p ≤ n, de cantidades conocidas

fijas, donde la primera columna es de unos y tiene rango igual a

k ≤ p.

�β : Es un vector columna de tamaño p × 1, de parámetros desconocidos

β0, β1, . . . , βp− 1.

�ε : Es un vector aleatorio o perturbado de tamaño n × 1.

Se dice que es un modelo lineal general. Este modelo es de rango completo

si el rango de X es igual a p.

10.3.1 Métodos de estimación de los parámetros del

modelo

Para el modelo dado en (10.14), existen varios métodos de estimación deparámetros, entre los que se tiene:

Page 445: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.3. Modelo de regresión lineal 429

• Mínimos cuadrados ordinarios (M.C.O.)

• Mínimos cuadrados generalizados o ponderados (M.C.P.)

• Máxima verosimilitud (M.V.)

En este capítulo se desarrollará una parte del método de M.C.O.; ellector que esté interesado en complementar dicho método y en los otrosmétodos, puede revisar el texto de Searle (1971).

10.3.1.1 Método de mínimos cuadrados ordinarios

El método de mínimos cuadrados ordinarios se atribuye a Carl FriedrichGauss. Bajo ciertos supuestos, este método tiene algunas propiedades es-tadísticas muy atractivas que lo han convertido en uno de los más eficacesy populares del análisis de regresión. Son supuestos para su aplicación:

1. E[�ε]

= �0.

2. E[�ε�ε t

]= σ2In.

3. La matriz X es no estocástica, es decir, consta de números fijos.

4. El rango de X es ρ(X) = p.

5. �ε tiene una distribución normal multivariada, es decir,

�ε ∼ N(�0, σ2In

).

El supuesto 1 significa que el valor esperado del vector de perturbaciones(desviaciones) �ε, es decir, de cada uno de sus elementos, es cero. Másexplícitamente, E

[�ε]

= �0 significa que

E

⎡⎢⎢⎢⎣ε1

ε2...

εn

⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎣E(ε1

)E(ε2

)...

E(εn

)⎤⎥⎥⎥⎦ =

⎡⎢⎢⎢⎣00...0

⎤⎥⎥⎥⎦ . (10.15)

El supuesto 2 establece que las perturbaciones εi y εj no están correla-cionadas y, además, que la varianza de εi para cada Xi (esto es, la varian-za condicional de εi) es algún número positivo constante igual a σ2, es

Page 446: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

430 10. Aplicaciones

decir, representa el supuesto de homocedasticidad , o igual (homo) disper-sión (cedasticidad) o igual varianza. Más explícitamente, E

[�ε�ε t

]= σ2In

significa que

E[�ε�ε t

]= E

⎡⎢⎢⎢⎣ε1

ε2...

εn

⎤⎥⎥⎥⎦ [ε1 ε2 . . . εn

]= E

⎡⎢⎢⎢⎣ε21 ε1ε2 . . . ε1εn

ε2ε1 ε22 . . . ε2εn

......

. . ....

εnε1 εnε2 . . . ε2n

⎤⎥⎥⎥⎦ .

Al aplicar el operador de valor esperado E a cada elemento de la matrizanterior, se obtiene

E[�ε�ε t

]=

⎡⎢⎢⎢⎣E(ε21

)E(ε1ε2

). . . E

(ε1εn

)E(ε2ε1

)E(ε22

). . . E

(ε2εn

)...

.... . .

...E(εnε1

)E(εnε2

). . . E

(ε2n

)⎤⎥⎥⎥⎦ . (10.16)

La matriz dada en (10.16) se denomina matriz de varianza-covarianzade las perturbaciones εi. Los elementos sobre la diagonal principal sonlas varianzas y los elementos por fuera de la diagonal principal son lascovarianzas. Por definición,

E{[

εi − E(εi)][

εj − E(εj)]}

=

{V ar

(εi)

si i = jCov

(εi, εi

)si i �= j,

pero debido a los supuestos E(εi)

= 0, para cada i y E(εiεj

)= 0 si i �= j,

la matriz (10.16) se reduce a

E[�ε�ε t

]=

⎡⎢⎢⎢⎣σ2 0 . . . 00 σ2 . . . 0...

.... . .

...0 0 . . . σ2

⎤⎥⎥⎥⎦ . (10.17)

El supuesto 3 estipula que la matriz X de tamaño n × p es no-estocástica,es decir, consiste en un conjunto de números fijos.

El supuesto 4 establece que la matriz X tiene rango columna completo,es decir, es igual a p, al número de columnas de la matriz. Esto significaque las columnas de la matriz X son linealmente independientes, es decir,no hay relación lineal exacta entre las variables X. En otras palabras, nohay multicolinealidad.

Page 447: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.3. Modelo de regresión lineal 431

10.3.1.2 Forma operativa

Este método consiste en determinar los valores de los parámetros βj detal manera que la suma de cuadrados del error (SCE) sea mínima, esdecir, se minimiza

SCE =n∑

i=1

ε2i = �ε t�ε =

(�Y − X�β

)t(�Y − X�β)

(10.18)

con respecto a �β. Las derivadas parciales de �εt�ε con respecto a �β dan

∂(εtε)

∂�β= 2XtXβ − 2Xt�Y .

Si se iguala al vector nulo, se llega a las ecuaciones normales de la teoríade M.C.O.

XtXβ = Xt�Y . (10.19)

Cuando XtX sea no singular, premultiplicando por(XtX

)−1, se tiene

MCO(β) = β =(XtX

)−1Xt�Y = C�Y , (10.20)

donde C =(XtX

)−1Xt. Otras estimaciones para el modelo (10.14) me-

diante el método de M.C.O. son

Y = Xβ =[X(XtX

)−1Xt

]�Y = H�Y

ε = �Y − Y = �Y − H�Y =(In − H

)�Y

SCE = εtε =[(

In − H)�Y]t(

In − H)�Y = �Y t

(In − H

)�Y (10.21)

SCT = �Y t(In − Jn)�Y

SCR = SCT − SCE = �Y t(H − Jn

)�Y (10.22)

La penúltima expresión se tiene del Ejemplo 5.5.

Obsérvese que la matriz H = X(XtX

)−1Xt, la cual en la literatura

estadística se conoce como “Matriz Hat”, determina muchos de los resul-tados de las estimaciones por M.C.O. Por ejemplo, cuando premultiplicaal vector de respuestas �Y , se obtienen las predicciones de la variable de-pendiente, por eso en algunos textos de estadística la denominan Matrizde predicción y a la matriz In −H la llaman Matriz residual, puesto queal anteponérsele a la variable dependiente �Y , se obtienen los respectivosresiduales.

Page 448: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

432 10. Aplicaciones

10.3.1.3 Propiedades de los elementos de la matriz H

La matriz H = [hij ] de tamaño n × n cumple que

a) hii =n∑

j=1h2ij = h2

ii +∑j �= i

h2ij , ya que H = Ht y H = H2.

b) 0 < hii ≤ 1, si i = 1, 2, . . . , n.

c) −0.5 ≤ hij ≤ 0.5, para i �= j.

d)(1 − hii

)(1 − hjj

)− h2ij ≥ 0.

e) hiihjj − h2ij ≥ 0

f) Si hii = 1, entonces hij = 0, para todo j �= i.

Si la matriz X de tamaño n × r es de rango r, entonces

g)n∑

i=1hii =

n∑i=1

n∑j=1

h2ij = r = tr(H).

h)n∑

i=1hij =

n∑j=1

hij = 1.

Además, como hij = xi(XtX

)−1x′j , hii está determinada por la localiza-

ción de xi en el espacio X. Es decir, un pequeño (grande) valor de hiiindica que xi se encuentra cerca (lejos) de la masa de los otros puntos.

Ejemplo 10.8 Ajuste el modelo de regresión:

yi = β0 + β1x1i + εi (10.23)

al conjunto de datos hipotéticos de la siguiente tabla:

x1 y x1 y x1 y

1 -10 5 -2 9 6

2 -8 6 0 10 8

3 -6 7 2 11 10

4 -4 8 4

.

Page 449: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.4. Multicolinealidad 433

Solución.Si se expresa el modelo dado en (10.23) en la forma matricial dada

en (10.14), se tiene

�Y = X�β + �ε, (10.24)

donde X =[X0 X1

]y X0 = 111. Al calcular

(XtX

), se tiene que

(XtX

)=

[11 6666 506

]= 11

[1 66 46

].

Luego, las ecuaciones normales (10.19) son

11

[1 66 46

] [β0

β1

]=

[0

220

]⇒

[1 66 46

] [β0

β1

]=

[020

]. (10.25)

En el Ejemplo 7.8, se obtuvo que el κ(A) ≈ 218.9, luego, existe multicoli-

nealidad moderada, es decir que variaciones muy pequeñas en la varianzade la variable regresora X1 produce cambios drásticos en las estimacionesde los parámetros.

Sin embargo, se puede establecer la solución de (10.25) como sigue:[β0

β1

]=

1

10

[46 66 1

] [020

]=

1

10

[12020

]=

[122

]. (10.26)

Así, el modelo de regresión es

yi = − 12 + 2xi, i = 1, 2, . . . , 11.

10.4 Multicolinealidad

La multicolinealidad se refiere a la existencia de más de una relación linealexacta. Inicialmente, este término significó la existencia de una relación“perfecta” o exacta entre algunas o todas las variables explicativas deun modelo de regresión. Para la regresión con p variables que incluyelas variables explicativas X0, X1, . . . , Xp (donde X0 = 1 para todas lasobservaciones que den cabida al término intercepto), se dice que existeuna relación lineal exacta si se satisface la siguiente condición:

α0X0 + α1X1 + . . . + αpXp = �0, αi ∈ R, (10.27)

Page 450: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

434 10. Aplicaciones

donde algunas constantes no son iguales a cero.Sin embargo, el término multicolinealidad se utiliza también para el

caso en el cual las variables X0, X1, . . . , Xp están intercorrelacionadaspero no en forma perfecta, de la siguiente manera:

α0X0 + α1X1 + . . . + αpXp + νi = �0, (10.28)

donde νi es un término de error estocástico.En los textos de econometría se emplea como medida para detectar

la multicolinealidad, el índice de condición, de la siguiente manera:

Si 0 ≤IC(XtX

) ≤ 10 no existe multicolinealidad,

10 <IC(XtX

) ≤ 30 existe multicolinealidad entre moderada y fuerte,

30 <IC(XtX

)existe multicolinealidad severa.

10.4.1 Soluciones al problema de la multicolinealidad

10.4.1.1 Regresión por componentes principales

Una solución que muchas veces se sugiere para el problema de la multico-linealidad es la regresión por componentes principales. Supongamos quese tiene un conjunto de p variables explicativas, X1, X2, . . . , Xp. Entonces,se construyen funciones lineales de estas variables

Zi = ai1X∗1 + ai2X

∗2 + . . . + aipX

∗p , i = 1, 2, . . . , p, (10.29)

con X∗i = Xi−Xi

SXi

, de tal manera que un grupo m(m < p

)de las va-

riables Z1, Z2, . . . , Zp contengan aproximadamente la misma informaciónque X1, X2, . . . , Xp. Las variables Z1, Z2, . . . , Zp se buscan de manera que

(i) Cov(Zi, Zj

)= 0, i, j = 1, 2, . . . , p, i �= j.

(ii) V ar(Z1

) ≥ V ar(Z2

) ≥ . . . ≥ V ar(Zp

).

(iii) Zi = �atiX∗ para i = 1, 2, . . . , p y está sujeto a la condición de que

‖�ai‖2 = �ati�ai = 1, (10.30)

donde �ati =(ai1, ai2, . . . , aip

)y X∗ =

[X∗

1 X∗2 . . . X∗

p

]t.

Page 451: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.4. Multicolinealidad 435

La matriz de covarianzas de X∗ es S = E(X∗Xt∗

), la cual es una matriz

simétrica definida (o semidefinida) positiva y de orden p. Como

V ar(Zi

)= E

(ZiZi

t)

= E(�atiX∗Xt

∗�ai)

= �atiE(X∗Xt

∗)�ai = �atiS�ai,

para hallar Z1, se necesita conocer el vector de coeficientes �a1, y paraello, puesto que la varianza de Z1 debe ser mayor que la varianza de lasrestantes componentes, habrá que resolver el problema de optimización

max F(�a1

)= �at1S�a1,

�at1�a1 = 1.

Por lo tanto, consideremos la maximización de la forma cuadrática �at1S�a1,sujeta a la condición (10.30). Si se introduce el multiplicador de Lagrangeδ, se maximiza

�at1S�a1 − δ(�at1�a1 − 1

).

Al diferenciar respecto a �a1, δ e igualar a cero las derivadas, se obtiene

2S�a1 − 2δ�a1 = �0 y �at1�a1 − 1 = 0.

Por lo tanto,

S�a1 = δ�a1 y �at1�a1 = 1.

Este sistema tiene como soluciones todos los vectores propios de la matrizS de norma 1 asociados a cada uno de los valores propios de S.

Sean λ1 ≥ λ2 ≥ . . . ≥ λp los valores propios de S (la positividadestricta de los valores propios λi está garantizada si S es definida positiva)y �v1, �v2, . . . , �vp los correspondientes vectores propios de S normalizados.Entonces, los puntos estacionarios del problema son

�aj1 = �vj , j = 1, 2, . . . , p,

con multiplicadores de Lagrange asociados

δj = λj , j = 1, 2, . . . , p.

Entre todos estos puntos estacionarios, el máximo se alcanza en el quecoincide con el vector propio de S correspondiente al valor propio domi-nante1.

Además, como �vi es un vector propio normalizado de S, la formacuadrática �atjS�aj = λj , de lo cual se deduce que

V ar[Zj

]= λj .

1 De hecho, hay que considerar λ1 > λ2, ya que si λ1 = λ2, entonces los vectorespropios �v1 y �v2 asociados son ambos solución del problema del máximo.

Page 452: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

436 10. Aplicaciones

10.4.1.2 Propiedades de los componentes

Los componentes principales tienen las siguientes propiedades:

(a) La suma de los primeros k valores propios dividida por la suma detodos los valores propios, es decir,

λ1 + λ2 + . . . + λkλ1 + λ2 + . . . + λp

representa la “proporción de la variación total” explicada por lasprimeras k componentes principales.

(b) Las componentes principales de un vector aleatorio son invariantesa los escalares.

(c) Si la matriz de covarianza S tiene rango r < p, entonces la variacióntotal de S puede ser explicada enteramente por las primeras r com-ponentes principales.

(d) El subespacio vectorial formado por las primeras k componentesprincipales 1 ≤ k ≤ p tienen la desviación cuadrática media máspequeña de las variables de la población (o muestra) que cualquierotro subespacio k-dimensional.

(e) Como un caso especial de (d), para k = p − 1, el plano perpen-dicular a las últimas componentes principales tienen la desviacióncuadrática media más pequeña de las variables de la población (omuestra) que cualquier otro plano.

Ejemplo 10.9 Ajuste el modelo de regresión:

yi = β0 + β1x1i + β2x2i + εi (10.31)

al conjunto de datos hipotéticos de la siguiente tabla:

x1 x2 y x1 x2 y x1 x2 y

1 1 -10 5 9 -2 9 17 6

2 3 -8 6 11 0 10 19 8

3 5 -6 7 13 2 11 21 10

4 7 -4 8 15 4

.

Page 453: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.4. Multicolinealidad 437

Solución.Si se expresa el modelo dado en (10.31) en forma matricial, se tiene

�Y = X�β + �ε, (10.32)

donde

X = [X0 X1 X2] .

Aquí, X0 = 111 para todas las observaciones que den cabida al términointercepto, de modo que las ecuaciones normales son(

XtX)β = Xt�Y . (10.33)

Al calcular(XtX

), se tiene que

(XtX

)=

⎡⎣ 11 66 12166 506 946121 946 1771

⎤⎦ = 11

⎡⎣ 1 6 116 46 8611 86 161

⎤⎦ .

Si se reescribe (10.33), se llega a

11

⎡⎣ 1 6 116 46 8611 86 161

⎤⎦⎡⎣β0

β1

β2

⎤⎦ =

⎡⎣ 0220440

⎤⎦ ⇒⎡⎣ 1 6 11

6 46 8611 86 161

⎤⎦⎡⎣β0

β1

β2

⎤⎦ =

⎡⎣ 02040

⎤⎦ .

(10.34)

Primero se determina si el sistema de ecuaciones obtenido en (10.34) esestable. Para ello, se debe calcular el número de condición dado en (7.6),por lo tanto, se necesitan los valores propios de la matriz

(XtX

),

p(XtX

)(λ) = −λ3 + 2288λ2 − 7260λ = −λ(λ2 − 2288λ + 7260

),

de donde los valores propios son

λ1 = 11(104 + 2

√2689

), λ2 = 11

(104 − 2

√2689

)y λ3 = 0.

Luego, el número de condición es muy grande, ya que

κ(XtX

)=

λ1

λ3.

En este caso, se dice que existe multicolinealidad severa, es decir, varia-ciones muy pequeñas en las varianzas y las covarianzas de las varia-bles regresoras Xi producen cambios drásticos en las estimaciones de losparámetros.

Page 454: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

438 10. Aplicaciones

En el Ejemplo 9.18, se concluyó que el sistema dado en (10.34) eraconsistente indeterminado, y se obtuvo la siguiente solución:⎡⎣β0

β1

β2

⎤⎦ =1

3

⎡⎣ 28108

⎤⎦ . (10.35)

Como el sistema es consistente indeterminado, se utiliza el análisis decomponentes principales para determinar el coeficiente βi más significa-tivo, y para establecer dicho coeficiente, se construye la matriz:

Σ =1

n − 1Xt

(In − Jn

)X.

Al efectuar los productos descritos anteriormente, se llega a

Σ =

[11 2222 44

],

y con los elementos de Σ = [σij ] se forma la matriz S = [sij ] , donde

sij =σij√σiiσjj

.

Luego,

S =

⎡⎣ 1111

22√(11)(44)

22√(11)(44)

4444

⎤⎦ =

[1 11 1

].

Los valores propios de la matriz S son λ1 = 2 y λ2 = 0, y sus respectivos

vectores propios normalizados son �v1 =1√2

[11

]y �v2 =

1√2

[11

].

Por lo tanto, las componentes principales son:

Z1 =1√2X∗

1 +1√2X∗

2 =1√2

(X∗

1 + X∗2

),

Z2 = − 1√2X∗

1 +1√2X∗

2 =1√2

(X∗

2 − X∗1

),

y dado que

E[Zi

]= 0 y V ar

[Zi

]= λi,

Page 455: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.4. Multicolinealidad 439

entonces la componente principal Z2 tiene media 0 y varianza cero. Elúltimo resultado también se puede obtener de la definición de varianza,así:

V ar[Z2

]= V ar

[1√2

(X∗

2 − X∗1

)]=

1

2V ar

(X∗

2 − X∗1

)=

1

2

[V ar

(X∗

2

)+ V ar

(X∗

1

)− 2Cov(X∗

1 , X∗2

)]=

1

2

[1 + 1 − 2

]= 0 = λ2.

V ar[Z2

]= 0 identifica la función lineal como el origen de la multicoli-

nealidad. Luego, es posible decir que Z2 � 0, lo cual da que X∗1 � X∗

2 . Sise realiza la regresión de X2 sobre X1, es decir al expresar,

x2i = α0 + α1x1i,

se obtiene que

x2i = −1 + 2x1i.

Como existe una relación exacta entre X2 y X1, no es posible estimarpor separado los coeficientes de X1 y X2. Por lo tanto, si en la ecuaciónoriginal (10.31) se sustituye x2i en términos de x1i, se obtiene

yi = β0 + β1x1i + β2

(−1 + 2x1i

)+ εi

=(β0 − β2

)+

(β1 + 2β2

)x1i + εi.

Esto da lo que en estadística se denomina funciones lineales estimablesde β, que son

β0−β2 y β1+2β2. (10.36)

Finalmente, en el Ejemplo 10.8 se obtuvo la regresión de y sobre x1, locual dio como resultado que

yi = −12 + 2x1i,

es decir,

β0 − β2 = − 12 y β1 + 2β2 = 2.

Este sistema expresado matricialmente queda[1 0 10 1 2

]⎡⎣β0

β1

β2

⎤⎦ =

[122

]. (10.37)

Page 456: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

440 10. Aplicaciones

Luego, una solución sería ⎡⎣β0

β1

β2

⎤⎦ =

⎡⎣ 1220

⎤⎦ . (10.38)

Por otra parte, si en la ecuación (10.31) se sustituye x1i en términos dex2i, se llega a

yi = β0 + β1

(x2i + 1

2

)+ β2x2i + εi

=

(β0 +

1

2β1

)+

(1

2β1 + β2

)x2i + εi.

Luego las nuevas funciones lineales estimables de β son

β0+1

2β1 y

1

2β1+β2. (10.39)

En este caso, la regresión de y sobre x2 da como resultado que

yi = −11 + x2i,

es decir,

β0 +1

2β1 = − 11 y

1

2β1 + β2 = 1.

Este sistema expresado matricialmente queda[1 0.5 00 0.5 1

]⎡⎣β0

β1

β2

⎤⎦ =

[111

]. (10.40)

Una solución sería ⎡⎣β0

β1

β2

⎤⎦ =

⎡⎣ 1101

⎤⎦ . (10.41)

Dado que se obtuvieron dos soluciones distintas (10.38) y (10.41) para β,entonces se usa la inversa generalizada para resolver el sistema (10.37), yse obtiene que la estimación de �β viene dada por⎡⎣β0

β1

β2

⎤⎦ =1

6

⎡⎣ 5 22 21 2

⎤⎦[122

]=

1

6

⎡⎣ 562016

⎤⎦ . (10.42)

Page 457: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.5. Selección de carteras 441

Nótese que este último vector coincide con el obtenido en (10.35).Como lo indica este ejemplo, la multicolinealidad revela que no es

posible estimar los coeficientes individuales de manera precisa, pero quesí se pueden calcular algunas funciones lineales de los parámetros.

10.5 Selección de carteras

En Markowitz (1952, 1959), se presentó una técnica de selección decarteras que llegó a ser llamada la teoría moderna de cartera (MPT, porsu sigla en inglés). En esta teoría, se asume que los rendimientos esperadosde los activos de la cartera tienen una distribución normal multivariante,supuesto análogo a las otras teorías que forman la base de las matemáti-cas financieras tradicionales. Este supuesto es una primera aproximaciónque da lugar a teorías analíticamente tratables. La optimización de lasinversiones en el contexto media-varianza, se ha convertido en una de lasherramientas con más aplicaciones en las decisiones financieras en sentidoamplio. Para llevar a cabo la optimización de carteras, el inversor puede:

• Elegir un nivel de riesgo (volatilidad) dado, dependiendo de su aver-sión a este y buscar la cartera que mayor rendimiento le ofrezca.

• Seleccionar un rendimiento esperado y buscar la cartera que mini-mice el riesgo.

En esta sección se presenta el problema de decisión de selección decarteras. La cartera de mínima varianza es de interés particular, ya quelas ponderaciones de los activos son determinadas a partir de la matrizde varianza-covarianza.

10.5.1 Formulación matemática

Suponga que hay m activos riesgosos, el rendimiento esperado del i-ésimoactivo es denotado por E

[ri], la covarianza de los rendimientos entre el i-

ésimo y j-ésimo activo es expresada como σij , y la varianza del rendimien-to del i-ésimo activo es denotada por σii = σ2

i . Además, se asume queningún activo puede expresarse como una combinación lineal de los otrosactivos, entonces la matriz de varianza-covarianza de los rendimientos,Σ = [σij ], es no singular. La frontera de todas las carteras factibles quepueden construirse con estos m activos se define como el lugar de carteras

Page 458: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

442 10. Aplicaciones

factibles que tienen la variación más pequeña para un rendimiento esper-ado prescrito. Sean wi {i = 1, . . . , m} constantes que determinan la pon-

deración de cada activo dentro de la cartera de tal forma quem∑i=1

wi = 1,

es decir, wi se puede interpretar como la proporción de riqueza invertidaen el i-ésimo activo. No se consideran ventas en corto y, por lo tanto, elrango de valores permitido para cada wi se restringe al intervalo [0, 1].

Dada la matriz de varianzas-covarianzas Σ, la cartera de varianzamínima global (GMV P , por su sigla en inglés) es la cartera con pondera-ciones �w = [wi] que soluciona el siguiente problema de optimización:

mın�w

σ2p = mın

�w�wt�w, (10.43)

sujeto a la condición

�wt111m = 111tm �w = 1, (10.44)

donde �w es el vector columna de tamaño m × 1 cuyos elementos son lasponderaciones de la cartera, y al formar el lagrangeano, se tiene

L = σ2p − 2δ

(�wt111m − 1

)∂

∂ �wL = 2Σ�w − 2δ111m, (10.45)

donde δ ∈ R es el respectivo multiplicador de Lagrange. Al igualar a cerola ecuación (10.45), se tiene

Σ�w = δ111m

�w = δΣ−1111m,o

�wtΣ = δ111tm

�wt = δ111tmΣ−1,

y multiplicando esta expresión por la izquierda por 111tm, se obtiene que

δ =(111tmΣ−1111m

)−1. (10.46)

Si el modelo fue correctamente descrito para la varianza-covarianza condi-cional, entonces se esperaría que la variación de cualquier cartera conponderaciones �w sea �wtΣ�w. Las variaciones de la cartera que son tam-bién relativamente pequeñas para la varianza pronosticada son indicio deexceso de correlación, mientras variaciones que son demasiado grandesindican subestimación de la correlación. Luego, al sustituir en (10.43), sellega a

σ2Mp = δ,

donde σ2Mp denota la varianza mínima y bajo las condiciones dadas o

restricciones consideradas, y está determinada de manera única y solodepende de la matriz Σ.

Page 459: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.5. Selección de carteras 443

10.5.2 Cartera con rentabilidad preestablecida

En este contexto, se supone que a los inversores solo les preocupa elrendimiento esperado (su media) y la varianza de dichos rendimientos(riesgo). En este caso, la GMV P estará conformada por las pondera-ciones �w que minimizan la varianza de la cartera para el nivel de rentabili-dad esperado fijado por el inversor, por lo que el problema de optimizacióna resolver en el caso de m activos es el siguiente:

mın�w

σ2p = mın

�w�wt�w, (10.47)

pero sujeto a las restricciones

�wt �E(r) = �E(r)t�w = E

�wt111m = 111tm �w = 1,

donde E(r) es el rendimiento esperado, E es el rendimiento mínimo es-perado de la inversión y �w es el vector m×1 de ponderaciones. En formamatricial, estas restricciones quedan[

�E(r)t

111tm

]�w =

[E1

], (10.48)

y al establecer el lagrangeano, se obtiene

L = �wtΣ�w − 2δ1

(�wt �E(r) − E

)− 2δ2

(�wt111m − 1

),

donde δ1, δ2 ∈ R son los multiplicadores de Lagrange. Las condicionesestándar de primer orden para un punto crítico son

∂ �wL = 2Σ�w − 2δ1

�E(r) − 2δ2111m = �0 (10.49)

∂δ1L = �wt �E(r) − E = 0

∂δ2L = �wt111m − 1 = 0,

por lo tanto

Σ�w = δ1�E(r) + δ2111m (10.50)

�w = δ1Σ−1 �E(r) + δ2Σ

−1111m. (10.51)

Page 460: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

444 10. Aplicaciones

Para determinar los multiplicadores de Lagrange que satisfacen (10.49), semultiplica por la izquierda la ecuación (10.51) por el vector de rendimien-tos esperados transpuesto y se obtiene

�E(r)t�w = �E(r)

t(δ1Σ

−1 �E(r) + δ2Σ−1111m

)E = δ1B + δ2A. (10.52)

Por otra parte, si se multiplica por la izquierda la ecuación (10.51) porun vector de unos transpuesto, se llega a

111tm �w = 111tm(δ1Σ

−1 �E(r) + δ2Σ−1111m

)1 = δ1A

t + δ2C. (10.53)

Las expresiones (10.52) y (10.53) forman un sistema de ecuaciones, y alreescribirlo matricialmente, se tiene[

B AAt C

] [δ1

δ2

]=

[E1

],

y la solución sería[δ1

δ2

]=

[B AAt C

]−1 [E1

]=

1

D

[C −A

−At B

] [E1

], (10.54)

donde las constantes A, B, C y D son definidas2 como en Merton (1972)

A = �E(r)tΣ−1111m,

C = 111tmΣ−1111m,B = �E(r)

tΣ−1 �E(r),

D = B C − At A.(10.55)

Al multiplicar el lado izquierdo de la expresión (10.50) por �wt y susti-tuir (10.54), se obtiene que la varianza mínima de esta cartera es

�wt�w = �wt[

�E(r) 111m

] [ δ1

δ2

]=

1

D

[E 1

] [ C −A−At B

] [E1

]. (10.56)

2 Las cantidades B y C son formas cuadráticas de Σ−1, luego son estrictamente

positivas mientras que A es una forma bilineal simétrica de Σ−1.

Page 461: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.5. Selección de carteras 445

Por otra parte3, como A = At, sustituyendo las relaciones (10.55), setiene que

�wt�w =1

D

[E 1

] [ 111tm

− �E(r)t

]Σ−1

[111m − �E(r)

] [E1

], (10.57)

y al sustituir en (10.51) las expresiones obtenidas en (10.57), se llega a

�w = Σ−1[

�E(r) 111m

] [δ1

δ2

]=

1

DΣ−1

[�E(r) 111m

] [111m − �E(r)

]tΣ−1

[111m − �E(r)

] [E1

]=

1

DΣ−1KΣ−1

[111m − �E(r)

] [E1

],

donde la matriz antisimétrica

K =[

�E(r) 111m

] [111m − �E(r)

]t= �E(r)111tm − 111m �E(r)

t

será igual a la matriz nula solo cuando todos los rendimientos esperadosde los m activos sean iguales. Obsérvese que en estas ponderaciones ya noaparecen los multiplicadores de Lagrange; además, si se sustituye (10.48),se obtiene

�w = D−1Σ−1KΣ−1[111m − �E(r)

] [�E(r) 111m

]t�w

= D−1Σ−1KΣ−1Kt �w = −D−1(Σ−1K

)2�w. (10.58)

Reescribiendo esta última expresión, se llega a[(Σ−1K

)2 − (−D)In

]�w = �0[

Σ−1K − i√

DIn][

Σ−1K − i√

DIn]�w = �0,

donde i, i(i.i = 1

)representan la unidad imaginaria y su conjugado com-

plejo, respectivamente. Puesto que el vector de ponderaciones �w ∈ Rm,este se construye realizando una combinación lineal de las correspondien-tes partes real e imaginaria del vector propio complejo, �u ∈ Cm, asociadoal valor propio i

√D de la matriz Σ−1K.

3 Nótese que como estas dos formas cuadráticas son equivalentes y D es el de-terminante de la matriz simétrica asociada a la forma cuadrática del lado derecho,entonces es positivo.

Page 462: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

446 10. Aplicaciones

Expresando el vector de ponderaciones como una combinación linealde las correspondientes partes real e imaginaria del vector propio complejo�u ∈ Cm, se tiene que

�w =1

ΔW

[�E(r) −111m

] [1

E

], (10.59)

donde Δ = 111tmW �E(r) y

W =[Re(�u) Im(�u)

] [ 0 11 0

] [Re(�u) Im(�u)

]t.

10.5.3 Cartera mínima con rentabilidad preestablecida

Al reescribir la forma cuadrática dada en (10.56), se tiene que

�wt�w =1

D

(CE2 − 2AE + B

)=

1

D

[C

(E − A

C

)2

+D

C

]. (10.60)

Luego, la frontera en el espacio media-varianza está determinada por lasiguiente ecuación cuadrática:

C �wtΣ�w − C2

D

(E − A

C

)2

= 1. (10.61)

Esta cónica representa una hipérbola con centro en(0, A

C

), con vértices

y focos sobre la recta horizontal Emın = AC

y asíntotas dadas por

E =A

√D

Cσ, con σ =

√�wtΣ�w.

Si se sustituye en (10.54) el valor mínimo Emın, se obtiene que

δ1 = 0 y δ2 =1

C,

y al reemplazar en la ecuación (10.51), se reduce a

�w =1

CΣ−1111m. (10.62)

Luego, al sustituir en (10.47), se llega a

σ2Mp = δ2.

Nótese que estos resultados son los mismos que se obtuvieron en lasección anterior.

Page 463: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.5. Selección de carteras 447

Figura 10.1: Frontera eficiente.

Ejemplo 10.10 Modelo de inversión

Considere tres categorías de inversión: acciones (x1), bonos (x2) y

activos inmobiliarios (x3). Suponga que el rendimiento mínimo esperado

es de E = 9 y la matriz de varianza-covarianza es

Σ =

⎡⎢⎢⎢⎢⎣94

325

920

325

1625

42125

920

42125

3625

⎤⎥⎥⎥⎥⎦ , (10.63)

y que los valores de los rendimientos medios es E(R)

=[

545

385

192

]t.

Determine las ponderaciones en cada una de las categorías de inversión

para que el riesgo sea mínimo.

Page 464: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

448 10. Aplicaciones

Solución.En este caso, se establece primero la matriz K, para ello

�E(r)111t =

⎡⎣545385192

⎤⎦ [1 1 1

]=

⎡⎣ 545

545

545

385

385

385

192

192

192

⎤⎦

111 �E(r)t

=

⎡⎣111

⎤⎦ [545

385

192

]=

⎡⎣ 545

385

192

545

385

192

545

385

192

⎤⎦ .

Por lo tanto,

K =

⎡⎣ 545

545

545

385

385

385

192

192

192

⎤⎦−⎡⎣ 54

5385

192

545

385

192

545

385

192

⎤⎦ =1

10

⎡⎣ 0 32 1332 0 1913 19 0

⎤⎦ .

Nótese que esta matriz es una matriz antisimétrica. Ahora,

Σ−1K =

⎡⎣ 52105

25126

38189

25126

625336

125252

38189

125252

5563

⎤⎦⎡⎣ 0 165

1310

165 0 19

101310

1910 0

⎤⎦ =

⎡⎣ 353945

56834725

16816300

2675504

155504

66052016

1942

19191890

51497560

⎤⎦ .

Luego, la ecuación característica es

−λ

(λ2 +

754469

81648

)= 0.

Para evitar trabajar con complejos, se puede elevar la matriz Σ−1K alcuadrado y calcular los valores propios y vectores propios respectivos, eneste caso

(Σ−1K

)2=

⎡⎣ 353945

56834725

16816300

2675504

155504

66052016

1942

19191890

51497560

⎤⎦2

=

⎡⎣ 124 99120 412

11 19120 412

105 01327 216

58 04527 216

87 2339072

71 85127 216

89301701

47125103

223 87781 648

⎤⎦ ,

luego, la ecuación característica es

−λ

[λ +

754469

81648

]2

= 0,

y al calcular el vector propio correspondiente a λ1 = 0, se tiene

�v t1 =

[19 13 32

],

Page 465: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

10.5. Selección de carteras 449

y los vectores propios correspondientes a λ2 = −754 469

81 648son

�v2 =

⎡⎣124705

0

⎤⎦ y �v3 =

⎡⎣55270

4465

⎤⎦ .

Luego, �w debe ser una combinación lineal de los vectores propios asocia-dos a este valor propio no nulo, por lo tanto,

W =

⎡⎣124 5527705 0

0 4465

⎤⎦[0 11 0

] [124 705 05527 0 4465

]

= 235

⎡⎣ 0 16581 235616581 0 133952356 13395 0

⎤⎦ .

Al realizar el producto dado en (10.59), se obtiene

�w =2

754 469

⎡⎣ 0 16581 235616581 0 133952356 13395 0

⎤⎦⎡⎣ 9752

⎤⎦ =1

754 469

⎡⎣243 914365 433145 122

⎤⎦ ,

es decir, la cartera óptima en que el inversor debe invertir está formadaaproximadamente por un 32.33 % en acciones, un 48.44 % en bonos y un19.23 % en activos inmobiliarios. Con estas ponderaciones se puede vercómo existen claras ventajas en la diversificación de la cartera, es decir,combinando los activos disponibles, se logra disminuir parte del riesgo(varianza). El riesgo de la cartera óptima es

�wt�w =[

243 914754 469

365 433754 469

145 122754 469

] ⎡⎣ 94

325

920

325

1625

42125

920

42125

3625

⎤⎦⎡⎣ 243 914754 469365 433754 469145 122754 469

⎤⎦=

49 001 031

94 308 625= 0.51958.

Nótese que la varianza de la cartera óptima(0.51958

)es inferior a las

otras tres varianzas de los intrumentos de inversión considerados por sísolos (ver diagonal de la matriz de varianza-covarianzas).

Este problema puede solucionarse mediante métodos numéricos, em-pleando un modelo de programación no lineal (NLP), puesto que la fun-ción objetivo fue expresada empleando una forma cuadrática.

Page 466: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 467: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Apéndice A

Métodos iterativos paraestimar valores propiosy vectores propios

En el Capítulo 2 se estudio un procedimiento para encontrar los valorespropios de una matriz A = [aij ], que era resolver la ecuación característicaasociada. En muchos problemas prácticos, obtener las raíces correspon-dientes del polinomio pA(λ) no es sencillo. Es más, en algunos problemasestadísticos solo se necesita el valor propio con el valor absoluto másgrande. En este apéndice se trataran algunos métodos para calcular va-lores aproximados de los valores propios de una matriz.

A.1 Valor propio dominante y vector propio do-minante

Definición A.1 Valor propio dominante y vector propio domi-nante

La matriz A de tamaño n × n tiene un valor propio dominante si elvalor absoluto de este es mayor que los valores absolutos de los valorespropios restantes. El vector propio asociado al valor propio dominante sedenomina vector propio dominante.

Ejemplo A.1 Determine el valor propio dominante para la matriz:

A =

[1 25 4

]

451

Page 468: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

452 A. Métodos iterativos

Solución.Los valores propios asociados a A son 1 y 6. Por lo tanto, el valor

propio dominante es 6.

Ejemplo A.2 Determine el valor propio dominante de la matriz:

A =

⎡⎣4 2 28 10 148 8 12

⎤⎦ .

Solución.Los valores propios asociados a la matriz A son 2, 4 y 4. Por lo tanto,

no hay valor propio dominante.

A.1.1 Método de la potencia

El método de potencias para aproximar valores propios es iterativo.Primero, se supone que la matriz A tiene un valor propio dominantecon vectores propios dominantes. Luego, se elige un vector diferente decero �w1 ∈ Rn. Por último, se forma la sucesión definida por

�w2 = A�w1

�w3 = A�w2 = A(A�w1) = A2 �w1

�w4 = A�w3 = A(A2 �w1) = A3 �w1

...

�wk+1 = A�wk = A(Ak−1 �w1) = Ak �w1.

A medida que k crece, Ak �w1 se hace paralelo al vector propio dominantede A.

Teorema A.1 Sea A una matriz real diagonalizable de tamaño n×n convalores propios reales λ1, λ2, . . . , λn tales que

|λ1| > |λ2| ≥ |λ3| ≥ . . . ≥ |λn|.

Entonces, existe un vector �w1 diferente de cero de Rn tal que la sucesiónde vectores definida por

A�w1, A2 �w1, A

3 �w1, . . . , Ak �w1, . . .

se aproxima al vector propio dominante de A cuando k aumenta.

Page 469: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

A.1. Valor propio y vector propio dominante 453

Demostración.Como A es diagonalizable, entonces existe una base de Rn formada

por los n vectores propios {�v1, �v2, . . . , �vn} asociados a los valores propiosλi, i = 1, 2, . . . , n, respectivamente.

Sea �w1 cualquier vector distinto de cero de Rn, de forma que

�w1 =n∑

i=1

ci�vi, con ci ∈ R. (A.1)

Definamos el siguiente proceso iterativo:

�wk+1 = A �wk, k = 1, 2, . . .

Nótese que �wk+1 = Ak �w1, k = 1, 2, . . . Por lo tanto, se tiene que

�w2 = A �w1 =A

[n∑

i=1

ci�vi

]=

n∑i=1

ciλi�vi

=λ1

[c1�v1 +

n∑i=2

ciλiλ1

�vi

],

�w3 = A �w2 =A

[λ1

(c1�v1 +

n∑i=2

ciλiλ1

�vi)]

=λ21

[c1�v1 +

n∑i= 2

ci

(λiλ1

)2

�vi

],

en general, por recurrencia, se obtiene

�wk+1 = A �wk = λk1

[c1�v1 +

n∑i=2

ci

(λiλ1

)k�vi

].

Luego, con base en la hipótesis original de que λ1 es mayor en valorabsoluto que los demás valores propios, se concluye que cuando k tiendea infinito, cada una de las fracciones

[λi

λ1

]k para i > 1 tiende a cero, pues∣∣ λi

λ1

∣∣ < 1. Esto implica que la aproximación

�wk+1∼= λk1c1�v1, c1 �= 0,

mejora a medida que k es suficientemente grande. Como �v1 es el vectorpropio asociado a λ1, entonces es dominante; luego, cualquier múltiplo es-calar de �v1 también es un vector propio dominante. Así, se ha demostrado

Page 470: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

454 A. Métodos iterativos

que Ak �w1 se aproxima arbitrariamente al vector propio dominante cuandok crece.

Como las componentes de Ak �w1 pueden ser números muy grandes alaumentar k, esto conduce a un error de redondeo. Este problema se evitamultiplicando Ak �w1 por un escalar adecuado en cada iteración.

A continuación, se presenta un procedimiento para obtener el valor propiodominante de una matriz A.

Cálculo del valor propio dominante de A

i) Seleccione un vector arbitrario diferente de cero �w1, cuyaentrada más grande sea 1.

ii) Para k = 1, 2, . . . ,

a) Calcule A�wk.

b) Sea μk el elemento de A�wk con valor absoluto másgrande.

c) Evalúe �wk+1 = 1μk

A�wk.

iii) Para casi todas las escogencias de �w1, la sucesión {μk} tiendeal valor propio dominante y la sucesión {�wk} se aproxima alcorrespondiente vector propio.

Con esta metodología no hay reglas eficaces y rápidas para determinarcuántas iteraciones se deben realizar. Si se escoge el vector �w1 de maneraque en la expresión (A.1) el coeficiente c1 sea cero, el método falla.

Ejemplo A.3 Ilustrar el método de la potencia para la matriz dada enel Ejemplo 2.1, comenzando con �wt

1 = [1 1] .

Solución.

Aplicando el método de la potencia de tal forma que en cada resul-tado no se utilicen cifras decimales para evitar redondeos, se obtiene losiguiente:

Page 471: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

A.1. Valor propio y vector propio dominante 455

k 1 2 3 4 5 6 7

�wk

[11

] [131

] [7171

] [411031

] [2476171

] [148137031

] [0.41

]

A�wk

[39

] [73173

] [411710317

] [247103617103

] [14816173703617

] [88873703222173703

] [2.46.0

]

λk - 9 173

10317

617103

3703617 5.9997

Luego, el valor propio dominante es aproximadamente 5.9997 y el respec-tivo vector propio es [0.4 1]t .Las respuestas exactas son

λ1 = 6 y �vt1 = [0.4 1] .

Definición A.2 Cociente de RayleighSea A una matriz real diagonalizable de tamaño n × n, se llama co-

ciente de Rayleigh de A a la función real definida para cada �x �= �0 como

rA(�x)

=�xtA�x

〈�x, �x〉 =�xtA�x

�xt�x. (A.2)

Aunque el cociente de Rayleight depende de la matriz, el subíndice A der se omite si no hay confusión.

Teorema A.2 Sea A una matriz real diagonalizable de tamaño n×n. Sea�w1 ∈ Rn cualquier vector no nulo. Considérense los cocientes de Rayleigh:

r(�wk

)=

�wtkA�wk�wtk �wk

, para k = 1, 2, . . . , m,

donde m es la cantidad deseada de iteraciones. El último cociente r(�wm

)es una aproximación del valor propio dominante λ de A, y si se hacer(�wk

)= λ + ε, de modo que ε es el error de r

(�wk

), entonces:

∣∣ε∣∣ ≤ √�ytk �yk�wtk �wk

− r2(�wk

), (A.3)

donde �yk = A�wk.

Page 472: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

456 A. Métodos iterativos

Demostración.Si se reescribe el cociente de Rayleigh, se obtiene que

�wtkA�wk = r

(�wk

)�wtk �wk, k = 1, 2, . . . , m,

y dado que �yk = A�wk, se tiene que �wtk�yk = r

(�wk

)�wtk �wk. Por lo tanto,[

�yk − r(�wk

)�wk

]t[�yk − r

(�wk

)�wk

]= �ytk�yk − 2r

(�wk

)�wtk�yk + r2

(�wk

)�wtk �wk

= �ytk�yk − r2(�wk

)�wtk �wk

=

[�ytk�yk�wtk �wk

− r2(�wk

)]�wtk �wk

= ε2 �wtk �wk. (A.4)

Como A es una matriz diagonalizable, por el Teorema 2.19 tiene n vec-tores propios linealmente independientes {�u1, �u2, . . . , �un} correspondien-tes a los valores propios {λ1, λ2, . . . , λn}, respectivamente, y medianteel proceso de Gram-Schmidt se ortonormalizan estos vectores para obte-ner {�v1, �v2, . . . , �vn} una base ortonormal de Rn. Entonces, �wk tiene unarepresentación de la forma

�wk =n∑

i=1

ci�vi con ci ∈ R,

y como los �vi son vectores unitarios ortogonales, entonces

�wtk �wk =

n∑i=1

c2i . (A.5)

Ahora bien,

�yk = A�wk = A

[n∑

i=1

ci�vi

]=

n∑i=1

ciλi�vi.

Luego,

�yk − r(�wk

)�wk =

n∑i=1

ci[λi − r

(�wk

)]�vi.

Si se reemplaza en (A.4), se obtiene que

ε2 �wtk �wk =

n∑i=1

c2i

[λi − r

(�wk

)]2.

Page 473: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

A.1. Valor propio y vector propio dominante 457

Si se sustituye cada[λi − r

(�wk

)]2 por el menor de estos términos y seaplica (A.5), se tiene que

ε2 �wtk �wk ≥

[λc − r

(�wk

)]2 n∑i=1

c2i =

[λc − r

(�wk

)]2�wtk �wk,

donde λc es un valor propio al cual r(�wk

)está próximo. De esto se llega

a (A.3), y queda demostrado el teorema.

A continuación, se presenta un procedimiento para obtener el valor propiodominante de una matriz A.

Método de los cocientes de Rayleigh

Sea A una matriz diagonalizable de tamaño n × n con un valorpropio dominante. Sea m la cantidad deseada de iteraciones.

i) Seleccione un vector arbitrario diferente de cero �w0.

ii) Para k = 0, 1, . . . , m − 1,

a) Calcule �zk =�wk

‖�wk‖ .

b) Sea �wk+1 = A�zk.

c) Evalúe r(�zk

)= �ztk �wk+1.

iii) Los cocientes de Rayleigh{r(�zk

)} tienden al valor propiodominante y la sucesión {�zk} se aproxima al correspondientevector propio unitario.

Para matrices simétricas, este método es muy eficiente y requieremenos iteraciones para lograr la misma exactitud.

Ejemplo A.4 Ilustrar el método de los cocientes de Rayleigh, para lamatriz dada en el Ejemplo A.3

Page 474: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

458 A. Métodos iterativos

Solución.Aplicando el método de los cocientes de Rayleigh se obtiene la tabla

siguiente:

k 0 1 2 3 4 5

�zk

[1√2

1√2

] [1√103√10

] [7

13√

217

13√

2

] [41√

12290103√12290

] [247√

441698617√

441698

] [0.371350.92849

]

A�wk

[3√2

9√2

] [7√10

17√10

] [41

13√

2103

13√

2

] [247√12290617√12290

] [1481√4416983703√441698

] [2.22835.5707

]

λk - 295

1019169

368396145

1325279220849 5.9997

Así, el valor propio dominante es aproximadamente λ = 6 y el res-

pectivo vector propio unitario es[0.371350.92849

].

Ejercicios A.1 Determine los vectores propios dominantes con los mé-todos descritos en este apéndice para las siguientes matrices:

a.

[1 11 3

]. b.

[1 33 1

]. c.

[1 11 1

].

d.

⎡⎣ 1 3 23 1 22 2 1

⎤⎦ . e.

⎡⎣ 3 1 41 1 54 5 2

⎤⎦ .

Page 475: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Apéndice B

Números complejos

B.1 Álgebra de los números complejos

Como el concepto de número complejo se utiliza con mucha frecuencia eneste material y como algunos lectores quizás tengan solo un conocimientosuperficial de ellos, este apéndice contiene un breve repaso de sus propie-dades algebraicas más importantes.

Definición B.1 Número complejoUn número complejo es una expresión de la forma:

z = a + bi,

donde a y b son números reales: a se llama la parte real de z y se denotapor Re(z) y b es llamado la parte imaginaria de z y lo denotamos porIm(z). El símbolo i se llama unidad imaginaria y satisface la propiedadde que i2 = −1.

Definición B.2 Igualdad de números complejosDos números complejos a + bi y c + di se definen como iguales si y

solo si las partes real e imaginaria de uno son respectivamente iguales alas partes real e imaginaria del otro, esto es, si y solo si a = c y b = d.

Definición B.3 Formas especiales de los números complejosDado un número complejo de la forma z = a + bi, si b = 0, se llama

número real; por otra parte, si a = 0, se denomina número imaginariopuro.

459

Page 476: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

460 B. Números complejos

B.1.1 Operaciones fundamentales

Definición B.4 Suma y diferenciaLa suma y diferencia de los números complejos a + bi y c + di son

definidas sumando o restando sus partes reales y sus partes imaginarias,como sigue:

(a + bi) + (c + di) = (a + c) + (b + d)i,

(a + bi) − (c + di) = (a − c) + (b − d)i.

Definición B.5 MultiplicaciónEl producto de los números complejos a + bi y c + di se define como

sigue:

(a + bi) · (c + di) = (ac − bd) + (ad + bc)i. (B.1)

Teorema B.1 Un número complejo es igual a cero si y solo si sus partesreal e imaginaria valen cero.

Demostración.Queda como ejercicio para el lector.

Definición B.6 InversoEl recíproco o inverso del número complejo c+di se define como sigue(

c + di)−1

=c

c2 + d2+

−d

c2 + d2i =

c − di

c2 + d2.

Puesto que c2 y d2 son no negativos, c2 + d2 = 0 si y solo si c = d = 0.Por lo tanto, el único número complejo c + di que no tiene recíproco esel cero.

Esta definición del recíproco nos lleva a la siguiente definición.

Definición B.7 DivisiónSi w = a + bi, z = c + di y z �= 0, se puede definir su cociente como

sigue:

w

z= w.z−1 =

(ac + bd

c2 + d2

)+

(bc − ad

c2 + d2

)i, (B.2)

el cual resulta ser un número complejo.

Page 477: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

B.1. Álgebra de los números complejos 461

Teorema B.2 Los números complejos satisfacen las siguientes propie-dades:

• Para la adición:

A1. Si z1 = a + bi y z2 = c + di pertenecen a C, su suma z1 +z2 pertenece a C. Esto también se expresa diciendo que C escerrado bajo la adición.

A2. Ley Conmutativa: z1 + z2 = z2 + z1.

A3. Ley Asociativa: (z1 + z2) + z3 = z1 + (z2 + z3).

A4. Elemento identidad: Existe un elemento 0 = 0 + 0i en C talque si z ∈ C, z + 0 = z.

A5. Si z ∈ C, existe un elemento único −z en C, llamado el nega-tivo de z, tal que z + (−z) = 0.

• Para la multiplicación:

M1. Si z1 = a + bi y z2 = c + di pertenecen a C, su productoz1.z2 pertenece a C. Esto también se expresa diciendo que C

es cerrado bajo la multiplicación.

M2. Ley Conmutativa: z1.z2 = z2.z1.

M3. Ley Asociativa: (z1.z2).z3 = z1.(z2.z3).

M4. Elemento identidad: Existe un elemento 1 = 1 + 0i en C talque 1.z = z para todo z ∈ C.

M5. Si z �= 0, existe un elemento único z−1 tal que z.(z−1) = 1.

• Ley Distributiva: Esta última regla entrelaza la adición y la multi-plicación.

Si z1, z2 y z3 pertenecen a C, entonces

z1.(z2 + z3) = (z1.z2) + (z1.z3).

Demostración.Queda como ejercicio para el lector.

Definición B.8 Número complejo conjugadoEl conjugado de z es el número z = a + bi = a − bi.

Teorema B.3 La suma, diferencia y producto de números complejos consus conjugados son, respectivamente, un número real, un número imagi-nario puro y un número real no negativo.

Page 478: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

462 B. Números complejos

Demostración.Si z = a + bi, entonces z = a − bi y por lo tanto,

z + z = 2a, z − z = 2bi y z.z = a2 + b2.

Teorema B.4 Si un número complejo es igual a su conjugado es un nú-mero real, pero si es igual al negativo de su conjugado es un númeroimaginario puro.

Demostración.Si z = a + bi, entonces z = a − bi, luego si z = z, por la definición

de igualdad se tiene que b = −b, así que b = 0, y por lo tanto z = a. Porotra parte, si z = −z, por la definición de igualdad se tiene que a = −a,de modo que a = 0 y z = bi.

Una aplicación importante del conjugado de un número complejo estáen el cálculo de un cociente, la regla “multiplíquense numerador y deno-minador por el conjugado del denominador” es más fácil de recordar quela fórmula (B.2). En otras palabras, en el proceso de división

z−1 =1

z=

z

z.z

y en forma análoga

w

z= w.z−1 =

w.z

z.z, z �= 0.

Teorema B.5 Propiedades de los números complejos conjugadosSi w y z son números complejos, entonces

(a) w = w. (b) w ± z = w ± z.

(c) w.z = w.z. (d) (w/z) = w/z, si z �= 0.

Demostración.

(c) Si w = a + bi y z = c + di, entonces por (B.1)

w.z = (a + bi).(c + di) = (ac − bd) + (ad + bc)i

= (ac − bd) − (ad + bc)i.

Page 479: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

B.1. Álgebra de los números complejos 463

Mientras que

w.z = (a + bi).(c + di) = (a − bi).(c − di)

= (ac − bd) − (ad + bc)i.

De modo quew.z = w.z.

Procedimientos semejantes se aplican en los otros casos.

Definición B.9 MóduloEl módulo o valor absoluto del número complejo z = a + bi, represen-

tado por |z|, es la distancia desde el punto (a, b) al origen, es decir:

|z| =√

z.z =√

a2 + b2.

Teorema B.6 Propiedades del móduloSi w y z son números complejos, entonces

(a) |w| = |w|. (b) |w + z| ≤ |w| + |z|.

(c) |w.z| = |w|.|z|. (d)∣∣∣wz

∣∣∣ =|w||z| , si z �= 0.

Demostración.Sean w = a + bi y z = c + di, entonces

(a) |w| =√

a + (−b)2 = |w|.(b) Para probar esta, observemos que

(w + z).(w + z) = (w + z). (w + z)

= w.w + z.z + w.z + w.z,

o bien

|w + z|2 = |w|2 + |z|2 +(w.z + w.z

).

Pero como

w.z + w.z = 2Re (w.z) ≤ |w.z| = 2|w|.|z|,se tiene que

|w + z|2 ≤ |w|2 + |z|2 + 2|w|.|z| = (|w| + |z|)2 .

Tomando raíz cuadrada en ambos miembros, se llega al resultadodeseado:

|w + z| ≤ |w| + |z|.

Page 480: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

464 B. Números complejos

(c) La demostración consiste en un cálculo directo:

|w.z| = |(a + bi).(c + di)| = |(ac − bd) + (ad + bc)i|=

√(ac − bd)2 + (ad + bc)2 =

√(a2 + b2).(c2 + d2)

= |w|.|z|.

(d) Se deja la prueba para el lector.

Definición B.10 ArgumentoEl argumento o amplitud del número complejo z = a + bi es el ángulo

formado por el segmento que va del origen al punto que representa unnúmero complejo y el eje real positivo, y está dado por la expresión:

θ = arg(z) = arctan

(b

a

)︸ ︷︷ ︸+2nπ n = 0,±1,±2, . . .

= Arg(z) + 2nπ, (B.3)

donde Arg(z) denota el valor principal de arg(z) y se define como el únicovalor de arg(z) tal que −π ≤ arg(z) < π.

Teorema B.7 Propiedades del argumentoSi w y z son números complejos, entonces

(a) arg(w.z) = arg(w) + arg(z).

(b) arg(wz

)= arg(w) − arg(z), si z �= 0.

Demostración.Queda como ejercicio para el lector.

B.1.2 Representación polar

Sean r y θ coordenadas polares del punto (a, b) que corresponden a unnúmero complejo no nulo z = a + bi. Vea la representación en la Figu-ra B.1:

Page 481: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

B.1. Álgebra de los números complejos 465

a

b

Re(z)

Im(z)

r=|z|

θ

Figura B.1: Representación polar.

Por tanto,

a = r cos θ = |z| cos (arg z) y b = r sen θ = |z| sen (arg z) .

En consecuencia, z puede ser expresado en forma polar como

z = r(cos θ + i sen θ

)= |z|[cos

(arg z

)+ i sen

(arg z

)].

Esta representación polar de z es de gran utilidad para obtener potenciasy raíces de números complejos.

Definición B.11 Fórmula de EulerSea θ un número real. Se define el símbolo eiθ, como sigue:

eiθ = cos θ + i sen θ, (B.4)

esta ecuación se conoce como la fórmula de Euler.

Teorema B.8 Teorema de De MoivreSi z = r

(cos θ + i sen θ

), entonces

zn = rn(cos nθ + i sen nθ

)= |z|n[cos

(n arg z

)+ i sen

(n arg z

)], (B.5)

donde n es cualquier número entero.

Demostración.Queda como ejercicio para el lector.

Page 482: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

466 B. Números complejos

El teorema de De Moivre también puede utilizarse para encontrar lasraíces m-ésimas de un número complejo. Si se hace n = 1

m, entonces

z1

m = [r (cos θ + i sen θ)]1

m = r1

m

[cos

(1

)+ i sen

(1

)].

Además, si se tienen en cuenta las siguientes identidades trigonométricas

cos(θ + 2kπ

)= cos θ y sen

(θ + 2kπ

)= sen θ,

en donde k es un entero, se tiene que

z1

m = {r (cos (θ + 2kπ) + i sen (θ + 2kπ))} 1

m

= r1

m

[cos

(θ + 2kπ

m

)+ i sen

(θ + 2kπ

m

)].

Las raíces m-ésimas se obtienen asignando a k los m valores consecutivosenteros 0, 1, 2, . . . , m − 1.

Observación.Si m = 2, se tiene que

√z =

√a ± bi = |z| 12

[cos

2+ kπ

)± i sen

2+ kπ

)], k = 0, 1.

Luego,

√z =

⎧⎨⎩ |z| 12[cos

(θ2

)± i sen

(θ2

)]si k = 0,

−|z| 12 [cos

(θ2

)± i sen(θ2

)]si k = 1.

Si se usan las siguientes identidades trigonométricas

cos

2

)=

√1 + cos θ

2y sen

2

)=

√1 − cos θ

2,

se llega a

√z = (−1)k

√2

2

[√a + |z| + sgn (b)

√a − |z|

], k = 0, 1, (B.6)

donde sgn(·) denota la función signo.

Ejemplo B.1 Si z = a + bi, demuestre que

√z ±

√z = ±

√2 (a ± |z|).

Page 483: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

B.1. Álgebra de los números complejos 467

Solución.Si z = a + bi, entonces z = a − bi. Por lo tanto,(√

z ±√

z)2

= z + z ± 2√

z.z.

Por el teorema B.3, se tiene(√z ±

√z)2

= 2a ± 2√

a2 + b2.

Al tomar raíz cuadrada a ambos lados, se obtiene

√z ±

√z = ±

√2 (a ± |z|),

y la prueba queda completa.

Page 484: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 485: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Bibliografía

Anton, H. (1996), Introducción al Álgebra Lineal, Editorial Limusa S.A.Grupo Noriega Editores, México.

Apostol, T. M. (1985), Calculus, Vol. 2, 2a edn, Editorial Reverté S.A.,Barcelona.

Asmar, A. J. (1995), Tópicos en Teoría de Matrices, Universidad Nacionalde Colombia, sede Medellín, Colombia.

Barbolla, S. & Sanz, P. (1998), Álgebra Lineal y Teoría de Matrices, Pren-tice Hall, Madrid.

Bernstein, D. S. (2009), Matrix Mathematics: Theory, Facts, and Formu-las, 2nd edn, Princeton University Press, Estados Unidos.

Bretscher, O. (1997), Linear Algebra with Applications, Prentice Hall,New Jersey.

Bru, R., Climent, J.-J., Mas, J. & Urbano, A. (2001), Álgebra Lineal,Alfaomega S.A., México.

Cayley, A. (1858), ‘A memoir on the theory of matrices’, PhilosophicalTransactions of the Royal Society of London 148, 17 37.

Ding, Z. & Engle, R. (2001), ‘Large scale conditional covariance ma-trix modeling estimation and testing’, Academia Economic Papers29(2), 157 184.

Filippov, A. F. (1971), ‘A short proof of the theorem on reduction ofa matrix to jordan form’, Moscow University Mathematics Bulletin26, 70 71.

Fraleigh, B. (1989), Álgebra Lineal, Addison-Wesley Iberoamericana S.A.,Estados Unidos.

469

Page 486: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

470 BIBLIOGRAFÍA

Frazer, R. A., Duncan, W. J. & Collar, A. R. (1965), Elementary Matricesand Some Applications to Dynamics and Differential Equations, TheSyndics of the Cambridge University Press, Estados Unidos.

Golubitsky, M. & Dellnitz, M. (2001), Álgebra Lineal y Ecuaciones Dife-renciales con Matlab, International Thomson Editores S.A., México.

Graybill, F. A. (1983), Matrices with applications in statistics, Cole statis-tics / probability series, 2nd edn, Wadsworth & Brooks, EstadosUnidos.

Grossman, S. I. (1996), Álgebra Lineal, 5a edn, McGraw-Hill, México.

Grossman, S. I. (1998), Aplicaciones de Álgebra Lineal, Grupo EditorialIberoamérica S.A., México.

Herstein, I.Ñ. & Winter, D. (1989), Álgebra Lineal y Teoría de Matrices,Grupo Editorial Iberoamérica S.A., México.

Hoaglin, D. C. & Welsch, R. E. (1978), ‘The hat matrix in regression andanova’, The American Statistician 32(1), 17 22.

Horn, R. & Johnson, C. (1985), Matrix Analysis, Cambridge UniversityPress, Estados Unidos.

Kemeny, J. G. & Snell, J. L. (1976), Finite Markov Chains, Springer-Verlag, Nueva York.

Kolman, B. (1997), Álgebra Lineal con Aplicaciones y matlab, PrenticeHall, México.

Lang, S. (2004), Linear algebra, 3rd edn, Springer, Estados Unidos.

Larson, E. (2000), Introducción al Álgebra Lineal, Limusa Noriega Edi-tores, México.

Lay, D. C. (1994), Linear Algebra and its Applications, Addison-WesleyPublishing Company, Estados Unidos.

Markowitz, H. M. (1952), ‘Portfolio selection’, The Journal of Finance7(1), 77 91.

Markowitz, H. M. (1959), Portfolio Selection: Efficient Diversification ofInvestments, John Wiley & Sons, New York.

Page 487: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

BIBLIOGRAFÍA 471

Mendel, G. J. (1865), ‘Versuche über pflanzen-hybriden’, Verhandlungendes naturforschenden Vereines, Abhandlungen, Brünn IV(1), 3 47.An English translation, “Experiments in Plant Hybridisation”, waspublished in the Journal of the Royal Horticultural Society , London,1901, 26, 1 32.

Merton, R. C. (1972), ‘An analytic derivation of the efficient portfo-lio frontier’, The Journal of Financial and Quantitative Analysis7(4), 1851 1872.

Murdoch, D. C. (1970), Linear Algebra, John Wiley & Sons, Nueva York.

Nakos, G. & Joyner, D. (1999), Álgebra Lineal con Aplicaciones, Interna-tional Thomson Editores S.A., México.

Noble, B. & Daniel, J. W. (1989), Álgebra Lineal Aplicada, Prentice-HallHispanoamericana S.A., México.

Paige, L. & Swift, D. (1961), Elements of Linear Algebra, Blaisdell Pub-lishing Company, Massachusetts.

Penrose, R. (1955a), ‘A generalized inverse for matrices’, Proceedings ofthe Cambridge Philosophical Society 51, 406 413.

Penrose, R. (1955b), ‘On best approximate solutions of linear ma-trix equations’, Proceedings of the Cambridge Philosophical Society52, 17 19.

Pringle, R. M. & Rayner, A. A. (1971), Generalized Inverse Matriceswith Applications to Statistics, Charles Griffin & Company Limited,Londres.

Rao, C. R. & Rao, M. B. (1998), Matrix Algebra and its Applications toStatistics and Econometrics, World Scientific, Estados Unidos.

Rorres, C. & Anton, H. (1979), Aplicaciones de Álgebra Lineal, Limusa,México.

Samelson, H. (1974), An Introduction to Linear Algebra, John Wiley &Sons, Nueva York.

Schott, J. R. (1997), Matrix Analysis for Statistics, Wiley Series in Prob-ability and Statistics, John Wiley & Sons, Estados Unidos.

Searle, S. (1971), Linear Models, John Wiley & Sons, Nueva York.

Page 488: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

472 BIBLIOGRAFÍA

Searle, S. (1982), Matrix Algebra Useful for Statistics, John Wiley & Sons,Estados Unidos.

Strang, G. (1986), Álgebra Lineal y sus Aplicaciones, Addison WesleyIberoamericana, México.

Sylvester, J. J. (1973), The Collected Mathematical Papers, Vol. I IV,Chelsea Publishing Company, New York.

Weintraub, S. H. (2009), Jordan Canonical Form: Theory and Practice,Synthesis Lectures on Mathematics and Statistics, Morgan & Clay-pool Publishers series, Estados Unidos.

Zhang, F. (2005), The Schur Complement and Its Applications (Numer-ical Methods and Algorithms), Springer Science + Business Media,Inc., Estados Unidos.

Page 489: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

Índice alfabético

Adjunta de una matriz, 16Amplitud de un número complejo,

464Ángulo(s)

de rotación, 280eulerianos, 294

Argumentode un número complejo, 464principal, 464

Autovalor, 70Autovector, 70

Base, 47cambio de, 49

Bloquede Jordan, 154

Cadena de Markov, 411Cambio de base, 49Clasificación

de formas cuadráticas, 263de formas hermíticas, 310

Cocientede Rayleigh, 455

Combinación lineal, 46Complemento

de Schur, 36Ortogonal, 53

Delta de Kronecker, 21Descomposición

de Cholesky, 183de Schur, 136de Sylvester, 84, 209en valores singulares, 189, 223espectral

para hermitianas, 217para simétricas, 112

LS, 128polar, 224, 225

a derecha, 192a izquierda, 192

Desigualdadde Fischer, 270triangular, 316

Determinantede una matriz 2 × 2, 12de una matriz 3 × 3, 12de una matriz n × n, 14

Diagonalizaciónde una forma cuadrática, 244de una forma hermítica, 305por completación de cuadra-

dos, 244por transformación

ortogonal, 255unitaria, 308

Ecuacióncaracterística, 73cuadrática, 271

473

Page 490: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

474 ÍNDICE ALFABÉTICO

Ejes principales, 256Espacio

de las columnas de una matriz,54

de los renglones de una matriz,54

generado, 47nulo, 54propio, 75

generalizado, 116vectorial, 44

real, 65

Factorizaciónde una matriz, 127LDU, 132LU, 135QR, 143

Forma(s)bilineal, 231

alternada, 235rango, 234simétrica, 235

canónica de Jordan, 159cuadrática(s), 238

clasificación, 263equivalentes, 241interpretación geométrica,

271hermíticas

clasificación, 310polar, 241sesquilineal, 299

Fórmulade Euler, 465de Schur, 36o expansión de Laplace, 14

g-inversa, 364

Índice

de condición, 329Inversa

generalizada, 364de Penrose, 391

Isomorfismo, 61

Lemade Banach, 321

Ley de la inerciade Sylvester, 259

Lugaresgeométricos, 284, 296

Matricescomplejas, 61

semejantes, 208congruentes, 88

hermitianas, 209ortogonalmente, 105

particionadas, 25–42semejantes, 90

ortogonalmente, 105Matriz

adjunta, 16antihermitiana, 203antisimétrica, 21

propiedades, 21compleja, 61conjugada, 61de cofactores, 13de Jordan, 155de permutación, 23de reflexión, 23de rotación, 279, 294de transformación, 60de transición, 412de una forma cuadrática, 238definida

negativa, 264positiva, 263

determinante de una, 12

Page 491: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

ÍNDICE ALFABÉTICO 475

diagonal, 19propiedades, 19

diagonalizable, 93escalar, 18escalonada, 8estocástica, 409hat, 431

propiedades, 432hermitiana, 198Householder, 337idempotente, 333identidad, 5indefinida, 264inversa, 10

generalizada, 364menor de una, 13nilpotente, 24normal, 207ortogonal

impropia, 23propia, 23propiedades, 22

regular, 411simétrica, 17

propiedades, 18transpuesta

conjugada, 63transpuesta de una, 6triangular, 17

propiedades, 17triangularizable, 136unitaria, 205

Métodode Cayley, 163de eliminación de Gauss, 57de Gauss-Jordan

Cálculo de inversa, 10de la potencia, 452de mínimos cuadrados, 429de Penrose, 391

de reducción de Lagrange, 249Módulo

de un complejo, 463Multicolinealidad, 433Multiplicidad

algebraica, 73geométrica, 76

Normade un vector, 51

propiedades, 51de una matriz, 315

tipos, 317–320Núcleo, 54Número

complejo, 459conjugado, 461módulo, 463

de condición, 324

OperadorVec, 353

propiedades, 354

Polinomiocaracterístico, 73de matriz, 148mínimo, 148, 150

Probabilidadde transición, 411

Procesode Markov, 411

ProductoHadamard, 355

propiedades, 355Kronecker, 348

propiedades, 349punto

en Cn, 65en Rn, 50

Page 492: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada

476 ÍNDICE ALFABÉTICO

Radioespectral, 320

Raíz cuadradade un número complejo, 466de una matriz, 162–181

diagonal, 164triangular, 167

Rangode una forma bilineal, 234de una matriz, 55

propiedades, 55Regla

de Cramer, 58de Sarrus, 12

Rotación de ejesen R2, 277en R3, 290

Seudoinversa, 364Sistema de ecuaciones

de mal comportamiento, 324lineales, 56

consistente, 57homogéneo, 57inconsistente, 57

Submatrizangular, 29principal, 28

Sumade subespacios, 45directa, 46

Superficiecuádrica, 284

Teoremade Cayley-Hamilton, 149de Cochran, 345de De Moivre, 465de Euler, 261de los ejes principales, 256de Schur, 210

espectralpara matrices simétricas, 113

Transformaciónbiyectiva, 61lineal, 59

representación matricial, 59sobre, 61uno a uno, 60

ortogonal, 277Transpuesta

de una matriz, 6conjugada, 63particionada, 30propiedades, 6

Trazade una matriz, 9

Valorcaracterístico, 70propio

dominante, 451singular, 186

Vector(es)característico, 70complejo, 66linealmente

dependientes, 46independientes, 47

probabilístico, 412propio

dominante, 451generalizado, 115

Page 493: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 494: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada
Page 495: Álgebra Matricial con aplicaciones en estadídtica · 2020. 4. 24. · 8.1.1 Factorización QR por reflexiones de Householder 338 8.2 Productos especiales 348 9 Inversa generalizada