single layer

Upload: ivan-feliciano-avelino

Post on 14-Feb-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 Single Layer

    1/22

    Definicion 1 (Combinacion lineal)

    Dados dos conjuntos A, B, se define como combinacion lineal a todaexpresion de la forma

    aAbBab

    Combinacion lineal de vectores. Sean v1, . . . ,vn vectores. Entoncescualquier suma

    nj=1

    cjvj=c1v1+ + cnvn

    con cj R, es llamada una combinacion lineal de vectores.

    http://find/
  • 7/23/2019 Single Layer

    2/22

    Definicion 2 (Producto punto)El producto punto en Rn es una funcion: Rn Rn R que a cada parde vectores x,y Rn le asocia un numero real x y dado por

    x

    y= x1y1+

    + xnyn

    en el que x= (x1, . . . , xn) y y= (y1, . . . , yn).

    Definicion 3 (Ortogonalidad)

    Se dice que dos vectores x,y Rn son ortogonales si x y= 0.

    http://goforward/http://find/http://goback/
  • 7/23/2019 Single Layer

    3/22

    Proposicion 1 (Proyeccion de un vector sobre otro)

    La proyecci on ortogonal dey sobrex es el vector.

    P Ryx = y xx xx

    Demostracion.

    Sean x,y dos vectores en Rn. Tomemos la proyeccion ortogonal delvector y sobre el vector x, y denotemos a u a este vector proyeccion(usaremos tambien la notacion P Ryx).

    Es claro que el vector u es un multiplo escalar del vector x. Es decir,existe

    R tal que u= x. Observese ademas que el vector v= y

    u

    es un vector ortogonal a x. Entonces (y u) x= 0, o bien(y x) x= 0, de donde obtenemos que

    =y xx

    x

    http://find/
  • 7/23/2019 Single Layer

    4/22

    Definicion 4Definimos la norma de un vector x Rn, denotada porx, como

    x= x x

    En concreto para x= (x1, . . . , xn), se tiene

    x=

    x21

    + + x2n

    Diremos que el vector x es unitario six

    = 1.

    http://find/http://goback/
  • 7/23/2019 Single Layer

    5/22

    Definicion 5 (Angulo entre dos vectores en Rn)

    En el caso de dos vectores en R2

    , es facil obtener una expresion para elangulo que forman. En efecto, sean x,y R2 dos vectores no nulos, esinmediato que el angulo que forman x y y es tal que

    cos =P Ryx

    y

    =

    x y

    x

    y

    La formula anterior tiene sentido si nuestros vectores x,y son vectorescualesquiera no nulos del espacio Rn.

    Se define entonces el angulo entre los vectores (no nulos) x,y Rncomo el angulo , 0

    , dado por

    = cos1 x yxy

    http://find/
  • 7/23/2019 Single Layer

    6/22

    Nota

    En terminos del angulo , se puede escribir el producto punto de losvectoresx,y

    Rn como

    x y=xy cos

    http://find/
  • 7/23/2019 Single Layer

    7/22

    Definicion 6 (Hiperplano)

    Sean w y p vectores en Rn con w= 0. El conjunto de todos los vectoresx en Rn que satisfacen la ecuacion

    w (x p) = 0

    es llamado un hiperplano a traves del punto p. Llamamos a w un vectornormal al hiperplano y a la ecuacion anterior, ecuacion normal al

    hiperplano.

    Notemos que si definimos,w= (w1, w2, . . . , wn),p= (p1, p2, . . . , pn) y x= (x1, x2, . . . , xn),entonces podemos escribir lo siguiente

    w1(x1p1) + w2(x2p2) + + wn(xnpn) = 0

    ow1x1+ w2x2+ + wnxn+ d= 0

    donde d=w p

    http://find/
  • 7/23/2019 Single Layer

    8/22

    Redes de capa simple

    Las entradas se conectan directamente a las salidas atraves de unacapa simple de pesos.

    Las N salidas pueden ser tratadas como N redes separadas.

    Cada unidad produce su salida mediante la formacion de unacombinacion lineal de sus entradas que pasan posteriormente a

    traves de una funcion no lineal.

    u=j

    wjxi

    y=f(u)

    Esto puede ser expresado en notacion vectorial

    y(x) =f(wTx)

    http://find/
  • 7/23/2019 Single Layer

    9/22

    Proposicion 2

    La orientaci on del hiperplano est a determinada por la direcci on dew.

    Esta depende de cada pesowi, y no de la magnitud total dew.

    Demostracion.

    Sea ei el vector unitario alineado con el i-esimo eje de coordenadas, i.e.ei = (1, 0, . . . , 0)

    El angulo 1 entre el hiperplano normal y el i-esimo eje de coordenadases entonces

    wTei =

    wei cos i

    wi =w cos icos i =wi/w

    P 3

    http://find/
  • 7/23/2019 Single Layer

    10/22

    Proposicion 3

    La inclusi on de un l mite o bias,

    u= wTx mueve al hiperplano a lo largo dew a una distanciad= /w delorigen.

    Demostracion.

    Para ver esto, sea v el vector del origen al punto mas cercano sobre elplano. Este debe ser normal al plano y por lo tanto paralelo a w, as quev= dw/w.Como el hiperplano es el conjunto de todos lo punto quecumplen wx = 0, enctonces tenemos que tenemos

    wTv = 0dwTw/w = 0

    d= /

    w

    http://find/
  • 7/23/2019 Single Layer

    11/22

    Separabilidad Lineal

    Un perceptron de capa simple puede clasificar solo conjuntos de datos los

    cuales sean linealmente separables.

    Definicion 7

    Las clases A y B son linealmente separables si pueden ser separados por

    un hiperplano, i.e., si existe un hiperplano tales que las clases Ay B caenen lados opuestos.

    Proposicion 4

    Hay22d

    funciones booleanas ded variables de entrada booleanas, de lascuales soloO(2d2

    ) que son linealmente separables. Cuandod es grande,la fracci on de funciones booleanas que son linealmente separables y por

    tanto operadas por una red de capa simple se vuelve muy pequeno.

    http://find/
  • 7/23/2019 Single Layer

    12/22

    Proposicion 5

    DadosNpuntos en un espacio de entradad-dimensional, hay2n

    maneras posibles de etiquetar los puntos0 o1.

    Definicion 8

    Cada una de las maneras posibles anteriores, forman un dicotoma, unadivision de Npuntos en dos clases. Una dicotoma es linealmenteseparable si todos los 0s puedn ser separados de los 1s con unhiperplano. Es homogeneamente linealmente separable si los puntos

    pueden ser separados por un hiperplano que pasa por el origen.

    http://find/
  • 7/23/2019 Single Layer

    13/22

    Definicion 9

    La capacidad del hiperplano esta definida como el numero de dicotomasque el hiperplano pueden separar.

    Definicion 10

    Un conjunto de al menos d + 1 puntos de un espacio ddimensional sedice que estan en posicion general si ningun hiperplano contiene mas de

    dpuntos.

    Teorema 1

    ParaNpuntos en posici on general, en un espacio euclidiano dedimensi on

    d, el numero

    C(N, d)de dicotom as homog eneas linealmente

    separables es

    C(N, d) =

    2N Nd2d1

    k=0

    N1k

    N > d

    Este resultado es paraNpuntos en posici on general.

    http://find/
  • 7/23/2019 Single Layer

    14/22

    Demostracion.

    Comenzamos con Npuntos en posicion general. Asumimos que hayC(N, d) dicotomas posibles, por lo que veremos cuantas dicotomas sonposibles si anadimos otro punto p (en posicion general), es decir cual esel valor de C(N+ 1, d)

    Definimos los siguientes valoresM1= Numero de dicotomas que no pueden ser obtenidas a traves de p

    M2= Numero de dicotomas pasan a traves de p

    C(N+ 1, d) =M1+ M2

    http://find/
  • 7/23/2019 Single Layer

    15/22

    Demostracion (Cont.)

    Pero M1+ M2=C(N, d)M1=C(N, d) M2 Por lo tanto tenemos

    C(N+ 1, d) =C(N, d) + M2

    Sin embargo

    M2=C(N, d 1)Ya que obligar a un hiperplano a pasar a traves de p (al igual que elorigen) es equivalente a reducir la dimension de d a d 1.Sustituyendo, tenemos la relacion de recurrencia

    C(N+ 1, d) =C(N, d) + C(N, d 1)

    http://find/
  • 7/23/2019 Single Layer

    16/22

    Demostracion (Cont.)

    Ahora probamos el teorema por induccion. Asumimos que

    C(N, d) = 2d1k=0

    N 1

    k

    es verdad para N y d [Notemos que es trivial para N= 1 y para

    cualquierd, ya que C(1, d) = 2]. Entonces

    C(N+ 1, d) = 2d1k=0

    N 1

    k

    + 2

    d2k=0

    N 1

    k

    =

    2d1k=0

    N 1

    k

    + 2

    d1k=0

    N 1k 1

    = 2

    d1k=0

    N

    k

    Usamos

    n

    k=

    n1

    k1+

    n1

    k

    http://find/
  • 7/23/2019 Single Layer

    17/22

    Nota

    nk = n 1

    k 1+ n 1

    k

    Contamos el numero de

    http://find/
  • 7/23/2019 Single Layer

    18/22

    Por lo anterior C(N, d) puede ser calculado recursivamente utilizando lassiguientes relaciones.

    C(1, d) = 2

    C(N, 1) = 2NC(N+ 1, d) = C(N, d) + C(N, d 1)

    http://find/
  • 7/23/2019 Single Layer

    19/22

    Lema 1

    La probabilidad de que una dicotoma elegida aleatoriamente sea

    linealmente separable es igual a

    f(N, d) =

    1 Nd2

    2N

    d1k=0

    N1k

    N > d

    Al i d A di j d l

    http://find/
  • 7/23/2019 Single Layer

    20/22

    Algoritmo de Aprendizaje del perceptron

    Cada unidad produce su salida mediante la formacion de unacombinacion lineal de sus entradas que pasan posteriormente a traves deuna funcion no lineal.

    u=

    Nj=0

    wjxj = wTx

    y=

    1 u0+1 u >0

    http://find/
  • 7/23/2019 Single Layer

    21/22

    Durante el entrenamiento, los patrones de entrada x son dados y lassalidasy(x) son comparadas a los objetivos t(x). Los pesos son

    adaptados por

    w=

    2tx si t=y0 para otro caso

    donde 0<

  • 7/23/2019 Single Layer

    22/22

    Para mejorar la confiabilidad, puede ser deseable que una unidad se

    active solo cuando la suma u= wTx es mayor que un lmite Nk. donde0k