me did as de distancia

4
Medidas de Distancia Miguel Cárdenas-Montes La aplicación de métricas de distancia diferentes de la distancia euclidea puede suponer una importante mejora en el rendimiento de algoritmos evolutivos y en algoritmos de minería de datos. Objetivos: Conocer algunas medidas de distancia especialmente aquellas dife- rentes de la distancia euclídea. Este documento puede contener impre- cisiones o errores. Por favor no lo utilice para citarlo como una fuente fiable. 1 Definición Formal de Distancia Una definición formal de distancia D( X 1 , X 2 ) No negativo: D( X 1 , X 2 ) 0 X 1 , X 2 X Simetría: D( X 1 , X 2 )= D( X 2 , X 1 ) X 1 , X 2 X Desigualdad triangular: D( X 1 , X 2 ) D( X 1 , X 3 )+ D( X 3 , X 2 ) X 1 , X 2 , X 3 X Axioma de coincidencia o identidad de indiscernibles: D( X 1 , X 2 )= 0, si y solo si X 1 = X 2 Muchas medidas de distancia no son me- didas porque no cumplen los requisi- tos. Por ejemplo, las pseudométricas no cumplen las condiciones: distancias no negativas ni la identidad de indiscer- nibles. Las quasimétricas no cumplen la condición de simetría, y por último las semimétricas no cumplen la desigual- dad triangular. 2 Distancia Euclídea La distancia euclídea entre dos punto se define en la ecuación 1. D( X 1 , X 2 )= n i=1 ( x 1i x 2i ) 2 (1) Además hay que tener cuidado si tiene atributos con rangos muy grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y otros con rangos pequeños (por ejemplo atributo edad de la persona que pide la hipoteca), ya que unos enmascarará a los otros. La solución es normalizar adecuadamente todos los atributos (ecuación 2). v = v v min v max v min (2)

Upload: chabucaloca

Post on 14-Sep-2015

232 views

Category:

Documents


7 download

DESCRIPTION

sdd

TRANSCRIPT

  • Medidas de DistanciaMiguel Crdenas-Montes

    La aplicacin de mtricas de distancia diferentes de la distancia euclidea

    puede suponer una importante mejora en el rendimiento de algoritmos

    evolutivos y en algoritmos de minera de datos.

    Objetivos:

    Conocer algunas medidas de distancia especialmente aquellas dife-

    rentes de la distancia eucldea.Este documento puede contener impre-cisiones o errores. Por favor no lo utilicepara citarlo como una fuente fiable.

    1 Definicin Formal de Distancia

    Una definicin formal de distancia D(~X1, ~X2)

    No negativo:

    D(~X1, ~X2) 0 ~X1, ~X2 X

    Simetra:

    D(~X1, ~X2) = D(~X2, ~X1) ~X1, ~X2 X

    Desigualdad triangular:

    D(~X1, ~X2) D(~X1, ~X3) + D(~X3, ~X2) ~X1, ~X2, ~X3 X

    Axioma de coincidencia o identidad de indiscernibles:

    D(~X1, ~X2) = 0, si y solo si ~X1 = ~X2

    Muchas medidas de distancia no son me-didas porque no cumplen los requisi-tos. Por ejemplo, las pseudomtricas nocumplen las condiciones: distancias nonegativas ni la identidad de indiscer-nibles. Las quasimtricas no cumplen lacondicin de simetra, y por ltimo lassemimtricas no cumplen la desigual-dad triangular.

    2 Distancia Eucldea

    La distancia eucldea entre dos punto se define en la ecuacin 1.

    D(~X1, ~X2) =

    n

    i=1

    (x1i x2i)2 (1)

    Adems hay que tener cuidado si tiene atributos con rangos muy

    grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y

    otros con rangos pequeos (por ejemplo atributo edad de la persona

    que pide la hipoteca), ya que unos enmascarar a los otros. La solucin

    es normalizar adecuadamente todos los atributos (ecuacin 2).

    v =v vmin

    vmax vmin (2)

  • 2 m m

    3 Distancia Manhattan

    En esta mtrica, la distancia entre dos puntos es la suma de las

    diferencias absolutas entre sus coordenadas (ecuacin 3).

    D(~X1, ~X2) = ||X1 X2|| =n

    i=1

    |X1i X2i| (3)

    Figura 1: Distancia Manhattan contradistancia Euclideana: Las lneas roja,azul y amarilla tienen la misma longitud(12) en las geometras Euclideana y taxi-cab. En la geometra Euclideana, la lneaverde tiene longitud 6

    2 8,48, y es el

    nico camino ms corto. En la geometrataxicab, la lnea verde tiene longitud 12,por lo que no es ms corta que los otroscaminos.Wikipedia: Geometra del taxista

    4 Distancia Chebyshev

    Tambin se denomina mtrica mxima o mtrica L. La distancia

    de Chebyshev entre dos vectores es la mayor diferencia en cualquiera

    de las coordenadas del espacio (ecuacin 4).

    D(~X1, ~X2) = max(|X1i X2i|) (4)

    En el ajedrez, la distancia entre cuadra-dos en el tablero para las torres se mideen distancia Manhattan; reyes y reinasusan la distancia Chebyshev, y los alfilesusan la distancia Manhattan (entre cua-drados del mismo color) en el tablero ro-tado en 45 grados, es decir, con sus dia-gonales como ejes coordenados. Para irde un cuadrado a otro, solo los reyes re-quieren tantos movimientos como el va-lor de la distancia; torres, reinas y alfilesrequieren uno o dos movimientos (en untablero vaco, y asumiendo que el movi-miento es posible en el caso del alfil).Wikipedia: Geometra del taxista

    5 Distancia del Coseno

    La distancia del coseno no es propiamente una distancia sino una

    medida de similaridad entre dos vectores en un espacio que tiene defi-

    nido un producto interior. En el espacio eucldeo este producto interior

    es el producto escalar, ecuacin 5. La similaridad coseno no debe ser

    considerada como una mtrica debido a que no cumple la desigualdad

    triangular.

    ~X1 ~X2 = ||X1|| ||X2|| cos() (5)

    similaridad = cos() =~X1 ~X2

    ||X1|| ||X2|| (6)

    Para que la medida de similaridad est en el rango (0,1), se puede

    calcular a travs de la frmular 1 arccos(similaridad)pi

    .

    En minera de datos se suele emplear como un indicador de cohe-

    sin de clusteres de textos.

    6 Distancia Hamming

    Si los atributos son categricos, entonces la distancia Hamming pro-

    pone una distancia entre dos cadenas: la distancia es 1 por cada ele-

    mento diferente y 0 por cada elemento idntico en la cadena.

    La distancia de toned a roses es 3.

    La distancia de 1011101 a 1001001 es 2.

  • m e d i d a s d e d i s t a n i a 3

    La distancia de 2173896 a 2233796 es 3.

    Dicho de otra forma, define el mnimo nmero de sustituciones para

    convertir una cadena en otra. Solo es vlida si ambas sequencias tienen

    la misma longitud.

    7 Distancia Levenshtein

    La distancia de Levenshtein es tambin llamada distancia de edi-

    cin o distancia entre palabras. Esta distancia mide el nmero mnimo

    de operaciones para transformar una cadena de caracteres en otra ca-

    dena de caracteres. Las operaciones vlidas para esta medida son la

    insercin, la eliminacin y la sustitucin de un carcter.

    La distancia de Levenshtein es una generalizacin de la distancia de

    Hamming. En la distancia de Hamming ambas cadenas tienen que te-

    ner la misma longitud, y por lo tanto, solo admite la operacin de sus-

    titucin. Existen otras generalizaciones de la distancia de Hamming,

    por ejemplo la distancia de Damerau-Levenshtein.

    8 Distancia Damerau-Levenshtein

    A diferencia de la distancia de Levenshtein, la distancia de Damerau-

    Levenshtein incluye transposicin de dos caracteres. Por lo tanto, ade-

    ms de las operaciones de insercin, eliminacin y sustitucin de un

    carcter, incorpora la transposicin de dos caracteres.

    9 Distancia Mahalanobis

    La distancia de Mahalanobis mide la distancia de un conjunto de

    puntos a un punto comn. Es un valor sin unidades. Fue introducida

    por Mahalanobis en 1936. Esta distancia difiere de la distancia eucl-

    dea, Manhattan y otras en que tiene en cuenta las correlaciones del

    conjunto de datos. La distancia de Mahalanobis es invariante de esca-

    la. La invariancia de escala es una propie-dad de objetos o leyes en los que no haycambios si la escala de tamao (o la esca-la de energa) son multiplicadas por unfactor comn.Wikipedia: Invariancia de escala

    D(~X1, ~X2) =

    ((x11 x12)

    1

    )2+

    ((x21 x22)

    2

    )2(7)

    D(~X1, ~X2) =(~x1 ~x2)S1(~x1 ~x2) (8)

    donde S es una matriz diagonal cuyos elementos en la diagonal sij = iSe puede imaginar un caso en el cual las dos variables de las ecua-

    ciones anteriores no sean independientes. Es decir, que cuando una

    variable aumenta, es ms probable que la otra variable se comporte

  • 4 m m

    de igual manera, o de forma opuesta (disminuye), pero correlaciona-

    das. Para incorporar la dependencia entre las dos variables, se puede

    sustituir la matriz diagonal S por la matriz de covarianza :

    D(~X1, ~X2) =(~x1 ~x2)1(~x1 ~x2) (9)

    Si se sustituye la matriz de covarianza , por la matriz identidad,

    entonces la distancia de mahalanobis se transforma en la distancia eu-

    clidea.

    Definicin Formal de DistanciaDistancia EucldeaDistancia ManhattanDistancia ChebyshevDistancia del CosenoDistancia HammingDistancia LevenshteinDistancia Damerau-LevenshteinDistancia Mahalanobis