me did as de distancia

Medidas de DistanciaMiguel Crdenas-Montes

La aplicacin de mtricas de distancia diferentes de la distancia euclidea

puede suponer una importante mejora en el rendimiento de algoritmos

evolutivos y en algoritmos de minera de datos.

Objetivos:

Conocer algunas medidas de distancia especialmente aquellas dife-

rentes de la distancia eucldea.Este documento puede contener impre-cisiones o errores. Por favor no lo utilicepara citarlo como una fuente fiable.

1 Definicin Formal de Distancia

Una definicin formal de distancia D(~X1, ~X2)

No negativo:

D(~X1, ~X2) 0 ~X1, ~X2 X

Simetra:

D(~X1, ~X2) = D(~X2, ~X1) ~X1, ~X2 X

Desigualdad triangular:

D(~X1, ~X2) D(~X1, ~X3) + D(~X3, ~X2) ~X1, ~X2, ~X3 X

Axioma de coincidencia o identidad de indiscernibles:

D(~X1, ~X2) = 0, si y solo si ~X1 = ~X2

Muchas medidas de distancia no son me-didas porque no cumplen los requisi-tos. Por ejemplo, las pseudomtricas nocumplen las condiciones: distancias nonegativas ni la identidad de indiscer-nibles. Las quasimtricas no cumplen lacondicin de simetra, y por ltimo lassemimtricas no cumplen la desigual-dad triangular.

2 Distancia Eucldea

La distancia eucldea entre dos punto se define en la ecuacin 1.

D(~X1, ~X2) =

n

i=1

(x1i x2i)2 (1)

Adems hay que tener cuidado si tiene atributos con rangos muy

grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y

otros con rangos pequeos (por ejemplo atributo edad de la persona

que pide la hipoteca), ya que unos enmascarar a los otros. La solucin

es normalizar adecuadamente todos los atributos (ecuacin 2).

v =v vmin

vmax vmin (2)

2 m m

3 Distancia Manhattan

En esta mtrica, la distancia entre dos puntos es la suma de las

diferencias absolutas entre sus coordenadas (ecuacin 3).

D(~X1, ~X2) = ||X1 X2|| =n

i=1

|X1i X2i| (3)

Figura 1: Distancia Manhattan contradistancia Euclideana: Las lneas roja,azul y amarilla tienen la misma longitud(12) en las geometras Euclideana y taxi-cab. En la geometra Euclideana, la lneaverde tiene longitud 6

2 8,48, y es el

nico camino ms corto. En la geometrataxicab, la lnea verde tiene longitud 12,por lo que no es ms corta que los otroscaminos.Wikipedia: Geometra del taxista

4 Distancia Chebyshev

Tambin se denomina mtrica mxima o mtrica L. La distancia

de Chebyshev entre dos vectores es la mayor diferencia en cualquiera

de las coordenadas del espacio (ecuacin 4).

D(~X1, ~X2) = max(|X1i X2i|) (4)

En el ajedrez, la distancia entre cuadra-dos en el tablero para las torres se mideen distancia Manhattan; reyes y reinasusan la distancia Chebyshev, y los alfilesusan la distancia Manhattan (entre cua-drados del mismo color) en el tablero ro-tado en 45 grados, es decir, con sus dia-gonales como ejes coordenados. Para irde un cuadrado a otro, solo los reyes re-quieren tantos movimientos como el va-lor de la distancia; torres, reinas y alfilesrequieren uno o dos movimientos (en untablero vaco, y asumiendo que el movi-miento es posible en el caso del alfil).Wikipedia: Geometra del taxista

5 Distancia del Coseno

La distancia del coseno no es propiamente una distancia sino una

medida de similaridad entre dos vectores en un espacio que tiene defi-

nido un producto interior. En el espacio eucldeo este producto interior

es el producto escalar, ecuacin 5. La similaridad coseno no debe ser

considerada como una mtrica debido a que no cumple la desigualdad

triangular.

~X1 ~X2 = ||X1|| ||X2|| cos() (5)

similaridad = cos() =~X1 ~X2

||X1|| ||X2|| (6)

Para que la medida de similaridad est en el rango (0,1), se puede

calcular a travs de la frmular 1 arccos(similaridad)pi

.

En minera de datos se suele emplear como un indicador de cohe-

sin de clusteres de textos.

6 Distancia Hamming

Si los atributos son categricos, entonces la distancia Hamming pro-

pone una distancia entre dos cadenas: la distancia es 1 por cada ele-

mento diferente y 0 por cada elemento idntico en la cadena.

La distancia de toned a roses es 3.

La distancia de 1011101 a 1001001 es 2.

m e d i d a s d e d i s t a n i a 3

La distancia de 2173896 a 2233796 es 3.

Dicho de otra forma, define el mnimo nmero de sustituciones para

convertir una cadena en otra. Solo es vlida si ambas sequencias tienen

la misma longitud.

7 Distancia Levenshtein

La distancia de Levenshtein es tambin llamada distancia de edi-

cin o distancia entre palabras. Esta distancia mide el nmero mnimo

de operaciones para transformar una cadena de caracteres en otra ca-

dena de caracteres. Las operaciones vlidas para esta medida son la

insercin, la eliminacin y la sustitucin de un carcter.

La distancia de Levenshtein es una generalizacin de la distancia de

Hamming. En la distancia de Hamming ambas cadenas tienen que te-

ner la misma longitud, y por lo tanto, solo admite la operacin de sus-

titucin. Existen otras generalizaciones de la distancia de Hamming,

por ejemplo la distancia de Damerau-Levenshtein.

8 Distancia Damerau-Levenshtein

A diferencia de la distancia de Levenshtein, la distancia de Damerau-

Levenshtein incluye transposicin de dos caracteres. Por lo tanto, ade-

ms de las operaciones de insercin, eliminacin y sustitucin de un

carcter, incorpora la transposicin de dos caracteres.

9 Distancia Mahalanobis

La distancia de Mahalanobis mide la distancia de un conjunto de

puntos a un punto comn. Es un valor sin unidades. Fue introducida

por Mahalanobis en 1936. Esta distancia difiere de la distancia eucl-

dea, Manhattan y otras en que tiene en cuenta las correlaciones del

conjunto de datos. La distancia de Mahalanobis es invariante de esca-

la. La invariancia de escala es una propie-dad de objetos o leyes en los que no haycambios si la escala de tamao (o la esca-la de energa) son multiplicadas por unfactor comn.Wikipedia: Invariancia de escala

D(~X1, ~X2) =

((x11 x12)

1

)2+

((x21 x22)

2

)2(7)

D(~X1, ~X2) =(~x1 ~x2)S1(~x1 ~x2) (8)

donde S es una matriz diagonal cuyos elementos en la diagonal sij = iSe puede imaginar un caso en el cual las dos variables de las ecua-

ciones anteriores no sean independientes. Es decir, que cuando una

variable aumenta, es ms probable que la otra variable se comporte

4 m m

de igual manera, o de forma opuesta (disminuye), pero correlaciona-

das. Para incorporar la dependencia entre las dos variables, se puede

sustituir la matriz diagonal S por la matriz de covarianza :

D(~X1, ~X2) =(~x1 ~x2)1(~x1 ~x2) (9)

Si se sustituye la matriz de covarianza , por la matriz identidad,

entonces la distancia de mahalanobis se transforma en la distancia eu-

clidea.

Definicin Formal de DistanciaDistancia EucldeaDistancia ManhattanDistancia ChebyshevDistancia del CosenoDistancia HammingDistancia LevenshteinDistancia Damerau-LevenshteinDistancia Mahalanobis

me did as de distancia

Documents