me did as de distancia
DESCRIPTION
sddTRANSCRIPT
-
Medidas de DistanciaMiguel Crdenas-Montes
La aplicacin de mtricas de distancia diferentes de la distancia euclidea
puede suponer una importante mejora en el rendimiento de algoritmos
evolutivos y en algoritmos de minera de datos.
Objetivos:
Conocer algunas medidas de distancia especialmente aquellas dife-
rentes de la distancia eucldea.Este documento puede contener impre-cisiones o errores. Por favor no lo utilicepara citarlo como una fuente fiable.
1 Definicin Formal de Distancia
Una definicin formal de distancia D(~X1, ~X2)
No negativo:
D(~X1, ~X2) 0 ~X1, ~X2 X
Simetra:
D(~X1, ~X2) = D(~X2, ~X1) ~X1, ~X2 X
Desigualdad triangular:
D(~X1, ~X2) D(~X1, ~X3) + D(~X3, ~X2) ~X1, ~X2, ~X3 X
Axioma de coincidencia o identidad de indiscernibles:
D(~X1, ~X2) = 0, si y solo si ~X1 = ~X2
Muchas medidas de distancia no son me-didas porque no cumplen los requisi-tos. Por ejemplo, las pseudomtricas nocumplen las condiciones: distancias nonegativas ni la identidad de indiscer-nibles. Las quasimtricas no cumplen lacondicin de simetra, y por ltimo lassemimtricas no cumplen la desigual-dad triangular.
2 Distancia Eucldea
La distancia eucldea entre dos punto se define en la ecuacin 1.
D(~X1, ~X2) =
n
i=1
(x1i x2i)2 (1)
Adems hay que tener cuidado si tiene atributos con rangos muy
grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y
otros con rangos pequeos (por ejemplo atributo edad de la persona
que pide la hipoteca), ya que unos enmascarar a los otros. La solucin
es normalizar adecuadamente todos los atributos (ecuacin 2).
v =v vmin
vmax vmin (2)
-
2 m m
3 Distancia Manhattan
En esta mtrica, la distancia entre dos puntos es la suma de las
diferencias absolutas entre sus coordenadas (ecuacin 3).
D(~X1, ~X2) = ||X1 X2|| =n
i=1
|X1i X2i| (3)
Figura 1: Distancia Manhattan contradistancia Euclideana: Las lneas roja,azul y amarilla tienen la misma longitud(12) en las geometras Euclideana y taxi-cab. En la geometra Euclideana, la lneaverde tiene longitud 6
2 8,48, y es el
nico camino ms corto. En la geometrataxicab, la lnea verde tiene longitud 12,por lo que no es ms corta que los otroscaminos.Wikipedia: Geometra del taxista
4 Distancia Chebyshev
Tambin se denomina mtrica mxima o mtrica L. La distancia
de Chebyshev entre dos vectores es la mayor diferencia en cualquiera
de las coordenadas del espacio (ecuacin 4).
D(~X1, ~X2) = max(|X1i X2i|) (4)
En el ajedrez, la distancia entre cuadra-dos en el tablero para las torres se mideen distancia Manhattan; reyes y reinasusan la distancia Chebyshev, y los alfilesusan la distancia Manhattan (entre cua-drados del mismo color) en el tablero ro-tado en 45 grados, es decir, con sus dia-gonales como ejes coordenados. Para irde un cuadrado a otro, solo los reyes re-quieren tantos movimientos como el va-lor de la distancia; torres, reinas y alfilesrequieren uno o dos movimientos (en untablero vaco, y asumiendo que el movi-miento es posible en el caso del alfil).Wikipedia: Geometra del taxista
5 Distancia del Coseno
La distancia del coseno no es propiamente una distancia sino una
medida de similaridad entre dos vectores en un espacio que tiene defi-
nido un producto interior. En el espacio eucldeo este producto interior
es el producto escalar, ecuacin 5. La similaridad coseno no debe ser
considerada como una mtrica debido a que no cumple la desigualdad
triangular.
~X1 ~X2 = ||X1|| ||X2|| cos() (5)
similaridad = cos() =~X1 ~X2
||X1|| ||X2|| (6)
Para que la medida de similaridad est en el rango (0,1), se puede
calcular a travs de la frmular 1 arccos(similaridad)pi
.
En minera de datos se suele emplear como un indicador de cohe-
sin de clusteres de textos.
6 Distancia Hamming
Si los atributos son categricos, entonces la distancia Hamming pro-
pone una distancia entre dos cadenas: la distancia es 1 por cada ele-
mento diferente y 0 por cada elemento idntico en la cadena.
La distancia de toned a roses es 3.
La distancia de 1011101 a 1001001 es 2.
-
m e d i d a s d e d i s t a n i a 3
La distancia de 2173896 a 2233796 es 3.
Dicho de otra forma, define el mnimo nmero de sustituciones para
convertir una cadena en otra. Solo es vlida si ambas sequencias tienen
la misma longitud.
7 Distancia Levenshtein
La distancia de Levenshtein es tambin llamada distancia de edi-
cin o distancia entre palabras. Esta distancia mide el nmero mnimo
de operaciones para transformar una cadena de caracteres en otra ca-
dena de caracteres. Las operaciones vlidas para esta medida son la
insercin, la eliminacin y la sustitucin de un carcter.
La distancia de Levenshtein es una generalizacin de la distancia de
Hamming. En la distancia de Hamming ambas cadenas tienen que te-
ner la misma longitud, y por lo tanto, solo admite la operacin de sus-
titucin. Existen otras generalizaciones de la distancia de Hamming,
por ejemplo la distancia de Damerau-Levenshtein.
8 Distancia Damerau-Levenshtein
A diferencia de la distancia de Levenshtein, la distancia de Damerau-
Levenshtein incluye transposicin de dos caracteres. Por lo tanto, ade-
ms de las operaciones de insercin, eliminacin y sustitucin de un
carcter, incorpora la transposicin de dos caracteres.
9 Distancia Mahalanobis
La distancia de Mahalanobis mide la distancia de un conjunto de
puntos a un punto comn. Es un valor sin unidades. Fue introducida
por Mahalanobis en 1936. Esta distancia difiere de la distancia eucl-
dea, Manhattan y otras en que tiene en cuenta las correlaciones del
conjunto de datos. La distancia de Mahalanobis es invariante de esca-
la. La invariancia de escala es una propie-dad de objetos o leyes en los que no haycambios si la escala de tamao (o la esca-la de energa) son multiplicadas por unfactor comn.Wikipedia: Invariancia de escala
D(~X1, ~X2) =
((x11 x12)
1
)2+
((x21 x22)
2
)2(7)
D(~X1, ~X2) =(~x1 ~x2)S1(~x1 ~x2) (8)
donde S es una matriz diagonal cuyos elementos en la diagonal sij = iSe puede imaginar un caso en el cual las dos variables de las ecua-
ciones anteriores no sean independientes. Es decir, que cuando una
variable aumenta, es ms probable que la otra variable se comporte
-
4 m m
de igual manera, o de forma opuesta (disminuye), pero correlaciona-
das. Para incorporar la dependencia entre las dos variables, se puede
sustituir la matriz diagonal S por la matriz de covarianza :
D(~X1, ~X2) =(~x1 ~x2)1(~x1 ~x2) (9)
Si se sustituye la matriz de covarianza , por la matriz identidad,
entonces la distancia de mahalanobis se transforma en la distancia eu-
clidea.
Definicin Formal de DistanciaDistancia EucldeaDistancia ManhattanDistancia ChebyshevDistancia del CosenoDistancia HammingDistancia LevenshteinDistancia Damerau-LevenshteinDistancia Mahalanobis