una aplicación de la 1. introducción teoria de la ... · un diseño probabilistico) del estado ~...

12
Una aplicación de la Teoria de la Información al análisis de datos definidos mediante variables cualitativas multi-estado: medidas de similaridad y análisis cluster. José A. Esquivel Guerrero Francisco Contreras Cortés Femando Molina González Josefa Capel Martínez Departamento de Prehistoria. Universidad de Granada. 18071 Granada. 1. Introducción El Análisis Cluster constituye una importante técnica de análisis de datos, ampliamente utilizada en distintas áreas de conocimiento (Biología, Psi- cología, Arqueologia, Sociología, etc.) con el pro- pósito de identificar entidades similares a partir de las características que poseen. En el campo de la Arqueología, la necesidad de clasificar los items arqueológicos y construir tipologías precisas con- duce a una utilización, cada vez más amplia, de es- te tipo de técnicas estadísticas, solventando deter- minados problemas que aparecen en la arqueología tradicional: manejo de grandes cantidades de datos que, debi- do a su dimensionalidad, son diticiles de estudiar a menos que puedan clasificarse en grupos mane- jables con la minima pérdida de información. necesidad de disponer de un método de agnipa- ción útil y nítido, que introduzca un grado de ob- jetividad no obtenible por observación directa. utilización simultánea de varias características a lo largo del proceso para evitar soluciones des- criptivas basadas, en general, en una única carac- terística diferenciadora. El análisis está constituido por dos procesos fun- damentales: la obtención de una medida de simila- ridad adecuada a las características de los objetos, y un algoritmo que consiga la agrupación de los objetos en clusters (grupos) con gran homogenei- dad interna y alta heterogeneidad externa. Las técnicas basadas en variables cuantitativas han sido ampliamente estudiadas, utilizando los métodos y resultados de la Geometría Euclídea pa- ra obtener medidas de similaridad (generalmente a partir de distancias) y algoritmos de agrupación (un estudio detallado aparece en SNEATH & SOKAL, 1973; DUDA & HART, 1973; DIDAY & SIMON, 1976, y EVERITI’, 1980). Sin embargo, los datos definidos mediante variables binarías o variables cualitativas multiestado presentan mayores proble- mas, ya que no existen modelos geométricos ade- cuados. Los modelos binarios más comunes apare- cen codificados en tablas presencia/ausencia, 1/O, etc., y se han desarrollado varios coeficientes de si- milaridad para los mismos (Jacquard-Sneath, Lan- ce y Williams, Sokal y Michener, Rogers-Tanimo- to, Yule, etc.) (en SNEATH & SOKAL, 1973, y DUDA & HART, 1973, aparece una revisión com- pleta de este tipo de coeficientes). Las variables multiestado originan, debido a su carácter, mayores problemas que las anteriores, y con ftecuencia se José A. Esquive!, Francisco Contreras Cortés, Fernando Molina González y Josefa cape! Martínez complutum. 1 <i99J). Madrid (pp. 53-64>.

Upload: others

Post on 16-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

Una aplicación de laTeoria de la Informaciónal análisis de datosdefinidos mediantevariables cualitativasmulti-estado: medidasde similaridad y análisiscluster.

JoséA. EsquivelGuerreroFranciscoContrerasCortés

FemandoMolina GonzálezJosefaCapelMartínezDepartamentodePrehistoria.Universidadde Granada.18071 Granada.

1. Introducción

El Análisis Cluster constituye una importantetécnicade análisisde datos,ampliamenteutilizadaen distintas áreasde conocimiento(Biología, Psi-cología,Arqueologia,Sociología,etc.) con el pro-pósito de identificar entidadessimilaresa partir delas característicasque poseen.En el campode laArqueología, la necesidadde clasificar los itemsarqueológicosy construir tipologíasprecisascon-ducea unautilización, cadavezmásamplia, dees-te tipo de técnicasestadísticas,solventandodeter-minadosproblemasqueaparecenenla arqueologíatradicional:

— manejodegrandescantidadesde datosque,debi-do a su dimensionalidad,sonditiciles de estudiara menosque puedanclasificarseen gruposmane-jablesconla minimapérdidade información.

— necesidadde disponerde un método de agnipa-ción útil y nítido, que introduzcaun gradode ob-jetividad no obteniblepor observacióndirecta.

— utilización simultáneade varias característicasalo largo del procesopara evitar solucionesdes-criptivas basadas,en general,en una únicacarac-terísticadiferenciadora.

El análisisestáconstituidopor dosprocesosfun-damentales:la obtenciónde unamedidade simila-ridad adecuadaa las característicasde los objetos,y un algoritmo que consigala agrupaciónde losobjetos en clusters(grupos) con granhomogenei-dad internay altaheterogeneidadexterna.

Las técnicasbasadasen variablescuantitativashan sido ampliamenteestudiadas,utilizando losmétodosy resultadosde la GeometríaEuclídeapa-ra obtenermedidasde similaridad(generalmenteapartirdedistancias)y algoritmosdeagrupación(unestudiodetalladoapareceen SNEATH & SOKAL,1973;DUDA & HART, 1973; DIDAY & SIMON,1976, y EVERITI’, 1980). Sin embargo,los datosdefinidos mediantevariables binarías o variablescualitativasmultiestadopresentanmayoresproble-mas,ya que no existenmodelosgeométricosade-cuados.Los modelosbinariosmáscomunesapare-cen codificadosen tablaspresencia/ausencia,1/O,etc., y se handesarrolladovarioscoeficientesde si-milaridad paralos mismos (Jacquard-Sneath,Lan-ce y Williams, Sokaly Michener,Rogers-Tanimo-to, Yule, etc.) (en SNEATH & SOKAL, 1973, yDUDA & HART, 1973,apareceunarevisióncom-pleta de estetipo de coeficientes).Las variablesmultiestadooriginan,debidoa su carácter,mayoresproblemasque las anteriores,y con ftecuencia se

José A. Esquive!, Francisco Contreras Cortés, Fernando Molina González y Josefa cape! Martínezcomplutum. 1 <i99J). Madrid (pp. 53-64>.

Page 2: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

han estudiadoconsiderandocada estadode cadavariable como una variable dicotómica (KEN-DALL, 1975,y ROMESBURG, 1984), aunqueelinterésdel problemaen unaamplia diversidaddecampos (reconocimientode imágenes, reconoci-miento de cadenasde símbolos,secuenciasde fo-nemas,estudiode documentos,organizaciónde ba-ses de datos, etc.) ha suscitadoque sea abordadodesdedistintas teorías(ESQIJIVEL, 1988; PAL &MAJUMOER, 1985; BACKER & JAIN, 1981;MICHALSKJ & STEPP,1983;ITO, KODAMA &TOYODA, 1984; RAO, 1984; BEN-BASSAT &ZAIDENBERG, 1984; CHIU & WaNG, 1986;WONG & CHIU, 1987).

En este trabajose proponenvariasmedidasdesímilaridadentreobjetosdefinidosmediantevaria-bIescualitativasmultiestado,a partir de métodosytécnicasde la Teoría de la Información (estetemaha sido objeto de la TesisDoctoralde uno de noso-tros,J.A.E.) (ESQUIVEL, 1988). Además,sedesa-rrolla un algoritmode clusteringbasadoen dichasmedidasde similaridad,aplicándoloa un conjuntode 50 vasoscerámicosextraídosdel yacimientoLaCuestadel Negro, Purullena(Granada)de la Edaddel Bronce.

2. Incertidumbrey Entropía

El estudiode uñadistribuciónde objetosdefini-dos mediante variables cualitativas multiestadoexigeobtenerla máximainformacióndecadaobje-to, decadavariabley decadaestado,en funcióndela frecuenciade apariciónde los estados,númerode estadosde las variables,etc. Términosigualesarareza,abundanciay otras nocionesintuitivas de-benreflejarsedeformaclaray precisa.

Deacuerdoa la teoriade Shannon,en un modeloníatemáticode comunicaciónla informaciónven-drádeterminadapor un parámetroestadísticoaso-ciado a un esquemade probabilidady «debeindi-car tina medida relativa a la incertidumbre deacuerdoa la ocurrenciade un mensajeparticularenel conjunto de mensajes» (REZZA, 1961, ySHANNON, 1948). En la axiomáticaclásica, laincertidumbréasociadaa un sucesoEk pertenecien-te a un conjuntode sucesos0= {Eí ,.., E0} vienedeterminadapor el valor

— lg2pk

siendopk la probabilidadde ocurrenciadel sucesoEk. Y la mediaextendidaa todoslos sucesosde unadistribución de sucesosviene determinadapor la

antropíade Sbannony Weaver

H(X) = Pi 1g2p, E Pt = 1,

quemide la incertidumbremediaasociadaa un es-quema finito y completo de probabilidad, auncuandovarios autoreshan sugeridootrasdefinicio-nes de entropíaque no verifican algunasde lascondicionesde la entropíaclásica (REZZA, 1961)y, modernamente,se hanrealiiado diversasgenera-lizacionesde la entropía(RAO, 1984).

Al considerarun «espacio»de unidadesdefini-das mediantevariablescualitativasmultiestado,laentropíadebe teneren cuentala incertidumbredelos estadosde cadavariable,el númerode estadosde las variablesy la frecuenciade aparición de losmismos.En estetrabajose proponeunamedidadeentropíaenfocadaal estudiode estetipo de varia-bIes, teniendoen cuentalas consideracionesante-noressegún:

— la incertidumbredeun estadomuy frecuentedebeserpequeña,ya quela probabilidadde quedichoestadoaparezcaen una unidadescogidaal azaresgrande;recíprocamente,si un estadoes raro sucontribuciónala entropíadebesergrande.

— la incertidumbreasociadaaunavariableseráma-yor cuantomenorsea el número de susestados,puesla dicotomíaqueproduceen la distribuciónesmayorquesi tuviesemuchosestados.

3. Medidasde información

Unamedidade informaciónqueverifique lasan-tenoresconsideracionesse definecómo:

La informaciónasociadaal estadox¡k con proba-bilidadpi~ es

siendo n~ el número de estadosde la variableX~.Esta medidase ajustaa la axiomáticade Shannon,al sersoluciónde la ecuación

f(lA~) + f(l/m) = f(l/mn).

La incertidumbremedia(entropía)asociadaa lavariableXi vieneentoncesdeterminadapor

u.

Hx = = p(xw) lg=p(xik) >0nj k •

Page 3: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

Una aplicación de la Teoría de la Informacion... 55

ni

Zp(x&)= 1,

queverifica las condicionesexigidasa las medidasde incertidumbreenla Teoriade la Información.

La entropíaasi definidatiende a suavizarla in-fluencia de los estadosextremos(con frecuenciamuy pequeñao muy grande). Sin embargo,la in-fluenciade estosestadoses fundamentalen el estu-dio de la asociaciónquepuedaexistir entrelas uni-dadesyaquela coincidenciade dos unidadesen undeterminadoestadodebevalorarseen funciónde lainformacióncompletaque aportedicho estado,estoes:

— Ja significación de una coincidenciadeunidadesenun ¿~tadopoco frecuentedebesermayorquesicoincidenenun estadomás frecuente,puestoque«... el acuerdoen estadosraroses menosprobablequeel acuerdoentreestadosfrecuentesy debesermásvalorado»(SNEATHy SOKAL, 1973).

— es menossignificativa unacoincidenciaen un es-tadodeunavariableconmuchosestadosque si elnúmerode estadosde la variableesescaso.

Estasconsideracionesllevan a la definición deentropia total o «distorsión»de una variable(ES-QUIVEL, 1988):

ni

D(X~) = — i ~ lg~ p(xik),

k =

ni

Zp(xiiJ= 1,ic= i

que refleja la influencia que producecada estadoen el espaciode unidadesy en qué forma quedaafectada la homogeneidadde dicho espacio,enfunción de la informaciónque aportacadaunadelasunidades.

4. Incertidumbrede unaunidad

Los elementosdel «espacio»apodansu propiaincertidumbreen función de las característicasquelos constituyen,modificandola estructuradel espa-cio, puestoquela introduccióno eliminación de unelementotrae consigounamodificaciónen los pa-rámetrosquedefinenlas característicasestructura-les del espacio(frecuenciade los estados,desapari-ción dealgúnestado,etc.).

Con estaspremisas,seael conjuntode elementos

(unidades)F = {Aí, A2 An} definido sobreelconjuntode variablesmultiestadoV= {Xí ,X2X4, dondecadavariableX tieneasociadoun con-juntode estadosW~ = {x~i, x~2,.., x,0<>}, siendon(i)(a vecesla notaciónn~ esmenoscómoda,como enel casoanterior)el númerode estadosde la varia-ble X. A cadaunidadA~ se le asociael objetoma-temáticodefinido por la n-tupla(DUBOIS y PRA-DF, 1980)

m(A~) = (mi (As), m~ (Al) m~ (A¡)),

siendo trw el procedimientode medidaasociadoala variableXk y mk(A1) el estadoque toma la uni-dadA~enlavariableXk,i=l,..., nyk=l, ...,

estoes, mk(At) = xkJ si j es el índicedel estadodeJa variable Xk que apareceen A~. EJ conjunto deobjetosmatemáticoscorrespondientea una distri-bución de unidadesse denominaespaciode pato-iies (pattern space)S o espaciototal y, aunqueladiferenciaentreunaunidadA y su objeto matemá-tico asociadoesevidente,por simplicidad se deno-taránde igual forma exceptocuandoseanecesanollevara cabodichadistinción.

Con la anteriornotación,pi(A) es el valor de laprobabilidad(frecuenciarelativa,o probabilidadenun diseñoprobabilistico)del estado~ si la unidadA poseedicho estadoenla variableX, esdecir

pdA)=p(x~~) si m~(A)=x~~, 1=j=ni

De aquí que la distorsión (denominadacampo)producidapor unaunidadsedefinecomola incerti-dumbretotal quedichaunidadproduceen el espa-cio de unidades

y

1F(A) — Z —lg2p~ (A) =0, ArT.

La distribucióndeunidadesse comportaenton-ces de forma similar a un campo de fuerzasenequilibrio dinámico,y cualquiermodificación(enlas unidades,estadoso variables) produceun re-ajusteen los valoresde los camposde lasunidades,modificandola estructurade la distribucion.

A partir de estamedidapuededefinirsela distor-sióno campoproducidopor un gmpode unidades,que debereflejar tanto la atracciónexistenteentreunidadessemejantescomo la repulsión (diversi-dad)entreunidadesno semejantes(o escasamentesemejantes),en funciónde quévariablestienenes-tadoscomunesen el grupo (y en qué medida) ycuáleslos tienendistintos.

Estasideastienenun punto departidaendos no-ciones matemáticasque axiomatizanlas ideas in-tuitivas.

Page 4: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

5. Unión e intersección

deunidades

Intersección

Dadaslas-unidadesA1, A1 cf, i, j = 1 p, laíntersecció~entre ellas está definida por su partecomún,esdecir,

A~flA1 = {akh/mk (A1) = m~ (Aj) =

k= 1,...,v,h= 1,...,11k.

Intuitivamente,la intersececiónestáconstituidapor un objeto matemático(en generalno seráunaunidad,ya que puedeno contenertodas las varia-bles)caracterizadopor los estadosde las variablescomunesa ambasunidades.

La informacióncomúna ambasunidadesesen-tonces

y

F(A1 fl Aj) =— Z 4g2pk (Al) =k=t

O, si mk (Aj) = 111k (A)

Naturalmente,estaformulaciónesequivalentea

y

F(A~ flA1) = — ~ -4-:- lg2pk (Al) =

=0,simk(Al)=mk(A~)

Unión

DadaslasunidadesA1, A1 cf, i, j = 1,..., p, la in-tersecciónentreellasestádefinida por los estadosqueaportanalgunasdelasunidades,esdecir,

A~UA~ 4 {auv’au, = mk (A¡) o au,= mk (A1)},

k= 1,...,v,h= 1,..., nk.

Intuitivamente, la unión de dos unidadesestácóristituida por un objeto matemático(en generalno seráunaunidad,ya que en cadavariablepuedetomarmásde un estado)caracterizadopor los esta-dosqueaparecenenalgunadelas unidades.

La definici¿nde unión de dosunidadespermiteobtenerla informaciónconjuntaa ambasunidadessegún:

y

F(A1 u Aj) = — ~ —r-lg2pk (A1) —

1g2pk (Al) (mk (A1) = mk (A1))

k=í nkquemide la distorsiónaportadapor losestadosqueaparecenen algunasde ambasunidades,eliminan-do los estadosrepetidos(ESQUIVEL, 1988).

Estas dos medidasverifican la relación funda-mental F(AUB)= E(A) + F(B)— F(AnB), enuncia-dapor Pal y Majumder,(PAL & DUTTA MAJUM-DER, 1985) en el contextode medir el gradodeambigiledadenun conjunto.

Estapropiedadpuedegeneralizarseal cálculodelcampoconjunto de variasunidadesen función delos campos individuales y de las interseccionesmúltiplesentreellas (dos a dos, tresa tres,etc.).Lacomputacióndela informaciónconjuntaproporcto-nadapor los elementosde un grupo G~ formadopor loselementOs{Ai, A2 A~} seráentonces

F(G0) = F

que incluye tanto la similitud entre los elementosdel grupo como las diferenciasexistentesentreellos (en ESQUIVEL, 1988,seestableceunaaxio-máticacompletÉ).

6. Afinidad entregrupos

La nociónde informaciónconjuntaasociadaa ungrupocontienetanto la similitud como la disimili-tud entre sus elementos,reflejando la estructurasubyacenteal grupo en basea los estadosque losconfiguran. Estas propiedadesestructurales delgrupopuedenreflejarseapartirde los valdresdelaafinidad entreun elementoy el grupoo entredosgrupos,y debeverificar(BACKER & JAIN, 1981;PAL&MAJUMDER, 1985):

(i) La afinidadentreun elementoy un grupo no de-be ser menorsi el elementoes un miembrodelgrupoquesi no estácontenidoenel grupo.

(u) La afinidadseráaproximadamenteO si el elemen-to es muy extrañorespectoal grupo («si el ele-mento estádistantedelgrupo o fuerade la regiónde interés»,sic).

(iii) La afinidadseráigual a unmáximoabsolutosi elgrupoconsisteenun único elementoquetengalamismalocalizaciónqueel elementobajo conside-ración.

Unacaracterizaciónintuitiva de la noción de afi-nídadentredoselementoses:

Aí(At,A2)=F(Aí flA2),

Page 5: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

perola extensióna afinidadunidad-grupoo grupo-grupo debe tener en cuenta, respectivamente,laatracciónqueseejerceentredichaunidady losele-mentosdel grupo,y la atracciónmutuaejercidaporlos elementosdelos dosgrupos:

1. La afinidadelemento-gruposedefinecomo

Aí(A~G)=F(GnA)~oAc(A~G)=FtU 9siG= {A1,A2 An}.

2. La afinidadgrupo-grupose definecomo

Ac (0,09 =F (0 0’)

que intuitivamente es una medidade la informa-ción comúna O y 0’, computandolas conexionesentreO y G’.

Ambasdefinicionesverifican las propiedadesdeBackery Jain (ESQUIVEL, 1988).

SimilaridadfuerteSí

Esta medida (fig. 1) considerala intersecciónfuertede loselementosde losgruposen la forma:dadoslos gruposGí = {At, A2 A0} y 02 = {B1,

B~}, la intersecciónfuertedeGi y 02 sede-fine como

AGí

N~

Ajinín) y»=’

La similaridad St es entonces:

F (Gí n 02

)

S¡(GLG2)= F(GíUG2) ,O=Sí =1.

Estamedidaveriflea deformaestríctalas propie-dadesdeBackery Jain,y Paly Majumder.

Similaridad-afinidad52

7. Medidasde similaridad

Las técnicasde la Teoríade Conjuntosinducenunamedidaconjuntistadesimilaridadenla forma

F(AO+F(A1)—F(A~UA1) A AF (A1 UA1) cf,

queequivalea

F(A~~A1) =dSA)r(A~, A1) = F(A1UA1) — F(A1UA~)

basadaen la medidade similaridadestablecidaporITa, KODAMA & TOYODA (1984),que,basadaenla teoriade conjuntos,combinaunión e intersec-ción paravariablesno-independientes.

Estamedidaestáreferidaa dosunidadespero,alextenderlaa similaridad entregrupos, surgendosposibilidadesen función de la intersecciónque seprefiera,puestoquecon solamentedosunidadessetieneque

A1 (A1, A1) = F (A1 fl 01),

Existendosposiblesextensiones:

— extensiónde A1 ci A1 como interseccióndetodoslos elementosdel gnipo, denominadaintersecciónfuertey denotadapor A~ A Aj.

— extensiónde A~ ci A1 en la formaAc (A1, A1).

De acuerdoa la posibilidadque se adopte,resul-tarándosmedidasbásicasde similaridad (ESQUí-VEL, 1988).

La medidaSj computasolamentela incertidum-bre proporcionadapor aquellosestadosde las va-riablesque aparecenen todosy cada uno de loselementosde los grupos,y bastaque un estadonoaparezcaen un elementopara que seatomado encuenta,es decir, es bastanteestricta.Tomandoco-mo basela afinidady, por tanto, incluyendotodaslasrelacionesentre los miembrosde los grupos,sedefinela medida52 (fig. 2) enla forma:

Ac (Gí, G2

)

S2(GI,G2) F(G,UG2)

que se inspira en la medidade similarídadde ITO,KODAMA Y TOYODA (1984), puestoque equi-vale a

F(Gí)+F(G2)—F(Gi UG2

)

S2(G¡,G2)= F(G,UG2)

Por construcción,la medidaS2 no verifica laspropiedadesde Backery Jain, y Pal y Majumder,debidoa que toma en consideracióntodaslas coo-currenciasentreelementosde Gt y G2, y estascoo-currenciasañadensu efecto a la incertidumbre.Es-tos problemasinducena considerarotras medidasde similaridadderivadasde 52, que se inspiranendistintoscontextosy tomanen cuentael númerodeelementoscoincidentesenlos grupos.

Similaridad S~

Inspiradaen la definición de entropíade Kauff-man (en PAL y MAJUMDER, 1985), considerala

Page 6: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

medialogaritmica de la afinidadrelativa,al campoconjuntode losgrupossegún:

53 (Gt,G2)= 1g2 n0 A1 (Gt,02) ,siendolg2n F(Gí UG2)

x, Vy cGt U 02, x = y

n= N(GtUG=)

El término lg2n mantieneel valormáximo de SucomprendidoentreO y 1, y evitauna influenciaex-cesiva del númerode elementosen la similaridad(fig. 3).

Similaridad S~

Tomandocomo punto de partida la entropíadeDe Lucay Termini (DE LUCA y TERMI?NI, 1972),quees unaextensiónde la informaciónde Shannonconsiderandon fuentesbinarias,la medida54 (fig.4) sedefinecomo:

n0 A1(Gí,02

)

S4(Oi,G2) n F(GtUG2)

Varias medidasderivadashansido utilizadas,sinel término n~, en distintos contextos: XIE y BE-DROSIAN (1984) aplicanestosconceptosen los

O.9 0.9 0.’ - 0.6 0.5 0.4 0.5 0.2 0.’

Fig. 1 —Dendogramaobtenidocon la medidadesimilaridadSt,

Page 7: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

SIM ¡ LA Rl DAD

camposde tratamientode imágenesy Termodiná-mica Estadistica;PAL y CHAKARBORTY (1986)definen un indice de evaluaciónde patronesme-diantemedidasintercíasese intraclases.

8. Algoritmo de agrupación

Los indicesSi — S~ permitendesarrollarun algo-ritmo de agrupaciónjerárquicoy aglomerativoen

el que,en cadanivel, se fusionanlos grupos conmayorsimilaridadpara,enun segundopaso,actua-lizar las similaridadesteniendoen cuentalos pará-metros delnuevogrupocreado.

El esquemadel algoritmo consisteen (ESQUí-VEL, 1988):

1. Cálculo de las probabilidades(frecuencias)p(x) paratodoslos estadosx detodaslas variables.

2. N= p (el númeroinicial de clustersN coin-cidecon elnúmerode elementosp).

2

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Fig. 2.—Dendogramaobtenidocon lamedidadesimilaridadS2.

Page 8: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

le—

r

¡ ¡ 1 3 ¡ ¡ t ¡ ¡ ¡0.9 0.8 0.7 0.6 0.5 0.4 0,3 0.2 0.1

Fig. 3 —Dendograma obtenido con la medidadesimilaridadS~.

(cadaclusterCt solamentecontie-al comienzodel proceso).de S(C~, C1) para todos los gruposSi—S4.

3. C¡={i}nc al elemento

4. CálculoC¡, C1, Mediante

5. Cálculo de los valoresi, j talesque S~ =

S(C;, C1) seamáxima.

6. SiS*=OóN=, 1~ ó N N0 entoncesfinali-zar. es el número prefijado de clusters (opcio-nal).

7. C¡=C¡UCj;N=N—1;Cj={O}.8. Para todo k= i, si Ck {O} calcular S(C1,

9. Calcular F(CO.

10. Repetir el proceso desde el paso 5.

El algoritmo requiereactualizar, ¿n cada pato,las afinidadesexistentesenteel nuevogiupo y losgrupos restantes,incluyendo el campodel nuevogrupo.Esteprocesoserealizaenlos pasos7-9,y escomplicado computacionalmentedebido al grannúmero de interseccionesmúltiples que aparecenen su desarrollo.Sin embatgo,existenmétodosnu-méricosalternativosquecomputandirectamenteA,a partir de lasprobabilidadesoriginalesde losesta-dosdela distribución(ESQUIVEL, 1988).

13.

.4.

27

:7 -

“e

31.’

•9.45.

ifio

So

9.

22.

35,7,4,

32,

38a

l lá

4,l9~

38,

23,

0¿

24,3,

SIM LAPIDAD 3

Ck).

Page 9: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

Una aplicación de la Teoría de la Informaciot.. 61

SIMILARIDAD 4

9. Resultadosexperimentales

Los experimentoscomputacionalesparaevaluarlas medidas de similaridad y el algoritmo de agru-pación se han aplicado a un conjuntode 50 vasoscerámicosextraídosdel yacimientoLa CuestadelNegro, en Purullena (Granada), de la Edad delBronce.Los datos sehan definido a partir de 8 va-riables nominales de tipo tecnológico, arqucoló-gicamenterelevantes:

1. Tratamientodela superficie.2. Color dela superficie.

3. Color delapasta.

4. Temperaturadecocción.

5. Matriz.

6. mineralogía.

7. densidad.8. Tipo dedesgrasante.

Para definir los atributos tecnológicos más apro-piados para el análisis multivariante hemos utiliza-do dos tipos de métodos. Por un lado, métodos deobservacióndirectade los artefactos(lupa binocu-lar, tablasde colores...).Con estetipo de procedi-miento hemosanalizadoel tratamientode las su-perficies,el colorde la pastay el colorde las pare-des.Porotro lado, hemosrecurridoa métodosana-

05 0.8 0.7 0.É 0.5 0.4 0.3 0.2 0,1

Fig. 4.—Dendogramaobtenidocon la medidadesiinilaridad S~.

Page 10: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

Númerode estadode las variables

VARIABLES

1 2 3 4 5 6 7 8

3 4 4 3 3 3 3 3

VARIABLES

1 2 3 4 5 6 7 8.

1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3

4 4

VARIABLES

1 2 3 4 5 6 7 8

alisado beige

marrón c¶~ro

500’ compacta + filo

silie.

1.35

1.52

fino

pulido grismedio

marróngrisáceo

600’ magra valormedio

1.531.69

medio

bruñido marróngrisáceo

rojizo 650’ muymagra

+ cuan. 1.701.86

grueso

grisoscuro

grisoscuro

Tabla1.—Definiciónde las variablesy susestados.

líticos de laboratorio más complejospara podercomputaruna seriede~atributos que requierenunexamenfisico-quimico o petrológico(difraccióndeRayosX, estudioóptico, etc.) quenoshanpenniti-do analizarla composiciónmineralógicade la arci-lía, su matrizy contenidoen desgrasante,la tempe-ratura de cocción y la densidad.Estosanálisis sehan realizadoen la EstaciónExperimentaldel Zai-din (CSIC) de Granada,bajo la dirección deJ. Ca-pcI, J. Linaresy E Huertas.

Las variables tienen consideraciónnominal, esdecir, no han sido categorizadas,por lo que lossímbolosasignadosa cadauno de los estadosencadauna de ellas no tienen significación,alguna(tablasl.y 2).

En la tabla de los elementos(tabla2) aparecenlos estadoscorrespondientesa cadauno de ellosenlas distintasvariables.La segundacolumnacOntie-neun símbolo,queno setieneencuentaenel aná-lisis aunqueapareceen el dendrograma,y que

proporcionaunaclavepreviaintroducidapor el in-vestigadorcon un determinadofin: una clasifica-ción previadictadapor la experienciadel investi-gador, una clave que indique algunacaracterísticade las unidades(cuencocarenado,olla, etc.). Estaclavepuedeomitirsepuestoque elanálisisno la to-maencuentapararealizarla agrupación.

Cuandose aplicael algoritmo de agrupaciónuti-lizandolas distintasmedidasseencuentranalgunasdif!renciasdebidasa la distintanaturalezade di-chasmedidas,perolos resultadossonbastantecon-sístentes.Sibien,una vez analizadas las cuatro me-didas de similaridadpodemosconcluir que la me-dida 2 ofreceunosmejoresresultadosarqueológi-cos en este casoconcreto,distinguiéndosecuatrograndesgrupos de vasoscerámicos.Cadauno deellospresentacaracterísticastecnológicasdistintas.Su aparicióncomo ajuarfunerariono es arbitraria,smoquecadagrupoapareceasociadoa distintosti-pos de contextosfunerarios. Parala discusiónar-

E5TADo5

1

2

3

4

E5TADo5

2

3

4

Page 11: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

N.0 Si.

VARIABLES

1 2 3 4 5 6 7 8

C

A

A

A

c

B

A

C

B

A

A

A

B

A

B

B

B

C

A

C

E

E

A

A

A

2

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

1

4

3

3

2

3

3

3

3

3

3

3

3

3

3,

3

3

2

3

3

3

3

3

3

4

2

3

2

2

3

2

2

3

2

2

3

2

2

3

2

3

2

2

2

2

3

2

3

2

3

1

1

1

3

1

2

3,

1

1

2

1

2

2

2

3

1

1

1

3

1

1

1

2

1

1

3

2

1

2

1

1

1

1

1

1

2

1

2

3

1

3

1

1

1

1

1

3

2

3

3

2

2

2

3

2

3

3

2

1

3

3

2

1

3

3

3

2

2

3

3

3

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

2

3

3

3

2

3

3

1

3

3

2

3

3

2

3

3

2

2

3

3

3

3

3

3.

3

2

1

1

1

2

2

1

2

1

1

1

1

1

1

2

1

1

2

1

3

2

1

1

1

1

N.0 Si.

VARIABLES

1 2 3 4 5 6 7 8

B

C

B

B

C

C

A

A

E

A

A

A

A

E

A

C

E

C

E

D

E

C

B

D

D

3

2

3

3

3

3

3

3

3

3

3

3

3

3

3

1

3

2

3

2

3

3

3

2

1

3

3

3

3

3,

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

4

3

1

3

4

2

2

1

2

2

2

2

2

2

2

2

3

2

4

2

4

2

2

2

2

2

2

3

2

2

3

2

3

3.

1

1

3

1

1

1

1

3

1

2

2

3

2

3

2

3

2

3

3

2

3.

1’

2,

2

2

1

2

1

1

1

1

1

1

2

1

1

2

1

2

1

2

1

2

2

3

1

1

1

2

3

3

2

1

2

3

3.

3,

II

1

2

3

3

1

2

2.

2

2.

3

2

2

2

2

2

3

3

3

2

2

3

3

3

3

3

2

3

3

3

2

2

3

2

3

3

3

3

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

Tabla2.—Estadosde las varjabíespara las cincuentavasijas deLa CuestadelNegro(Purullena, Granada)

queológicade estos resultadosnos remitimos aCONTRERAS,MOLINA, CAiPEL y ESQUIVEL,1988.

BIBLIOGRAFíA

BACKER, E., yAK. JAN1981 «A Clustering PerfornianceMensure Based en

Fuzzy Set Decomposition».JEFE Trans. PatternAnaL and MachineIntel1,Vol. PAMI-3,January,pp. 66-75.

BEN-BASSAT,M., y L. ZAINDENBERG1984 «Contextual Template Matching: A Distance

Mensurefor Paileraswith HierarchicallyDepend-ent Features»,JEFE Trans. Pattern Anal. andMachineIntelí.. Vol. PAMI-6, March, Pp. 201-211.

Page 12: Una aplicación de la 1. Introducción Teoria de la ... · un diseño probabilistico) del estado ~ si la unidad A posee dicho estado en la variable X, es decir pdA)=p(x~~) si m~(A)=x~~,

CI-IIU, D.K.Y., yA.K.C.WONQ1986 «Syntliesizing Knowledge: A Cluster Analysis

Approach Using’ Event Covering»,JEFE Trans.Syst., Man and Cyberns., Vol. SMC-16,March/Apríl, PP. 251-259.

CONTRERAS,E; E MOLINA, J. CAPEL y JA. ESQUí-VEL

1988 «Los ajuarescerámicosde la necrópolisargáricade la Cuesta del Negro <Purullena, Granada).Avanceal estudioanalíticoy estadístico»,¡ Cursode Cienciaen Arqueología,La Laguna,Universi-dad deLa Laguna(En prensa).

DELUCA,A., yS.TERMINI . -

1972 ‘«A Definition of NonprobabilisticEntropyin theSettingof Fuzzy SetsTheor>h>,Jnform.and Con-trol, Vol. 20,pp. 301-312.

DIDAY, E., y J.C. SIMON1976 Clustering Analysis: Communication aná

Cybernetics,Vol. 10, SpríngerVerlag,New York.DUBOIS,D., y H. PRADE

1980 Fuzzy Seis and Systems:Theo.y and Applica-tioiu: AcademicPress,New York.

DUDA, R. O., y PE.HART1973 Panero C’lassificarion and SaneAnalysis,John

Wiley, NewYork.EVERITT, B.

1980 ClusíerAna¡ysis,1-lubiedPress,NewYork.

ESQUIVELGUERRERO,J.A.1988 Una aplicaciónde la entropíaal Análisis Cluster

‘medianteVariablesCualitativasMultiestado:Afi-nidad, SimilaridadyAgrupación,TesisDoctoral,Departamentode Estadística, Universidad deGranada.

ITO, T.; Y. KODAMA y J. TOYODA1984 «A Sirnilarity MensureHettwenPatternswithNo-

nindependentAttributes», IFEE Trans.’ PatternAnal andMachineIntelí, Vol. PAMJ-6, January,Pp. 111-115.

KENDALL, M. G.1975 Multivariate Analysis,CharlesGriffin, London.

MICIZIALSKI, RS., y R.E. STEPP1983 «Automated Construction of Classiftcations:

ConceptualClustering versus Numerical laxo-

nomy», ILEE Trans. Pattern Anal andMachmeIníelí., Vol. PAMI-5, July, Pp. 396-4lO.

MIYAMOTO, 5., y K. NAKAYAMA1986 <Similaríty MensuresBasedon a Fuzzy Set Mo-

del azud Application to Hierarchical Clustering»,¡EFE Trans. Syst,Man andCyberns.,Vol. SMC-16, May/June,PP.479482.

PAL, 5K.,y B. CI-IAKRABORTY1986 <Fuzzy Set Theoretic Mensure for Automatic

FeatureEvaluation,>,IFEE Trans. Syst.,Man andCvberns.,Vol. SMC-l6, October,PP.754-760.

PAL, 5K., y O. DUTTA MAJT.JMDER1985 FuzzyMathemañcalApproach¡o PauernRecog-

nition, Wiley Eastem,New Delhi.REZZA, EM.

1961 An Iníroduction to the InformationMcGraw-Hill,New York.

Theory,

RAO, C.R.1984 «Useof lJiversity and DistanceMeasuresin the

Analysis of QualitativeData>,,en N. vanWark &W. W. Howell (eds.):Multivariate SiatisticalMet-hods in PhysicalAnrropology, Reidel PublishingCo., Dordrecht,Holland,PP. 49-67.

ROMESBURG,FLC.1984 ClusterAnálysisbr Researchers,Lifetime Lear-

ning Publications,BelmontC. A.SHANNON, CE.

1948 «A MathematicalTheory of Communication,>,Rail SystemTech. Journaí Vol. 27, pp. 379-423,623-656.

SNEATH, EHA., y R.R. SOKAL1973 NumericalTaxononíy:Tite PrincipiesandPracti-

ce of Numerical Classlfication, W. Fi. Freeman,SanFrancisco.

WONG, A.K.C., y 13.K.Y CHIU1987 «SynthesizingStatisíicalKnowledgeftom lncom-

plete Mixed-Mode Data,>, IFEE Trans. PatternAnal and MachineIntel1.. Vol. PAMI-9, Novem-ber.

XIE, W.X., y S.D.BEDROSIAN1984 «A lnfornrion Measurefor Fuzzy Scts»,IEEE

Trans. Syst.,Man andCybems.,Vol. SMC-14,Ja-nuaty,/Februaty,pp. 151-1561