la mineria de datos

49
 APLICABILIDAD DE  LA MINERÍA DE DATOS Y EL ANÁLISIS DE REDES SOCIALES EN LA INTELIGENCIA FINANCIERA DOCUMENTOS UIAF

Upload: benedetto-javier-lanzini-poza

Post on 08-Jan-2016

63 views

Category:

Documents


0 download

DESCRIPTION

Aplicabilidad de la mineria de datos

TRANSCRIPT

Page 1: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 1/48

 APLICABILIDAD DE

 LA MINERÍA DEDATOS Y EL ANÁLISISDE REDES SOCIALES

EN LA INTELIGENCIA FINANCIERA DOCUMENTOS UIAF

Page 2: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 2/48

/1

/1

2014 

 Aplicabilidad de la minería de datos y el análisis de redes socialesen la inteligencia financiera

Page 3: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 3/48

/2

Esta publicación fue realizada por la Unidad deInformación y Análisis Financiero (UIAF), UnidadAdministrativa Especial adscrita al Ministerio de

Hacienda y Crédito Público.

DIRECTOR GENERAL

EQUIPO DE PRODUCCIÓN

Unidad de Información y Análisis Financiero

Luis Edmundo Suárez Soto

Unidad de Información y Análisis FinancieroEste documento fue desarrollado por servidores

públicos de la UIAF, con el soporte de un equipo in-terno de coordinación editorial y bajo la direccióndel Director General y el Subdirector de Análisis Es-tratégico.

CORRECCIÓN DE ESTILO, DISEÑO,

DIAGRAMACIÓN E IMPRESIÓN

García Solano y Compañía SAS - Caliche ImpresoresImpresores Molher LTDA

Page 4: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 4/48

/3

ISBN:978-958-58578-3-4

Primera edición© 2014, UIAF

De acuerdo con lo previsto en el Artícu-lo 91 de la Ley 23 de 1982, los derechos

de autor del presente documento per-tenecen a la Unidad de Información yAnálisis Financiero (UIAF).

Queda prohibida cualquier repro-ducción, parcial o total, del con-tenido de este documento sin laautorización previa y escrita de la

UIAF. Los análisis contenidos sonde carácter general y no hacen re-ferencia ni constituyen prueba so-bre vínculos ciertos y permanentesde individuos con actividades aso-ciadas al lavado de activos y finan-ciación del terrorismo.

La UIAF no se responsabiliza por eluso (acción u omisión) que hagacualquier persona o grupo de per-sonas de la información (total oparcial) contenida en el texto.

Page 5: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 5/48

/4

Page 6: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 6/48

/5

   T   A   B   L   A

   D   E   C   O

   N   T   E   N   I   D   O

LA MINERÍA DE DATOS APLICADA ALSISTEMA NACIONAL ANTILAVADO DEACTVOS Y CONTRA LAFINANCIACIÓN DEL TERRORISMO

ANÁLISIS DE REDES SOCIALES

CONCLUSIONES

pag 30

4

5pag 23

3 pag 18

ANTECEDENTES DELA MINERÍA DE DATOS

2pag 14

ASPECTOS GENERALES

EL MODELO SAB Y EL ANÁLISISCUANTITATIVO DE INFORMACIÓN1

pag 10

INTRODUCCIÓN

pag 8

pag 43

Page 7: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 7/48

/6

“La estructura social se hace visible en un hormiguero; los movimientos ycontactos que uno ve no son aleatorios sino que siguen un patrón. Tambiéndeberíamos poder ver estructura en la vida de… [cualquier] comunidad situviéramos un ángulo de vista suficientemente distante, desde el cual laspersonas parecerían ser pequeños puntos en movimiento…. Deberíamosver que estos puntos no se acercan entre ellos aleatoriamente, que algunosestán juntos regularmente, algunos se encuentran frecuentemente, algu-nos nunca…. Si uno pudiera alejarse lo suficiente, la vida humana se con-vertiría en puro patrón” (Roger Brown, experto en redes sociales).

 APLICABILIDAD DE LA MINERÍA DE DATOS

Y EL ANÁLISIS DE REDES SOCIALESEN LA INTELIGENCIA FINANCIERA

Page 8: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 8/48

/7

Page 9: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 9/48

/8

     I     N     T

     R     O     D     U     C

     C     I      Ó     N

Las Unidades de Inteligencia Fi-nanciera en todo el mundo se venenfrentadas a una labor altamente

compleja: detectar operaciones delavado de activos y financiacióndel terrorismo las cuales, por sunaturaleza ilegal, se ocultan delibe-radamente del escrutinio público,particularmente de los ojos de lasautoridades. Esta situación motiva

el uso de nuevas tecnologías queno se limitan a la visión tradicionalde hardware y soware,  sino queincluyen todo método que permitaaprovechar los recursos disponi-bles con el objetivo de identificaractividades económicas y financie-ras ilícitas.

Es así como al tomar en considera-ción que uno de los activos más va-liosos con los que cuentan las UIFes la información que centralizan,es necesaria la implementación deherramientas idóneas que aprove-chen estos datos y extraigan cono-cimiento no trivial sobre la dinámi-ca de las operaciones que realizanlos individuos. De esta forma seráposible caracterizar el comporta-miento usual de un grupo deter-minado de personas, naturales o

 jurídicas, generando alertas ante

movimientos extraños.

Page 10: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 10/48

/9

Como se verá en el resto del do-cumento, la minería de datos y elanálisis de redes surgen como dosmetodologías relacionadas quepermiten aprovechar los grandesvolúmenes de información dispo-nibles para apoyar la investigaciónde Inteligencia Financiera; median-te la primera, se generan patronesy tendencias para la caracteriza-ción de operaciones usuales e inu-

suales. Con la segunda, se lograanalizar las interrelaciones entreindividuos, capturando situacio-nes de riesgo.

Es importante mencionar que laminería de datos y el análisis deredes se articulan en el modelo

de gestión Sistémico, Amplio y Bi-direccional (SAB)  de la Unidad deInformación y Análisis Financiero(UIAF), como un apoyo al procesode Inteligencia Financiera, el cualse ve fortalecido por las posibili-dades que estas dos metodologíasbrindan (Suárez - UIAF, 2014).

El objetivo de este documento espresentar de manera sencilla losinstrumentos descritos brevemen-te en esta introducción y las posi-bilidades que brindan a quienes

realizan procesos de producción

de Inteligencia, para robustecerla efectividad de los sistemas an-tilavado de activos y contra la fi-nanciación del terrorismo y funda-mentalmente destinados a generarseñales de alerta y puntos de par-tida para la detección de posiblesoperaciones de lavado de activos ofinanciación del terrorismo.

Page 11: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 11/48

/10

EL MODELO SAB Y EL ANÁLISIS

01CUANTITATIVO DE INFORMACIÓN

Page 12: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 12/48

/11

El modelo de gestión Sistémico,Amplio y Bidireccional (SAB)1, dise-ñado y aplicado en la UIAF desde

noviembre de 2010, ha potencia-lizado las capacidades de análisisy respuesta del Sistema NacionalAntilavado de Activos y Contra laFinanciación del Terrorismo (ALA/CFT), a través del fortalecimientotecnológico y la implementación

de nuevas herramientas que per-miten el procesamiento oportunode los grandes volúmenes de in-formación que se centralizan en laUnidad. En particular, el compo-nente Amplio del modelo SAB, alincorporar nuevas fuentes de infor-mación, propende por la creación

de más y mejores sensores2  queaporten datos sobre la evoluciónde las diferentes actividades eco-nómicas en las regiones del país.

Sin embargo, con relación a loanterior, más datos no necesaria-mente se traducen en mayor cono-cimiento y mejores decisiones. Poresto, es fundamental contar conun mecanismo de análisis basadoen herramientas adecuadas paragenerar conocimiento no trivial so-bre el fenómeno de interés, en estecaso, el lavado de activos y la fi-

nanciación del terrorismo (LA/FT).

En este contexto, bajo el modeloSAB se crea la Plataforma de In-teligencia Económica (PIE), basa-da en un conjunto de hardware y

 soware,  utilizado bajo la ópticade la Inteligencia Financiera y Eco-nómica. Es así como se integra unequipo humano con las capacida-des necesarias para aprovechar es-tas herramientas, implementando

metodologías provenientes de lasMatemáticas, Estadística, Econo-mía, Finanzas y el análisis visual,con el fin de mejorar el entendi-miento de la amenaza y producirmejores resultados en el SistemaALA/CFT.

En particular, las técnicas de mi-nería de datos y análisis de redessociales de las cuales trata estedocumento, identifican patrones,tendencias y relaciones que noson evidentes a simple vista y quesirven para caracterizar transac-

ciones inusuales que pueden es-tar relacionadas con LA o FT; adi-cionalmente, permiten establecervínculos entre individuos de inte-rés para las autoridades y tercerosque de otra forma permaneceríaninvisibles a los ojos del sistemaALA/CFT.

1 Para conocer el contexto histórico, la estructura y los componentes del modelo SAB, consultar. Suárez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia

Financiera y el Sistema Antilavado de Activos y Contra la Financiación del Terrorismo. Un Nuevo Modelo de Gestión: Sistémico, Amplio y Bidireccional. Segunda

edición. Bogotá: Unidad de Información y Análisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=205692 En relación a más sectores reportantes, cada vez más conocedores del fenómeno de lavado de activos y financiación del terrorismo (LA/FT).

Page 13: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 13/48

/12

La aplicación de estas técnicas leha permitido a la UIAF optimizartiempo y recursos en el desarrollode la inteligencia financiera y, másimportante aún, robustecer la in-formación y análisis que produceen apoyo a las autoridades com-petentes (como fuerzas del orden,Fiscalía General de la Nación, entreotros agentes), de acuerdo con lasposibilidades legales de cada uno.

Lo anterior reafirma el carácterAmplio y Bidireccional del mode-lo SAB, al fortalecer la articulaciónentre los agentes del sistema, paramejorar la efectividad de sus resul-tados.

La estructura del modelo SAB,desde la perspectiva de la reco-lección, manejo y procesamientode información con el soporte de

tecnología y técnicas de análisis,se resume en la Figura 1. Tener estecontexto presente, servirá para unamejor interpretación de las técni-cas de minería de datos y análisisde redes, abordadas en este do-cumento, con el fin de sintetizar ydifundir el conocimiento y la ex-

periencia adquirida por la UIAF enlos últimos casi cuatro años, en eldesarrollo de uno de los principa-les pilares del modelo SAB: la inte-gración entre tecnología avanzaday recurso humano calificado, capazde producir conocimiento holísticoe interdisciplinario, en función de

la prevención y detección del lava-do de activos y la financiación delterrorismo.

Page 14: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 14/48

/13

    F    i   g   u   r   a    1

 .    M   o    d   e    l   o    S    A    B  –

   r   e   c   o

    l   e   c   c    i    ó   n ,   m   a   n   e    j   o   y   p   r   o   c   e   s   a   m    i   e   n    t   o    d   e    i   n    f   o   r   m   a   c    i    ó   n

    *    V   o    l   u   m   e   n

    *    V   e    l   o   c    i    d   a    d

    *    V   a   r    i   e    d   a    d

    *    V   e   r   a   c    i    d   a    d

    R   e   p   o   r    t   a   n    t   e   s

    *    E   n    t    i    d

   a    d   e   s    d   e    l   e   s    t   a    d   o

    *    G   r   e   m

    i   o   s

    *    O   r   g   a   n    i   s   m   o   s    i   n    t   e   r   n   a   c    i   o   n   a    l   e   s

    *    C   e   n    t   r   o   s   a   c   a    d    é   m    i   c   o   s

    B   a   s   e    d   e    D   a    t   o   s

    P   o    l    i    t   e   m    á    t    i   c   a   s

    M    á   s   y    M   e    j   o   r   e   s

    S   e   n   s   o   r   e   s

    I   n    t   e    l    i   g   e   n   c    i   a

    F    i   n   a   n   c    i   e   r   a   y

    E   c   o   n    ó   m    i   c   a

    P    l   a    t   a    f   o   r   m   a    d   e

    I   n    t   e    l    i   g   e   n   c    i   a

    E   c   o   n    ó   m    i   c   a

    *    A   n    á    l    i   s    i   s    f    i   n   a   n   c    i   e   r   o

    *    A   n    á    l    i   s    i   s   e   c   o   n    ó   m    i   c   o

    *    A   n    á    l    i   s    i   s   m   a    t   e   m    á    t    i   c   o

    y    E   s    t   a    d    í   s    t    i   c   o

    *    A   n    á    l    i   s    i   s   v    i   s   u   a    l

    *    E   n    t   e   n    d   e   r   e    l    P   a   s   a    d   o

    *    M   o   n    i    t   o   r   e   a   r   e    l    P   r   e   s   e   n    t   e

    *    A   n    t    i   c    i   p   a   r   e    l    F   u    t   u   r   o

    M   e    j   o   r   a   s   e   n    l   a    C   a    l    i    d   a    d    d   e    d   o   s    R   e   p   o   r    t   e   s   :

    C   r   e   c    i   m    i   e   n    t   o    C   o   n

    t    i   n   u   o    d   e    l    S    i   s    t   e   m   a    A    L    A    /    C

    F    T

    M    á   s    C   a   p   a   c    i    d   a    d   e   s

    d   e    D   e    t   e   c   c    i    ó   n   y

    J   u    d    i   c    i   a    l    i   z   a   c    i    ó   n   :

    M   e    j   o   r   e   s

    R   e   s   u    l    t   a    d   o   s

    M   e    j   o   r

    E   n    t   e   n    d    i   m    i   e   n    t   o    d   e

    l   a    A   m   e   n   a   z   a

Page 15: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 15/48

/14

 ASPECTOS

02GENERALES

Page 16: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 16/48

/15

La necesidad de análisis de datosy extracción automática de cono-cimiento no implícito, derivó en

el nacimiento de una nueva disci-plina denominada KDD  (Knowle-dge Discovery in Databases).  Conel nacimiento de esta disciplina,los datos pasan de ser el produc-to generado por los diferentesprocesos inherentes a la actividad

desarrollada a ser la materia pri-ma, de forma que a partir de gran-des volúmenes de datos se extraeconocimiento útil que ayuda atomar decisiones en los ámbitosde donde fueron extraídos. El pro-ceso de KDD  comprende diversasetapas, desde la obtención de los

datos hasta la aplicación del cono-cimiento adquirido en la toma dedecisiones.

Una forma de visualizar el procesode extracción del conocimiento,se resume en las cuatro fases pre-sentadas en la siguiente página,Figura 2.

Page 17: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 17/48

/16

Figura 2. Proceso de extracción del conocimiento

Preparación de los datos

Selección:  integración y recopi-

lación de datos. Determinaciónde las fuentes de información quepueden ser útiles, identificación yselección de variables relevantesen los datos y aplicación de técni-cas adecuadas de muestreo.

Exploración:  aplicación de téc-

nicas de análisis exploratorio de

datos, buscando la distribuciónde los datos, simetría, normalidady correlaciones existentes en la in-

formación.

Limpieza:  depuración de los da-tos respecto a faltantes y valoreserróneos.

Transformación:  se produce latransformación de los datos, ge-

neralmente mediante técnicas de

1. PREPARACIÓN DE LOS DATOS:

SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y TRANSFORMACIÓN

2. MINERÍA DE DATOS - ANÁLISIS DEREDES SOCIALES

3. EVALUACIÓN Y/O INTERPRETACIÓNDE RESULTADOS

4. DIFUSIÓN Y/O USO DE MODELOS

Page 18: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 18/48

/17

reducción o de aumento de la di-mensión y de escalado simple ymultidimensional.

Minería de datos

Se decide cuál es la tarea a realizar(clasificación, agrupación, otras)y se elige la técnica descriptiva(clustering  y segmentación, esca-lamiento, reglas de asociación y

dependencia, análisis explorato-rio, reducción de la dimensión) opredictiva (regresión y series tem-porales, análisis discriminante,métodos bayesianos, algoritmosgenéricos, árboles de decisión, re-des neuronales).

Evaluación e interpretación

Expertos evalúan y analizas los pa-trones y, si es necesario, se retornaa las fases anteriores para una nue-va iteración.

Difusión

Se aplica el nuevo conocimiento

y se involucra a todos los posiblesusuarios.

Page 19: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 19/48

/18

03MINERÍA DE DATOS ANTECEDENTES DE LA

Page 20: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 20/48

/19

La minería de datos surge a prin-cipios de los años ochenta cuan-do la Administración de Hacienda

de Estados Unidos desarrolló unprograma de investigación paradetectar fraudes en la declaracióny evasión de impuestos, mediantelógica difusa, redes neuronales ytécnicas de reconocimiento de pa-trones. Sin embargo, su expansión

se produce hasta la década de losnoventa, principalmente debido a:

• El incremento en la poten-cia de procesamiento de las com-putadoras, así como en la capaci-dad de almacenamiento.• El crecimiento de la canti-

dad de datos almacenados se vefavorecido no solo por el abara-tamiento de los discos y sistemasde almacenamiento masivo, sinotambién por la automatización detrabajos y técnicas de acopio dedatos (observación con nuevastecnologías, entrevistas más prác-ticas, encuestas por internet, etc.).• La aparición de nuevosmétodos y técnicas de aprendizajey almacenamiento de datos, comolas redes neuronales, la Inteligen-cia Artificial y el surgimiento del al-macén de datos - Data Ware House

(disponible en http://www.estadis-tico.com/arts.html).

La idea de minería de datos no esnueva, ya que desde los años se-senta los estadísticos manejabantérminos como data fishing, mine-ría de datos o data archaeology, con el propósito de hallar correla-ciones sin una hipótesis previa enbases de datos. A principios de losaños ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory

Piatetsky-Shapiro, entre otros, em-pezaron a consolidar los términosde minería de datos y descubri-miento de conocimiento en basesde datos. A finales de esa mismadécada sólo existían un par de em-presas dedicadas a esta tecnolo-gía. En el año 2002, figuraban más

de 100 empresas en el mundo queofrecían alrededor de 300 solucio-nes. Actualmente, existen áreasdedicadas a la minería de datosdentro de un número amplio deempresas a nivel global, ya que esuna herramienta óptima para ob-

tener información valiosa e impor-tante de manera rápida y eficaz, através de procesos especializadosy sistemáticos.

Una serie de avances en la tecnolo-gía y los procesos de negocio hancontribuido al creciente interés en

la minería de datos en los sectores

Page 21: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 21/48

/20

público (detección de fraudes, resi-duos y medición y mejora de pro-gramas) y privado (banca, seguros,ventas, entre otros). Algunos de es-tos cambios incluyen el crecimien-to de las redes de computadoras,que se utilizan para conectar basesde datos. El desarrollo de una ma-yor búsqueda de relaciones contécnicas como las redes neurona-les y algoritmos avanzados, la pro-

pagación de las aplicaciones clien-te/servidor, permite a los usuariosacceder a los recursos centraliza-dos de datos desde el escritorio yuna mayor capacidad para com-binar datos de diferentes fuentesen una sola búsqueda (Ramírez yOrallo, 2003).

Existen varias definiciones de mi-nería de datos, entre ellas:

• Es el proceso por el cualgeneramos un modelo que sirvapara la predicción. Este modelo segenera a partir de los datos que seencuentran en una base de datosaplicándoles algún algoritmo queconstruya el modelo (disponibleen http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gon-zalez_r_l/apendiceC.pdf).• Es un proceso no trivial de

identificación válida, novedosa,

potencialmente útil y entendiblesobre patrones comprensibles quese encuentran ocultos en los datos(Fayad et. al., 1996). • Es la integración de unconjunto de áreas que tienen comopropósito la identificación de unconocimiento obtenido a partir delas bases de datos que aporten unsesgo hacia la toma de decisiones(Fernández y De Moya, 1996).

• Es un mecanismo de ex-plotación, consistente en la bús-queda de información valiosa engrandes volúmenes de datos. Estámuy ligada a las bodegas de datosque proporcionan la informaciónhistórica con la cual los algoritmosde minería de datos tienen la infor-

mación necesaria para la toma dedecisiones.

La minería de datos es un proce-so que invierte la dinámica delmétodo científico, el cual consisteen formular una hipótesis y luego

diseñar el experimento para con-firmarla o refutarla; primero sediseña y realiza el experimento yfinalmente se obtiene el nuevo co-nocimiento (disponible en http://exa.unne.edu.ar/depar/areas/in-formatica/SistemasOperativos/Mi-neria_Datos_Vallejos.pdf).

Page 22: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 22/48

/21

Las limitaciones de la minería dedatos son los primeros datos o da-tos puros, más que la tecnologíao herramientas para el análisis. Esdecir, depende mucho de la lim-pieza de los datos y de la definiciónde las variables. Si los datos sonincorrectos, el modelo creado noservirá. Del mismo modo, la vali-dez de los patrones descubiertosdepende de cómo se apliquen al

mundo real o a las circunstancias.

La minería de datos como enfoquepara el análisis y descubrimientode la información o conocimientoa realizar en grandes bases de da-tos, combina técnicas como: esta-dística (análisis factorial, discrimi-

nante, regresivo, de correlaciones),redes neuronales, sistemas exper-tos o basados en el conocimiento,sistemas de reglas de inducción,lógica difusa, algoritmos genéticos,algoritmos matemáticos (teoría defractales y del caos, simulación).

La minería de datos es diferente dela estadística, ya que la segundaconsiste en desarrollar una hipó-tesis y probarla o refutarla a travésde los datos obtenidos y revisa-dos. La eficacia de este enfoque seve limitado por la creatividad del

usuario para desarrollar diversas

hipótesis, así como la estructuradel soware que utiliza. La mineríade datos, por otra parte, utiliza unenfoque de descubrimiento en losalgoritmos que son usados paraexaminar varias relaciones en ba-ses de datos multidimensionalesde manera simultánea e identificara aquellos que se presentan confrecuencia (Esteban, 2008).

En la minería de datos casi nuncase menciona el tiempo que se in-vierte en la limpieza y la verificaciónde los datos, así como la definiciónde las variables, pero este procesoes muy importante ya que por lo re-gular las bases de datos contieneninformación duplicada, a veces

errónea, superflua o incompleta. Aesto se le suman los errores por laoperación de los sistemas.

La minería de datos hace referen-cia a un conjunto de algoritmosque permiten la identificación de

patrones útiles y novedosos que seencuentran “ocultos” en grandesbases de datos. Previo al desarrollode los modelos es necesario surtir4 pasos contemplados por el KDD,los que en adelante se describen.

Page 23: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 23/48

/22

Entendimiento del problema: sedefine la pregunta que se quiere re-solver y se establecen los objetivosespecíficos a trabajar.

Selección de datos: se determinaqué bases de datos pueden ser uti-lizadas para analizar el problema yse consolidan los conjuntos de in-formación.

Pre-procesamiento y limpieza: se busca manejar los datos faltan-tes junto con los valores atípicosque se identifiquen en las bases dedatos.

Transformación de datos: sebusca generar nuevos indicadores

que puedan ser más representa-tivos del fenómeno analizado ocontener mejor información que lade las variables disponibles por símismas, tomando la informaciónacumulada hasta este momento.

Posteriormente, la minería de da-tos deberá establecer el tipo deinvestigación a realizar de acuerdocon las características de la infor-mación y los objetivos estableci-dos, eligiendo entre dos grandesgrupos: análisis descriptivo y aná-lisis predictivo. Estas técnicas no

son excluyentes, pueden comple-

mentarse en diferentes etapas delestudio.

En el siguiente paso se seleccionaentre los algoritmos disponiblesel más adecuado y se implementatomando en consideración los su-puestos y las restricciones de cadamétodo. Los resultados obtenidosse evalúan en cuanto a su validez yrepresentatividad antes de llegar a

la etapa final de producción.

El tiempo que se utiliza en el pro-ceso KDD suele concentrarse en lasfases iniciales, particularmente enlo relacionado con la recolección ypreparación de los datos. Además,estas etapas pueden ser recursivas,

es decir, se retorna a ellas una yotra vez (proceso iterativo), a medi-da que se obtienen resultados pre-liminares que requieren replantearlas variables de entrada.

Page 24: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 24/48

/23

NACIONAL ANTILAVADO DE ACTIVOS YCONTRA LA FINANCIACIÓN DEL TERRORISMO

LA MINERÍA DE DATOS APLICADA AL SISTEMA

0404

Page 25: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 25/48

/24

Aplicados a los Sistemas Antila-vado de Activos y Contra la Finan-ciación del Terrorismo (ALA/CFT),

los algoritmos descriptivos de laminería de datos permiten encon-trar grupos de personas, naturaleso jurídicas, que muestran un com-portamiento atípico en lo relacio-nado con su manejo financiero yeconómico, al compararse con sus

semejantes. Los procedimientosmás conocidos en esta parte, se-gún se recoge de Maimon y Rokach(2010), son:

 Algoritmos de agrupación

Conocidos como procedimien-

tos de clustering, buscan generarnuevos conjuntos a partir de losdatos analizados, tales que los in-dividuos en un mismo grupo seansimilares y que, simultáneamente,cada grupo sea lo más diferenteposible. Estos métodos trabajancon la distancia que hay entre cadaelemento y el centro de cada unode los grupos, asignando el indivi-duo al grupo al cual se encuentremás cerca. La complejidad de es-tos algoritmos radica en la defini-ción de un criterio para establecerdistancias o similitudes y el pro-

cedimiento recursivo que se sigue

para conformar cada uno de losgrupos hasta satisfacer los criteriosestablecidos. Entre estos méto-dos se encuentran los jerárquicosy computacionales, así como losbasados en partición, densidades,modelos y cuadrículas.

Reglas de asociación

Examinan todas las posibles com-

binaciones de características quese dan en una base de datos y de-terminan la probabilidad con lacual se configuran estos rasgos. Amanera de ejemplo, un individuose puede definir de acuerdo conel tipo de persona (natural o ju-rídica), sector económico, grupo

de frecuencia de transacciones yrelación con una investigación deInteligencia Económica. Las reglasde asociación evalúan todas lasposibles combinaciones de estascaracterísticas y determinan lasconfiguraciones más probables.

Los modelos predictivos de mine-ría de datos buscan obtener losvalores que tomará una variable deinterés en situaciones no observa-das (el futuro, por ejemplo), en fun-ción de los valores que toman otrasseries relacionadas. En el contexto

de la lucha ALA/CFT, este tipo de

Page 26: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 26/48

/25

algoritmos permiten establecer loscomportamientos del individuo re-lacionados con su judicializaciónpor una actividad delictiva, o su in-clusión en un caso de InteligenciaFinanciera o reporte de operaciónsospechosa (ROS). A continuación,se describen los métodos más re-conocidos.

 Árboles de decisión

Un árbol de decisión es un mo-delo de clasificación que dividede manera recursiva un conjun-to de análisis buscando el mayorgrado de pureza entre los gruposresultantes. En este caso, purezase entiende como la presencia re-

presentativa de una de las carac-terísticas que toma la variable deinterés (junto con la participacióninsignificante de la otra categoría).En todo árbol hay un nodo inicialdenominado raíz, que contiene latotalidad de la información. Estegrupo se subdivide en dos o másgrupos que se denominan comointernos (si continúan subdivi-diéndose) o terminales u hojas (sino enfrentan más segmentación).En un árbol de clasificación cadanodo interno se parte de acuerdocon una función discreta sobre las

variables utilizadas para el análisis

hasta llegar a los nodos terminalesdonde se tiene la proporción de in-dividuos que están en cada una delas categorías que toma la variablede interés. Se dispone de varios al-goritmos para la generación de ár-boles de decisión, entre los cualesse cuentan ID3, C4.5, CART, CHAIDy QUEST.

Redes bayesianas

 Este tipo de algoritmos, que com-parten elementos de la inteligen-cia artificial, estadística y proba-bilidad, pertenecen a los modelosprobabilísticos de grafos. Estosestán definidos por un grafo don-de existen nodos que representan

variables aleatorias junto con susenlaces, los cuales hacen referen-cia a dependencias entre estas va-riables. El éxito de las redes baye-sianas se debe a su habilidad paramanejar modelos probabilísticoscomplejos al descomponerlos en

componentes más pequeños y ma-nejables. Se utilizan para investigarrelaciones entre variables y parapredecir y explicar su comporta-miento al calcular la distribuciónde probabilidad condicional deuna variable, dados los valores deotras series de interés.

Page 27: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 27/48

/26

Máquinas de vectoresde soporte

La técnica de máquinas de vecto-res de soporte se desarrolló con elánimo de implementar los princi-pios de la teoría de aprendizaje es-tadístico para resolver problemasde clasificación y regresión en elcontexto del aprendizaje supervi-sado. En este contexto, aprendiza-

 je se relaciona con la estimaciónde funciones a partir de un con- junto de ejemplos. Para esto, unamáquina de aprendizaje escogeuna función de un grupo de fun-ciones, minimizando el riesgo deque la función seleccionada seadiferente de la función real (aun-

que desconocida). El riesgo está enfunción de la complejidad del con-

 junto de funciones y el conjunto deinformación disponible, así que elalgoritmo debe encontrar el mejorconjunto de funciones dado por sucomplejidad, y la mejor función enese conjunto.

Reglas de inducción

Una regla de inducción suele con-sistir de instrucciones del tipo Si(característica 1, atributo 1) y Si(característica 2, atributo 2) y… y

Si (característica n, atributo n) en-

tonces (decisión, valor), aunque sepueden encontrar reglas más com-plejas. La información utilizada poreste algoritmo es de carácter cate-górico, lo cual facilita en gran me-dida el procesamiento de los datosy el entendimiento de los resulta-dos. Los algoritmos utilizados porlas reglas de inducción son LEM1,LEM2 y AQ.

Para aclarar los conceptos presen-tados hasta este punto, a mane-ra de ejemplo, considérense losreportes sobre transacciones enefectivo. Esta información confor-ma una base de datos con las tran-sacciones en efectivo que realizanlas personas, naturales y jurídicas,

siempre que estas cumplan con lascondiciones establecidas por lasautoridades respectivas. Entre las variables disponibles esusual encontrar la fecha y el valorde cada movimiento, con lo cual

se puede construir una tabla conel valor total, valor promedio men-sual y frecuencia de transaccionespara cada una de las personasrelacionadas. Hasta aquí, se hansurtido de manera sencilla las pri-meras etapas del proceso de KDD:a. entendimiento del problema, b.

selección de datos, c. pre procesa-

Page 28: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 28/48

/27

miento y limpieza y d. transforma-ción de datos. Ahora es posible ge-nerar un modelo descriptivo paraencontrar grupos de individuoscon un comportamiento similar, deacuerdo con las variables mencio-nadas anteriormente. Los gruposmenos representativos en térmi-nos de cantidad de personas seránlos que relacionan a los individuosmás atípicos, que son los mismos

que pueden llegar a priorizarsepara un análisis más detallado queconfirme o descarte un manejosospechoso del efectivo.

En cuanto a los modelos predicti-vos, la misma base de datos puedecomplementarse con la informa-

ción sobre cuáles de estos indivi-duos han estado inmersos en unanálisis de Inteligencia Financiera.En este caso se puede utilizar unmodelo como, por ejemplo, un ár-bol de clasificación, con el ánimode determinar qué característicasdel efectivo se asocian con el he-cho de estar o no en un caso. Losresultados del algoritmo de clasifi-cación son como se muestran en laFigura 3.

Page 29: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 29/48

/28

Como se puede observar, se iniciacon la base de datos completa, lacual tiene 20%  de individuos con

casos de Inteligencia Financie-ra. La primera división se efectúarespecto al valor total transadopor cada persona, generando dosgrupos: el primero, basado en lacaracterística 1  del valor total delos movimientos en efectivo, tiene

tan solo 2% de casos, mientras que

el segundo, de acuerdo con la ca-racterística 2 del valor total de tran-sacciones, muestra sujetos con un

35% de ocurrencia de casos.

La segunda subdivisión se hacerespecto a las características 1, 2 y3  de la frecuencia de transacción.En el último paso se segmenta se-gún el valor promedio del movi-

miento en efectivo, consiguiendo

Figura 3. Posibles resultados del árbol de decisión

Casos: 2%

No casos: 98%

Población: 45%

Caracteristica 1

Valor total

Caracteristica 2

Valor total

Caracteristica 1

Frecuencia

Caracteristica 2

Frecuencia

Caracteristica 3

Frecuencia

Caracteristica 3

Valor promedio

Caracteristica 2

Valor promedio

Casos: 12%

No casos: 88%

Población: 8%

Casos: 1%

No casos: 99%

Población: 15%

Casos: 74%

No casos:26%

Población: 23%

Casos: 35%

No casos: 65%

Población: 55%

Casos: 6%

No casos: 94%

Población: 9%

Casos: 46%

No casos: 54%

Población: 38%

Base de datos detransacciones en efectivo

Casos: 20%

No casos: 80%

Población: 100%

Page 30: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 30/48

/29

dos grupos, uno de los cuales tiene74%  de individuos con casos deInteligencia Financiera. De esta for-ma, se puede concluir que las per-sonas con valor total, característica2, frecuencia característica 3 y valorpromedio mensual característica 2, tienen un 74% de probabilidad deestar involucrados en un caso deInteligencia Financiera, lo cual loshace más riesgosos desde el punto

de vista del lavado de activos (LA) yla financiación del terrorismo (FT).

El sistema ALA/CFT puede benefi-ciarse en gran medida de la imple-mentación de la minería de datosya que esta le permite enfocar susrecursos escasos en la identifica-

ción y análisis de los individuosmás riesgosos, tomando en cuentasu comportamiento económico yfinanciero. Adicionalmente, la im-plementación de esta tecnologíaen las UIF consigue un monitoreomás completo que no se puede ar-ticular en el resto del sistema porla fragmentación inherente a la in-formación que reposa en cada en-tidad. Aunque el objetivo más evi-dente es utilizar las capacidades dela minería de datos para la detec-ción de operaciones sospechosas,también permite generar conoci-miento sobre el fenómeno de LA/FT que apoye la labor del sistema,

propendiendo por la seguridad delsistema económico nacional.

Por último, es recomendable quelas Unidades de Inteligencia Finan-ciera (UIF) implementen los meca-nismos descritos en esta sección,en la medida de sus posibilidadeseconómicas, técnicas y jurídicas,para conseguir un accionar com-plementario, que puede resultarmás eficiente y eficaz en contra delos recursos generados por las acti-vidades delictivas a nivel mundial.

Page 31: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 31/48

/30

05DE REDES SOCIALES ANÁLISIS

Page 32: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 32/48

/31

El Análisis de Redes Sociales(ARS)  es una técnica que permi-te estudiar y representar gráfica-

mente las relaciones establecidasentre determinadas unidades in-teractuantes junto con la estruc-tura que estas determinan. Dichatécnica puede ser utilizada bajodos tipos de enfoque: exploratorioy confirmatorio. El primero abarca

la visualización y manipulación dela información, mientras que el se-gundo consiste en pruebas de hi-pótesis y distribuciones de proba-bilidad. Debido a que esta técnicase enfoca en el estudio de las inte-racciones entre dichas Unidades,es posible el descubrimiento de

patrones sobre el comportamien-to estructural de sus relaciones, locual trasciende a la red social fren-te al conjunto de sus partes, puestoque el valor de la información quetiene la red como tal, es mayor quela suma de los valores individualesde sus partes. No obstante, másallá de la actual tendencia a la di-seminación de información pormedio de las redes sociales de in-ternet (Facebook, Twitter, MySpa-ce, LinkedIn, Google+, entre otras) y su crecimiento exponencial tantoen número de usuarios como en

frecuencia de uso, las redes socia-

les son una forma de representaruna estructura social, compuestapor una serie de agentes y sus re-laciones. Esta perspectiva está res-paldada como un concepto teóricoperteneciente a las ciencias socia-les, específicamente a la sociologíay la antropología.

Aparte de la representación grá-fica de los actores y sus vínculos

(la cual revela una estructura im-plícita inicialmente desconocida)y en virtud del objeto misional delas UIF, es deseable que el fruto dedicho análisis sea tal que permitael desarrollo de estrategias para ladesarticulación de organizacionesdedicadas a efectuar operaciones

de lavado de activos y/o financia-ción del terrorismo (LA/FT). Paraello, dentro del análisis explorato-rio es posible calcular indicadoresque proporcionen información so-bre las características principales,tanto de la red como de sus agen-

tes, los cuales ofrecen el soportenecesario para encaminar esfuer-zos hacia los actores estratégicosde una organización, ya sea por elmanejo de recursos económicosy/o flujo de información y poder,entre otros. Sin embargo, el resul-tado del cálculo de esos indicado-

res está sujeto a la interpretación

Page 33: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 33/48

/32

del analista y a los límites que esteestablezca para su análisis, pues-to que la escogencia de los datosy las relaciones allí representadasdependen de la intención de cadaestudio y de las expectativas queeste genere. En consecuencia, esnecesario contextualizar de mane-ra clara, concreta y objetiva cadaestudio, entendiendo que se de-ben escoger cuidadosamente las

relaciones objeto de análisis y es-tablecer límites claros que deter-minen el inicio y el final de una red,en aras de enfocar esfuerzos hacialas estructuras realmente relevan-tes.

En esta sección se presentan los

fundamentos y la terminologíapresentes en el ARS, así como lasformas de representación utiliza-das para visualizar la informaciónde la red. Seguidamente, se enu-meran las propiedades básicastanto de los actores como de lasredes, junto con su interpretación.A continuación, se relacionan losprimeros conceptos que incluyensubconjuntos de actores y susvínculos, estableciendo distanciasentre ellos y conceptos similares.Posteriormente, se discute sobre laconectividad de la red para conti-

nuar con el estudio de sus estruc-

turas locales, sección que culminaen el estudio estructural de lasrelaciones presentes. Finalmen-te, se presentan algunas medidasde centralidad sobre la estructuradeterminada por los actores y susrelaciones, para terminar con unejemplo hipotético en el que seincluyen varios de los conceptosmencionados a lo largo del capí-tulo. En este ejemplo, enmarcado

dentro del objeto misional de lasUIF, se presenta la aplicación delARS como una herramienta de In-teligencia, de manera que permitagenerar conocimiento útil acercade las entidades objeto de estudio.

 

La generación de conocimientopermite a las instituciones esta-blecer lineamientos misionales

desde una perspectiva estratégica.

1Fundamentos,

terminología yrepresentación

Page 34: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 34/48

/33

Para ello, se cuenta con analistasque agregan valor a la informaciónobjeto de estudio y elaboran infor-mes que a su vez son consumidospor las juntas directivas en aras detomar decisiones, cuyo impacto fa-vorezca a la entidad. El ARS ofreceuna panorámica alternativa paraestudiar comportamientos de de-terminadas entidades dadas susrelaciones, identificando actores

clave en su estructura relacional ycaracterísticas propias de la mis-ma, lo cual se traduce en directivasenfocadas en el beneficio institu-cional.

Si bien la terminología utilizadadentro de este tipo de estudios es

sencilla, vale la pena precisar loselementos que se estudian bajo elARS  desde su fundamento teóricomatemático, es decir, la teoría degrafos. Un grafo se define como unconjunto de vértices que represen-tan unidades interactuantes jun-to con un conjunto de aristas queconectan pares de ellos entre sí,representando a su vez la existen-cia de una relación. Dichos vértices (nodos, agentes, actores) puedencorresponder a personas, teléfo-nos, ciudades, organizaciones, paí-ses, entre otros, mientras que las

mencionadas aristas  (enlaces,

vínculos, arcos, conexiones) estándirectamente asociadas con el tipode relación presente entre el parde vértices que conectan. Dichasaristas pueden tener una direccióno no tenerla. Si no la tienen, se en-tiende que la relación representa-da por esa arista no es de carácterdireccional, mientras que si la tie-nen, significa que dicha relación esdireccional, es decir, tiene origen y

destino.

Consecuentemente, si una aristaconectando los vértices A y B  re-presenta el vínculo generado entreesos vértices dada su pertenenciaa la misma sociedad (club, orga-nización, empresa), no es posible

establecer origen ni destino, por lotanto se dice que esa arista no esdirigida. En contraste, una aristatiene dirección cuando la relaciónentre los vértices que conecta estádescrita en términos de origen ydestino. Por ejemplo, si la arista

que conecta los vértices A y B  re-presenta una llamada telefónicao una consignación bancaria, seentiende que en ambos casos hayun origen (quien llama o quienconsigna) y un destino (a quien lla-man o a quien le consignan), porconsiguiente, AB  es diferente de

BA, razón por la cual se dice que

Page 35: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 35/48

/34

la arista es dirigida. Sin embargo,un par de aristas entre los mismosvértices, pero cuya dirección esopuesta, son tratadas de maneraindependiente en lugar de tratar-se como una arista bidireccional,caso diferente a una arista no di-rigida. Esto debido a que el carác-ter direccional de un grafo es paratodas las aristas, lo cual separa losgrafos en dos tipos: dirigidos y no

dirigidos.

Adicional a la posibilidad de repre-sentar una dirección, cada aristapuede tener asociado un valornumérico. Este recibe una conno-tación de peso o costo y se prestapara incluir otra dimensión de aná-

lisis asociada propiamente a la re-lación que dicha arista representa.Por su parte, el tamaño de los vérti-ces también sirve para representaralguna característica de la entidadque representan. Por ejemplo, enun grafo que represente las llama-das telefónicas realizadas entremiembros de una organización, elpeso asignado a las aristas puedeasociarse con la duración de esasllamadas, mientras que el valor delos vértices puede representar elnúmero acumulado de llamadasrealizadas o recibidas.

Ahora bien, existen dos manerasampliamente usadas para plas-mar la data de una red social: unamatriz y un grafo3. En la Figura 4 sepueden observar tanto la matrizcomo el grafo. Respecto a la matriz,las relaciones se establecen desdela fila i hacia la columna j, mientrasque el grafo resume dicha informa-ción en una imagen. Nótese quela fila correspondiente al vértice A 

tiene dos valores: 1 en la columnaB y 2 en la columna C, lo cual se tra-duce en las dos aristas originadasen el vértice A, una hacia B, con unpeso valuado en 1, y otra hacia C,con un peso valuado en 2. Si bienambos tipos de representaciónprovienen de la misma data, se

debe recalcar que el grafo poseeuna estructura que no es reveladaen la matriz, razón por la cual resul-ta más útil en aras de optar por unavisualización resumida, concreta einformativa.

3 Para evitar ambigüedades, es necesario diferenciar entre la definición matemática de grafo (conjunto de vértices y aristas) y su representación gráfica, también

conocida como grafo. Es decir, la palabra grafo hace referencia tanto al dibujo como al ente matemático. Debido a su uso constante y al alcance de este texto,

el uso de la palabra grafo en adelante hará referencia a la representación gráfica del ente matemático.

Page 36: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 36/48

/35

Figura 4. Dos maneras derepresentar un grafo dirigido

2Propiedades

básicas de lasredes y sus actores

Una vez entendido el contexto ydelimitado el objeto de análisis, losactores y la misma red se puedencaracterizar por las propiedades

enumeradas a continuación.

  Tamaño de la red: se de-termina en términos del númerode aristas o del número de nodos,siendo este último crítico para laestructura de la red a causa de losrecursos limitados que cada actorpueda tener destinados a la cons-trucción y el sostenimiento de susvínculos.  Densidad de la red: es el

número de vínculos de la red ex-presado como una proporción delnúmero total de vínculos posibles.En una red dirigida de tamaño n,el número de vínculos posibles esn×(n-1), mientras que en una redno dirigida del mismo tamaño, elnúmero de vínculos posibles es

n×(n-1)/2. Esta medida genera co-nocimiento acerca de fenómenoscomo la velocidad a la cual se di-funde información entre los nodoso la conectividad de la red.  Grado de los actores: enuna red no dirigida, esta media es

el número de vínculos que tienedeterminado nodo, mientras queen una red dirigida hay que distin-guir entre los vínculos que llegan(grado de entrada) y los que salen(grado de salida), medida asociadaa la influencia que un actor puedetener.

 A

BC

3

2

2 1

 A B C

 A   0 1 2

B   0 0 2

C   0 3 0

Page 37: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 37/48

/36

3Distancia social y conceptosrelacionados

Dado que las conexiones de los ve-cinos sociales de un determinadoactor eventualmente pueden lle-gar a ser importantes, incluso si elactor no está directamente conec-tado a ellos, vale la pena analizardistancias sociales y otros concep-

tos que revelan información sobredichas relaciones.

• Distancia entre actores:número mínimo de aristas que hayal ir de uno a otro.• Recorrido (walk): secuen-

cia de actores y vínculos que co-mienza y termina con actores. Pue-de ser cerrado (si inicia y terminaen el mismo actor) y no son restrin-gidos. También pueden incluir almismo actor o a la misma arista enmúltiples ocasiones, razón que losconvierte en la forma más general

de conexión entre dos actores.

• Ciclo: es una camino cerra-do de 3 o más actores diferentesexcepto por el actor origen/desti-no.• Camino (trail): cualquierrecorrido en el que una relación esincluida una sola vez.• Ruta (path): recorrido en elque cada actor es incluido una solavez.• Excentricidad de los ac-

tores: para cada actor se puedecalcular la distribución de las míni-mas distancias al resto de actores.De éstas, la mayor se denominaexcentricidad y mide qué tan lejosestá un actor de su contrapartemás lejana.• Diámetro y radio de la red:

el primero es la máxima excentri-cidad entre todos los actores dela red y da el número de pasossuficientes para ir desde cualquiernodo a cualquier otro, y el segundoes la mínima excentricidad entretodos los actores de la red.

Page 38: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 38/48

/37

4 5Conectividad yaccesibilidad

Estructuras localesen redes

La existencia de una ruta entre no-dos establece la accesibilidad.  Entérminos más simples, un actor esaccesible para otro si existe un con-

 junto de conexiones por medio delas cuales se puede ir desde el ori-gen hacia el destino. Por su parte,la conectividad  es una propiedad

de la red, en vez de pertenecer asus actores individuales. Si es posi-ble establecer una ruta desde cual-quier actor hacia cualquier otro, sedice que la red es conectada, de locontrario la red es desconectada.Un componente es el máximo con-

 junto de nodos que están conec-tados, es decir, todos los nodos enun subgrafo que son alcanzablesdesde todos los otros nodos de esesubgrafo.

Hasta este punto se han presenta-do herramientas y conceptos paraexaminar las formas en que se co-nectan los individuos y las distan-cias entre ellos. A continuación seanaliza este mismo concepto deconectividad, pero desde otro en-foque: el estudio de la estructura

social, más allá del de los indivi-duos.

Diadas y reciprocidad. Laestructura social más pequeña enla que puede estar embebido sedenomina diada (par de actores).Para vínculos binarios (ausencia opresencia) hay dos posibilidadespara cada par de nodos en la red:o ambos tienen vínculo o ningunolo tiene. Si se considera el caso derelaciones dirigidas, hay tres tiposde diadas: sin vínculo, uno hacia elotro y los dos unidos el uno al otro

(reciprocidad). Un análisis poten-

Page 39: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 39/48

/38

cialmente interesante es estudiarla proporción de la población quees caracterizada por vínculos recí-procos, lo cual puede dar indiciossobre el grado de cohesión, la con-fianza y el capital social presente.  Triadas y transitividad. Lasestructuras sociales conformadaspor tres actores se denominantriadas y permiten un rango másamplio de posibles conjuntos de

relaciones. Con data representadacomo redes dirigidas, existen 64tipos de relaciones posibles entretres actores específicos, incluyen-do relaciones que exhiben jerar-quía, igualdad y la formación degrupos exclusivos, lo cual se prestapara un análisis potencialmente

interesante estudiando la propor-ción de triadas que son transitivas,es decir, que muestran cierto equi-librio donde, si AB y BC, enton-ces AC.  Cliqué. Es un subconjuntode vértices, tal que cada par de vér-tices del subconjunto está conec-tado por medio de una arista; porende, todo miembro de un grupode gente en un cliqué social cono-ce a todos los demás.  Agrupación (clustering).El fenómeno del mundo pequeñoha sido propuesto por varios auto-

res y no deja de sorprender por su

simpleza. Por un lado, la distanciapromedio entre dos nodos es re-lativamente pequeña6, por otro, lamayoría de actores reside en vecin-darios o barrios de carácter local,donde muchos de ellos están co-nectados entre sí. Lo anterior im-plica que una gran proporción delnúmero total de vínculos presentesen redes grandes se encuentra al-tamente conglomerada  en vecin-

darios locales. Básicamente, estose puede resumir en que la mayo-ría de las personas que conocemospueden también conocerse entreellas, localizándonos en un mun-do pequeño donde podemos estara muy corta distancia de un vastonúmero de personas que ni siquie-

ra conocemos. Esta propiedad sepuede cuantificar por medio deun coeficiente de conglomeración, definido para un nodo, como la ra-zón del número de vínculos entresus vecinos, al máximo número po-sible de esos vínculos (en termino-logía de redes, esto se traduce en,cuántos de mis amigos son amigosentre sí). Para nodos con menosde dos vecinos, este coeficiente esindeterminado. Más aún, este con-cepto se puede extender a toda lared, si su cálculo se promedia so-bre todos sus nodos.

4 Como ejemplo de esto, se sugiere investigar el fenómeno de los seis grados de separación. Incluso, esta teoría inspiró una película de 1993 denominada Six

Degrees of Separation.

Page 40: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 40/48

/39

6Medidas decentralidad

La centralidad de un nodo en unared es una medida de su impor-tancia estructural, por ejemplo,qué tan importante es un servidorentre una red de cómputo, cuánimportante es una avenida entreuna red urbana, entre otros facto-res. Dada la subjetividad del tér-

mino importancia,  no sorprendeque haya varias medidas de cen-tralidad en teoría de grafos. Si bientodas ellas están dirigidas a cuan-tificar la prominencia de un actorembebido en la red, difieren en loscriterios utilizados para ello.

• Centralidad de grado (De-gree centrality). Entre más vínculostenga un determinado actor, másimportante resulta ser. Vale la penaanotar que para el caso de los gra-fos dirigidos, existen dos tipos demedidas diferentes: grado de en-

trada y grado de salida, las cuales

identifican actores de alto prestigioy actores influenciables, respecti-vamente.• Centralidad de cercanía(Closeness centrality). Entre másactores pueda alcanzar determi-nado actor por medio de caminoscortos, tendrá mayor acceso a losdemás y por ende una posición fa-vorecida.• Centralidad de interme-

diación (Betweenness centrality).Estar en medio de la mayoría delos caminos cortos de los demásactores hace a determinado actorcentral.• Centralidad de vector pro-pio (eigenvector centrality). Tenervínculos con los actores más im-

portantes, teniendo en cuenta loscriterios anteriores, hace a un de-terminado actor relevante.

Ejemplo ilustrativo: consignacio-nes en cheque entre organizacio-nes pertenecientes a un grupo em-

presarial.

Se quiere utilizar el ARS para enten-der las características de la estruc-tura de pagos realizados en chequepor diez organizaciones que perte-necen al mismo grupo empresa-rial, asumiendo que la información

inicial reside en una base de datos

Page 41: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 41/48

/40

con los siguientes campos: origen(corresponde al identificador delgirador), destino (al del beneficia-rio) y valor (en cualquier monedalocal y al monto del cheque). Enesa base de datos cada registrocorresponde a un solo cheque, esdecir, que si una entidad ha giradodos cheques al mismo beneficia-rio, existen dos registros (uno paracada cheque). Para este ejemplo,

aleatoriamente se ha definido eltamaño de la base: 1.681 registros(cheques).

En la Figura 5 se presenta el grafoque representa la red estudiada. Eltamaño de los vértices correspon-de, en proporción, al dinero total

que ha sido girado por cada em-presa mientras que el número queacompaña a cada una de las aris-tas corresponde al número de che-ques girados por el origen hacia eldestino. Por su parte, los vérticescoloreados corresponden a los ac-tores más importantes, dada susposiciones en la red. Dicha impor-tancia surge directamente de unamedida de centralidad diferentepara cada color: rojo, actor conmayor intermediación; amarillo,actor con mayor número de víncu-los; cian, actor con mayor acceso al

resto de la red; y verde, actor ma-

yormente relacionado con otrosactores altamente activos o conec-tados. En la Tabla 1 se resumen es-tos indicadores para todos los no-dos y sus respectivos montos.

Figura 5.Consignaciones en cheque

entre un grupo de10 empresas

Es de notar que el actor 4 es impor-tante debido a que tiene el mayornúmero de relaciones. Por su par-te, el actor 2 posee una posiciónprivilegiada en el flujo de recursospuesto que es el nodo que más in-termedia en los caminos posibles

de los demás nodos, por ende pue-de arbitrar en el flujo de recursoso información. Seguidamente, elactor 6 posee una posición estra-tégica que le permite acceder a losdemás nodos con mayor facilidad,lo cual resulta útil en términos de

proliferación de órdenes o direc-

8

71

59

4

3

10  60

84

69

53

89

99

928876

65

51

56

83

70

70

51

69

61

2

6

Page 42: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 42/48

/41

tivas. Por último, el actor 3 ostenta tener relaciones con los actores másimportantes. Según los criterios anteriores, se relaciona con los actores 2,3 y 6.

Con la información mencionada anteriormente, se identifican los actoresmás importantes en la red con el fin de establecer estrategias para su de-sarticulación, entendiendo que el contexto de este ejemplo lo enmarca enalguna actividad sospechosa o reporte que involucra a alguna de esas en-tidades y su entorno.

Tabla 1. Resumen de los indicadores calculados en el ARS para

el ejercicio ilustrativo

Con la utilización del ARS  comoherramienta de apoyo para el de-sarrollo de casos de Inteligenciafinanciera operativa, las UIF estánen capacidad de inferir el rol quedesempeñan agentes cruciales endeterminado caso y de establecer

los vínculos que estos pudiesen

tener. Lo anterior con base en la in-formación que estas entidades sis-tematizan y centralizan, lo cual esde gran aplicabilidad en términosde prevención y detección de ope-raciones de LA/FT. En este sentido,el valor agregado del ARS  radica

principalmente en el carácter rela-

Actor Monto[$] Intermediación Grado GradoIn

GradoOut

Cercanía Eigenvector

1 4783,18 10,50 5 3 2 0,3680 0,0478

2   5120,39   18,00   6 2 4 0,4335 0,1874

3 4359,61 3,83 5 4 1 0,3079 0,2485

4 5223,76 15,17 8 5 3 0,2968 0,1852

5 3264,86 17,00 4 2 2 0,3275 0,0899

6 5609,14 9,67 6 2 4 0,4423 0,0206

7 4709,55 0,00 3 0 3 0,3932 0,0000

8 5875,45 2,33 6 4 2 0,2682 0,1817

9 5625,82 3,50 3 2 1 0,2417 0,0389

10 3849,74 0,00 2 0 2 0,3398 0,0000

Page 43: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 43/48

/42

cional bajo el cual se desempeñanlos actores sociales, junto con lacapacidad para encontrar agentesque bajo los métodos tradiciona-les de análisis, no sería posible ollevaría mucho tiempo identificar,ampliando así el panorama inicialde análisis.

Por otra parte, la utilización del ARS en la lucha contra estructuras cri-

minales permite obtener informa-ción y generar conocimiento útil enaras de desarticular dichas organi-zaciones, razón por la cual se con-vierte en parte activa y productivadel sistema ALA/CFT. No obstante,el ARS pertenece a una nueva rama

de la ciencia conocida como cien-cia de redes, a partir de la cual unagran variedad de investigadoresaportan conocimiento desde suespecialidad. Consecuentemente,toda la rigurosidad de la ciencia

 junto con su metodología de análi-sis, puede ser de utilidad para cual-quier UIF, incluyendo simulacionescomputacionales y estudios de re-des complejas, entre otros.

Page 44: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 44/48

/43

     C     O     N     C     L     U     S     I     O

     N     E     S

Para cumplir con su labor en la lu-cha contra el lavado de activos yla financiación del terrorismo, lasUnidades de Inteligencia Financie-ra (UIF) pueden y deben optimizarel uso de la información que cen-tralizan con respecto a las diver-sas transacciones económicas yfinancieras que ocurren dentro desu zona de operación. Para esto,la minería de datos y el análisis de

redes sociales se configuran comoherramientas idóneas, dada su ca-pacidad de procesar y extraer co-nocimiento de grandes volúmenesde datos.

En particular, mediante la mineríade datos es posible extraer patro-

nes sobre los comportamientos tí-picos de los individuos, los cualespermiten caracterizar operacionesextrañas que merecen una inves-tigación de Inteligencia Financie-ra más detallada. Por su parte, elanálisis de redes sociales consigueinvestigar una dimensión que deotra forma suele no considerarse:la de las relaciones y vínculos en-tre las personas. La combinaciónde estas dos herramientas otorga alas UIF grandes posibilidades paraapoyar sus análisis de inteligencia,potencializando sus esfuerzos en la

lucha contra el lavado de activos y

Page 45: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 45/48

/44

la financiación del terrorismo, talcomo la ha demostrado la expe-riencia de la UIAF, a partir del dise-ño e implementación del modelode gestión Sistémico, Amplio y Bi-direccional (SAB), uno de cuyos pi-lares principales, es la integraciónentre tecnología avanzada, técni-cas de análisis y talento humanoespecializado.

GLOSARIO

Actor/Nodo/Vértice/Agente:  en-tidades sociales como personas,organizaciones, ciudades, entreotros.

Vínculo/Enlace/Borde/Línea/Arco:

representan relaciones entre acto-res.

Díada: consiste en un par de acto-res y el (los) posible(s) vínculo(s)entre ellos.

Tríada: subconjunto de tres actoresy los posibles vínculos entre ellos.

Subgrupo: subconjunto de actoresy todos los vínculos entre ellos.

Grupo: colección de todos los ac-tores sobre los cuales se miden los

vínculos.

Relación: colección de vínculos deun tipo específico entre miembrosde un grupo.

Red social:  conjuntos o conjuntofinito de actores y la relación o lasrelaciones definidas entre ellos.

Page 46: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 46/48

/45

     B     I     B

     L     I     O

     G     R     A

     F      Í     A

FUENTES ACADÉMICAS

Esteban Talaya, Águeda. Principios demarketing. ESIC Editorial.

Fernández Molina, Juan Carlos y DeMoya Anegón, Félix (1998).  Los catá-logos de acceso público en línea: elfuturo de la recuperación de informa-ción bibliográfica. Málaga: AsociaciónAndaluza de Bibliotecarios.

Gentleman, Robert, Kurt Hornik y Gio-vanni Parmigiani (2011).  Data Miningwith Rattle and R. Springer. NuevaYork: Estados Unidos.

Maimon, Oded y Lior Rokach (2010).Data Mining and Knowledge DiscoveryHandbook. Segunda Edición. Springer.Nueva York: Estados Unidos.

Ramírez Quintana, María José y Her-nández Orallo, José (2003). “Extracción

Automática de Conocimiento en Ba-ses de Datos e Ingeniería del Soware”.España. También, Fernando VirsedaBenito y Javier Román Carrillo (año).“Minería de datos y aplicaciones”. Es-paña: Universidad Carlos III.

Suárez Soto, Luis Edmundo (2014). Las

Unidades de Inteligencia Financiera

Page 47: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 47/48

/46

FUENTESELECTRÓNICASArtículos estadísticos.http://www.estadistico.com/arts.html.

Cruz Arrela, Liliana. Minería dedatos con aplicaciones. Universi-dad Nacional Autónoma de Méxi-co, 2010. http://132.248.9.195/

ptd2010/abril/0656187/0656187_A1.pdf.

Fayyad, Piatetsy- Shapiro, Smyth yUthurusamy eds.  “In Advances inKnowledge Discovery and Data Mi-ning”. AAAI Press, Menlo Park, Cali-fornia, pp. 1-34, 1996. http://www.

kdnuggets.com/gpspubs/ aima-gkdd-overview-1996-Fayyad.pdf 

Izquierdo, L.R. y Hanneman R.A.“Introduction to Formal Social Ne-tworks Analysis Using Mathemati-ca”. Publicado en formato digital

y el Sistema Antilavado de Activos yContra la Financiación del Terrorismo.Un Nuevo Modelo de Gestión: Sistémi-co, Amplio y Bidireccional. Segundaedición. Bogotá: Unidad de Informa-ción y Análisis Financiero (UIAF).

en http://www.luis.izquierdo.name(2006)

Minería de datos.http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonza-lez_r_l/apendiceC.pdf 

Perez López, Cesar y Santín Gon-zález, Daniel.  Minería de datos:conceptos, técnicas y sistemas.

2007.https://www.google.com.co/sear-ch?hl=es&tbo=p&tbm=bks&q-=isbn:8497324927

Toledano Muñoz, María José. http://datamining.iespana.es/da-taminig_enfoque.html

Trabajo de adscripción minería dedatos.Universidad Nacional del Nordes-te, Sofía J. Vallejos.http://exa.unne.edu.ar/depar/

areas/informatica/SistemasOpera-tivos/Mineria_Datos_Valle-jos.pdf 

Page 48: La Mineria de Datos

7/17/2019 La Mineria de Datos

http://slidepdf.com/reader/full/la-mineria-de-datos 48/48