modelos vectoriales en minería de textos y sus ... · modelos vectoriales en minería de textos y...

39

Upload: hoangnhi

Post on 29-Sep-2018

229 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Modelos vectoriales en minería de textos y sus aplicaciones

en la elaboración del per�l de autores

María De Arteaga

Código: 153452

Universidad Nacional de Colombia

Facultad de Ciencias

Departamento de Matemáticas

Bogotá, D.C.

Junio de 2013

Page 2: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Modelos vectoriales en minería de textos y sus aplicaciones

en la elaboración del per�l de autores

María De Arteaga

Código: 153452

Trabajo de tesis para optar al título de

Matemática

Director

Rodrigo de Castro Korgi, Ph.D.

Doctor en Matemáticas

Universidad Nacional de Colombia

Facultad de Ciencias

Departamento de Matemáticas

Bogotá, D.C.

Junio de 2013

Page 3: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Título en español

Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per�l deautores.

Title in English

Vector models in text mining and its applications to author pro�ling tasks.

Resumen: Este trabajo está basado en la participación del grupo de investigación UDITA-Lingüística computacional aplicada de la Universidad Nacional de Colombia en el labora-torio PAN en el marco de la conferencia CLEF 2013. Presenta una introducción a modelosvectoriales utilizados en minería de textos y la descripción del programa desarrollado porel grupo para la elaboración de per�l de autores, el cual se basa en el uso de lexicones,características estilísticas y estadísticas de corpus.

Abstract: This paper describes the participation of the research group UDITA-Applied

Computational Linguistics of Universidad Nacional de Colombia in the PAN evaluationlab, held as part of the CLEF conference. It presents an introduction to vector modelsused for text mining, as well as a description of the system developed by the group for aut-hor pro�ling, which relies on the extraction of stylistic, lexicon and corpus-based features.

Palabras clave: Minería de textos, modelos vectoriales, per�l de autores, aprendizaje demáquinas.

Keywords: Text mining, vector models, author pro�ling, machine learning.

Page 4: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Nota de aceptación

Trabajo de grado

5.0/5.0

Bogotá, D.C., Junio 24 de 2013

Page 5: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Dedicado a

Yago, que sin saberlo (o sabiéndolo) me sumergió en un mundo que se ha convertidoen mi proyecto de vida, y del cual este trabajo es un primer paso.

Page 6: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Agradecimientos

A Yago Varela, por dar los primeros pasos de este proyecto conmigo y después rescatarlocada vez que necesitaba ser salvado. A Sergio Jiménez, Julia Baquero, George Dueñasy Sergio Mancera, quienes trabajaron conmigo en el grupo de investigación Lingüística

computacional aplicada; en especial a Sergio J. y a Julia, por enseñarme mucho más de loque me imaginé que podría aprender en un semestre. A Rodrigo, mi director, quien con�óen mí cuando aceptó dirigir este trabajo de grado sin tener idea de qué era en realidadlo que yo tenía en la cabeza y me acompañó durante todo su desarrollo. Y a mis papás,quienes se han aguantado eternas conversaciones matemáticas y han aprendido a leer todotipo de ecuaciones y teoremas para darme consejos y opiniones.

Page 7: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Índice general

Índice general I

Introducción III

1. Transformación de documentos en vectores 1

1.1. Las palabras como dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1. Construcción binaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2. Midiendo un poco más . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.3. Frecuencia de término e inverso de frecuencia de documento . . . . . . 2

1.1.4. Otras formas de ponderar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2. Construcción con atributos predeterminados . . . . . . . . . . . . . . . . . . . . . . . 4

2. El laboratorio: per�l de autores 6

2.1. El modelo vectorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1. Medidas básicas (L) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.2. Hapax Legomenon (L) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.3. Uso de caracteres (L) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.4. Puntuación de género (C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.5. Teorema de Bayes (C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.6. Entropía (C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.7. Kullback-Leibler (C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.8. Entropía cruzada (C) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.9. Frecuencia de término e inverso de la frecuencia de documento (C) . . 16

2.1.10. Lexicones(L/SL/SCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1.11. El lexicón de emociones de Sidorov (L/CL) . . . . . . . . . . . . . . . . . . 17

2.1.12. Palabras vacías (SCL/SL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1.13. La prueba T de Student y la signi�cancia (SCL) . . . . . . . . . . . . . . . 18

I

Page 8: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

ÍNDICE GENERAL II

2.1.14. Las modi�caciones para el caso de inglés . . . . . . . . . . . . . . . . . . . . 23

3. Aprendizaje de máquinas 24

3.1. El modelo aplicado para este laboratorio . . . . . . . . . . . . . . . . . . . . . . . . . 24

4. Resultados 25

Conclusiones 28

Trabajo futuro 29

Bibliografía 30

Page 9: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Introducción

En este trabajo se presenta una introducción a los modelos vectoriales aplicados a la mineríade textos y la exposición de un laboratorio desarrollado por la autora, junto con la divisiónde Lingüística computacional aplicada del grupo de investigación UDITA de la UniversidadNacional de Colombia, con el cual participaron en el CLEF 2013 (Conference and Labs ofthe Evaluation Forum).

La aplicación desarrollada para este trabajo de grado aborda el problema del per�l deautores. �El análisis de autoría trata con la clasi�cación de textos en clases con base enlas elecciones de estilo de los autores"[1]. En general, su aplicación permite identi�carel género, la edad, la lengua nativa y rasgos de la personalidad del autor. Sus usos vandesde el estudio de mercado, en el que las marcas analizan qué tipo de público consumesus productos, pasando por la seguridad, donde con frecuencia se utiliza para identi�carpredadores sexuales en Internet, hasta la lingüística forense, donde puede ser utilizado paracrear per�les de criminales. En el caso desarrollado aquí, se trabaja con textos tanto eninlgés como en español para identi�car el género y la edad de los autores.

En primer lugar, se explicará cómo funciona la creación de modelos vectoriales en la mineríade textos. A continuación, se expondrá el modelo utilizado en el laboratorio que aquí sepresenta, seguido por la exposición del método de aprendizaje de máquinas utilizado y losresultados obtenidos.

III

Page 10: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 1

Transformación de documentos en vectores

Uno de los métodos más utilizados en minería de textos es el modelo de espacios vecto-riales. La idea básica en éste es transformar los textos en vectores. Esto permite trabajarlos documentos utilizando principios matemáticos; por ejemplo, se puede establecer unaequivalencia entre similitud semántica y proximidad espacial.

Hay diferentes métodos que se pueden aplicar para construir vectores que representenlos textos. A continuación presentaremos dos: una transformación directa en la que cadadimensión del espacio vectorial corresponde a una palabra, y una construcción con base enatributos establecidos según el criterio del analista.

1.1. Las palabras como dimensiones

El conjunto de documentos con el que se trabaja es llamado corpus. En el caso en el quelas dimensiones corresponden a palabras se contruye un diccionario con todas las palabrasque aparecen en el corpus y se aplica el orden lexicográ�co. Cada palabra contribuye enuna unidad a la dimensión, de modo que la cardinalidad del espacio será igual al númerode palabras en este diccionario.

1.1.1. Construcción binaria

El método más básico de asignar vectores a documentos es la forma binaria. Lo únicoque se toma en cuenta es si cada una de las palabras está o no presente en cada documento.De esta forma, siendo T el conjunto de los documentos, D el diccionario que se construyea partir de este conjunto, wi la i-ésima palabra del diccionario D, |D| = n, t ∈ T , y Dt

el diccionario que se construye a partir de las palabras que ocurren en el documento t, lafunción resultante es la siguiente:

f : T → {0, 1}n,

f(t) = (v1, v2, ..., vn),

1

Page 11: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 1. TRANSFORMACIÓN DE DOCUMENTOS EN VECTORES 2

donde{vi = 1 si wi ∈ Dt,vi = 0 si wi /∈ Dt.

1.1.2. Midiendo un poco más

En lugar de determinar si cada palabra está o no en cada documento, se puede incluirmás información en cada vector dando el número de ocurrencias de cada palabra en eldocumento. De esta forma, tomando la de�nición de T y n dada en el caso anterior, lafunción que tranforma los textos en vectores es la siguiente:

f : T → Nn,

f(t) = (v1, v2, ..., vn),

donde vi es el número de ocurrencias de la palabra wi en el documento t, teniendo encuenta que las palabras están ordenadas en el diccionario según el orden lexicográ�co.

En principio, se pensaría que esta construcción es mejor, pues da más información. Sinembargo, presenta un problema que en muchos casos hace que sea una función inútil.

Se esperaría que las palabras con un mayor número de ocurrencias sean las más re-levantes. El problema es que aquí quedan incluidos los artículos como el, las, este, etc.,

y conjunciones del tipo luego, tan, y, pero, etc.. Así, las palabras con un mayor núme-ro de ocurrencias no necesariamente son relevantes para sacar conclusiones del texto orelacionarlo con otros.

En primera instancia, se podría pensar que retirando todas estas palabras que sabemosno agregan ningún resultado al texto se podría mejorar la información que contiene elvector resultante. Sin embargo, hacer una función que retire conjunciones y artículos nosobliga a tener listas de estas palabras que queremos retirar y hace que el proceso en cadaidioma sea diferente. Una solución que responde únicamente a resultados matemáticos yno toma en cuenta el lenguaje como tal se presenta a continuación.

1.1.3. Frecuencia de término e inverso de frecuencia de documento

Lo que se estaba considerando en el último método presentado anteriormente es lafrecuencia de término, o term frecuency. Para que la medida que se le asigna a cada palabratenga una relación con la importancia que tiene en el documento se considera también elnúmero de documentos en los que aparece cada término, en una función conocida comoinverse document frecuency, dando origen así al método de ponderación de términos.

En primer lugar, la frecuencia de término, tf, corresponde directamente al número deveces que una palabra se repite en un documento, pero si bien una palabra que se repitetres veces es más importante que aquella que solo aparece una vez, no necesariamente estres veces más importante. Por esta razón, para tener una medida que dé mayor impor-tancia a aquellos términos que aparecen más, pero que no crezca de forma tan exagerada,

Page 12: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 1. TRANSFORMACIÓN DE DOCUMENTOS EN VECTORES 3

se considera la raíz cuadrada o el logaritmo. Así, se crean nuevas medidas. Las posiblesfunciones para medir la frecuencia son:

Tomando tfi,j como la frecuencia de término de la palabra wi en el documento dj , yvi,j como el elemento i-ésimo del vector que representa al documento dj :

i. vi,j =√tfi,j .

ii. vi,j =

{1 + log(tfi,j) si tfi,j 6= 0,vi = 0 si tfi,j = 0.

Cualquiera de las dos funciones anteriores da una medida que no exagera tanto la im-portancia de las palabras de acuerdo con el número de veces que aparecen. Sin embargo,todavía queda el problema de restar importancia a conjunciones, artículos, etc. Para so-lucionar este problema incluimos, como ya mencionamos anteriormente, el inverso de lafrecuencia de documento.

La idea que da lugar a este término se basa en que aquellas palabras que aparecenen muchos o en todos los documentos no son relevantes, sin importar que su tf sea alto.Así aparece el idf (llamado así por las iniciales de su nombre en inglés, inverse document

frecuency).

El dfi, en inglés document frecuency, es el número de documentos en los que aparecela palabra wi. La idea es utilizar la frecuencia de documento para identi�car las palabrasque son comunes a un gran número de textos, y por lo tanto dejan de ser relevantes. Conesta motivación surge el idf , de�nido en términos del df . Sea N = |T |, recordando que Tes el conjunto de documentos en el corpus, de modo que

T = {ti|i = 1, 2, ..., N}.

Inicialmente, los expertos de�nieron idfi = Ndfi, para indicar la fecuencia inversa de do-

cumento del término i-ésimo. Sin embargo, por medio de experimentación, se ha concluidoque trabajar con el logaritmo de este valor da mejores resultados. De modo que se de�nede la siguiente manera:

idfi =

{log( Ndfi ) si dfi,j 6= 0,

0 si dfi,j = 0.

Viendo cómo se comporta esta función, se pueden hacer las siguientes observaciones:

1. Si dfi = 1⇒{idfi = logN,idfi ≥ idfj ∀j = 1, 2, ..., N.

2. Si dfi = n⇒ idfi = log( ndfi ) = logN − log dfi = log n− log n = 0.

De los puntos anteriores vemos cómo una palabra que aparezca en un solo documentotendrá la frecuencia inversa más alta, y aquel que esté presente en todos los documentostendrá una frecuencia inversa igual a cero, por lo que su ponderación en esta medida esnula.

Page 13: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 1. TRANSFORMACIÓN DE DOCUMENTOS EN VECTORES 4

Combinando las medidas descritas, la forma de construir vectores ponderados es lasiguiente, donde |T | = n:

f : T → Rn,

f(tj) = (v1, v2, ...vn) para j = 1, 2, ..., N con N = |T |, es decir tj ∈ T ,

donde vi ={

[1 + log(tfi,j)][log(Ndfi

)] si tfi,j , dfi,j 6= 0,

0 si tfi,j = 0 ó dfi,j = 0.

Evidentemente, se puede construir una matriz de N ×n a partir del conjunto de docu-mentos.

v1,1 v1,2 ... v1,nv2,1 v2,2 ... v2,n. .. .. .

vN,1 vN,2 ... vN,n

1.1.4. Otras formas de ponderar

En este punto es importante notar que si bien la medida presentada anteriormente esuna de las más utilizadas, entregando resultados más precisos, no es la única. A continua-ción se presenta una tabla en la que Manning y Schütze [2] muestran algunas alternativas:

Frecuencia de término Frecuencia de documento

n (natural) tft,d n (natural) dftl (logaritmo) 1 + log(tf : t, d) t log( Ndft )

a (aumentado) 0,5 + 0,5·tft,dmax(tft,d)

1.2. Construcción con atributos predeterminados

Como es evidente, el método descrito anteriormente obliga a trabajar en dimensionesdemasiado altas. Por ejemplo, en el caso práctico que aquí se desarrolla, el corpus dedocumentos en inglés es de 236.000 documentos, que suman alrededor de 1.1MB. Además,el diccionario que utiliza contiene 974,927 palabras distintas, pues es importante recordarque el diccionario se contruye a partir del corpus, y las palabras se obtienen a partir deun proceso de tokenización, por lo que errores de ortografía, números, siglas y emoticones,entre muchos otros, aparecen como palabras del diccionario. Lo anterior implica que seestaría trabajando en una matriz de 236,000× 974,927.

Page 14: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 1. TRANSFORMACIÓN DE DOCUMENTOS EN VECTORES 5

En muchos casos, se utilizan técnicas de reducción de cardinalidad. Un ejemplo de estoes tomar un número determinado de palabras, por ejemplo 1.500, eligiendo aquellas quetienen una ponderación más alta. Sin embargo, en este corpus los número son demasiadograndes, por lo que reducir las dimensiones a una matriz que pueda ser manejada por losprogramas de aprendizaje de máquinas utilizados implica perder demasiada informaciónde los textos.

Para hacer frente a este problema, en lugar de trabajar con las palabras se determinauna lista de atributos, de modo que cada uno de estos contribuye en una unidad a ladimensión del modelo vectorial que se está trabajando, y cada documento se representa entérminos de estos atributos para construir el vector que le corresponde.

¾Qué tipo de atributos se consideran? Aquellos que puedan dar información relevantesobre el texto, desde la extensión de cada documento, largo promedio de las frases, usode diferentes signos de puntuación, hasta algunos que aplican el Teorema de Bayes, ladivergencia Kullback-Leibler, la prueba T de Student, entre otras. La ventaja de estemétodo es que si ya se tiene conocimiento lingüístico sobre lo que se está buscando, sepuede hacer explicito y de esta forma optimizar los resultados. Por ejemplo, si se sabeque las mujeres de veinte años usan más los pronombres, se construye un atributo quesea igual al número de pronombres en cada texto. Sin embargo, se pierden ventajas quese tienen cuando se utiliza directamente el diccionario, pues pueden existir patrones queno se conozcan de antemano y que ninguna de las características escogidas re�eje, peroque la máquina sí identi�que al trabajar con todas las palabras en bruto. A continuación,hacemos una introducción al problema abordado en este trabajo y presentamos el modelovectorial utilizado.

Page 15: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2

El laboratorio: per�l de autores

La Iniciativa CLEF (Conference and Labs Evaluation Forum) es una organización quebusca promover la investigación y el desarrollo de sistemas de acceso a la información, conénfasis en la información multilingüe y multimodal. Anualmente realizan una convocatoriapara el desarrollo de programas que contribuyan al avance en este campo. Para 2013, ycon motivo de este trabajo, el grupo de investigación UDITA-Lingüística computacional

aplicada de la Universidad Nacional de Colombia, del cual la autora de este trabajo haceparte, presentó un proyecto a la categoría de per�l de autores [3].

El problema de per�l de autores busca ser capaz de determinar características de lapersona que escribió un texto, como la edad, el género, su lengua materna y rasgos de supersonalidad. En este caso particular se busca determinar el género del autor y el rangode edad al que pertenece, según tres opciones: 10's (13-17), 20's (23-27), 30's (33-47). Lasedades en la frontera se eliminan para que los criterios resultantes sean más concluyentes.

El proceso para hacerlo es a través del aprendizaje de máquinas. A partir de 236.000documentos en inglés y 75.900 en español, el grupo transformó los documentos en vectores,según una construcción por atributos, y luego utilizó aprendizaje de máquinas con unmodelo de regresión logística multinomial para construir un programa que luego pudierapredecir la edad y el género del autor de un texto desconocido.

2.1. El modelo vectorial

Como ya se dijo, para este caso se utilizó la construcción por atributos. Aunque la basedetrás de los modelos vectoriales es la misma, en cada idioma hay pequeñas variaciones deéste. Primero se presentará el caso de español y luego se especi�carán las modi�cacionesque hubo para el caso de inglés.

Para el caso de español se contruyó una lista de 198 atributos, aplicando la siguientefunción para convertir documentos en vectores:

Siendo T el corpus de documentos en español entregado, a cada documento t en esteconjunto, cuya dimensión es de |T | = 75,900, aplicamos f :

6

Page 16: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 7

f : T → R198,

f(t) = (v1, v2, ...v198),

donde vi es el valor del atributo i para el texto t.

Los atributos pertenecen a tres tipos de categorías: estilísticas (S), lexicones (L) yestadísticas de corpus (C). Los atributos pueden pertenecer a solo una categoría o a másde una a la vez, a continuación se presenta un diagrama de Venn donde se muestra laintersección entre estas y el número de categorías en cada grupo:

Los atributos utilizados son los siguientes:

2.1.1. Medidas básicas (L)

v1 : Longitud del documento, medido según el número de palabras en éste.

v2 : Número de palabras diferentes utilizadas en el texto.

v3 : Densidad del vocabulario, es decir, v2v1 .

v4 : Largo promedio de las palabras.

v5 : Número de palabras con 1,2 o 3 caracteres.

v6: Palabras con más de 6 caracteres.

Medidas como la densidad de las palabras son indicativas de la riqueza del vocabulariodel autor, que puede ser útil especialmente en el caso de edad. Las palabras con más deseis caracteres también pueden indicar mayor complejidad en el vocabulario, mientras quelas palabras con menos de tres caracteres en la mayoría de los casos serán preposiciones yartículos.

Page 17: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 8

2.1.2. Hapax Legomenon (L)

Un Hapax legomenon es una palabra que aparece solo una vez en un corpus. Porejemplo, Shakespeare utiliza la palabra Honori�cabilitudinitatibus, que hace referencia a lacapacidad de conseguir honores, solo una vez en sus textos. Por lo tanto, esta palabra esun Hapax Legomenon en el corpus de los escritos de Shakespeare.

En el programa que aquí se presenta, el uso de Hapax Legomenon se considera comoun atributo. Además, otros cuatro atributos surgen a partir de esta idea, en los que seconsidera el uso de palabras que aparecen menos de dos veces en el corpus, menos de tresveces, y así hasta menos de cinco, estos corresponden a v7, v8, v9, v10, v11.

2.1.3. Uso de caracteres (L)

Construimos una lista de `caracteres reconocidos' determinada por los 27 caracteres delabecedario en español, las cinco vocales con tilde y la u con diéresis, para un total de 33`caracteres reconocidos'.

Recordando que Dt es el diccionario de palabras construido a partir de los textos en eldocumento t, se de�ne:

C(t): número de caracteres en el documento t.

W (t) : número de palabras en el documento t.

De modo que los atributos v12 a v18 se determinan como se explica a continuación. Esimportante tener en cuenta que al hablar de ocurrencias se consideran todas las apariciones;si un mismo elemento aparece más de una vez, cada aparicion suma uno al número deocurrencias:

v12 : Densidad de caracteres reconocidos, es decir:

x1 : número de ocurrencias de 'caracteres reconocidos' en el documento.

v12(t) =x1C(t) .

v13 : Densidad de caracteres en mayúscula:

x2 : número de ocurrencias de 'caracteres reconocidos' en mayúsculas en el documento.

v13 =x2C(t) .

v14 : Densidad de caracteres en minúscula:

x3 : número de ocurrencias de 'caracteres reconocidos' en minúsculas en el documento.

v14 =x3C(t) .

Page 18: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 9

v15 : Densidad de caracteres 'no reconocidos':

x4 : número de ocurrencias de caracteres que no pertenecen a la lista 'caracteres reco-nocidos' en el documento.

v15 =x4C(t) .

v16 : Densidad de palabras con tres o más caracteres repetidos:

x5 : número de ocurrencias de palabras con tres o más caracteres repetidos en el docu-mento.

v16 =x5W (t) .

v17 : Densidad de palabras con cuatro o más caracteres repetidos:

x6 : número de ocurrencias de palabras con cuatro o más caracteres repetidos en eldocumento.

v17 =x6W (t) .

v18 : Densidad de palabras con cinco o más caracteres repetidos:

x7 : número de ocurrencias de palabras con cinco o más caracteres repetidos en eldocumento.

v18 =x7W (t) .

v19 − v51 : Estos 33 atributos corresponden a la densidad de cada uno de los caracteresreconocidos en el texto. Siendo α un 'caracter reconocido' su densidad en el documento senota ρ(α) y está determinada por:

xα : número de ocurrencias de α en el documento.

ρ(α) = xαC(t) .

Para los atributos v52 a v70 se contruye la siguiente lista de 19 signos de puntuación:

P = { ½ , ! , ", * , ) , ( , + , = , - , , , . , ¾ , } , { , ; , : [ , ] , ? }.

De modo que cada uno de estos 19 atributos corresponde a la densidad de uno de estossignos en el texto, de�niendo la densidad de un signo de exclamación β como:

xβ : número de ocurrencias de β en el documento.

Densidad β =xβC(t) .

Estos atributos tienen una importancia particular, pues son los únicos de la colecciónque trabajan con la sintaxis de los textos.

Page 19: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 10

2.1.4. Puntuación de género (C)

Esta medida, diseñada por el grupo de investigación para este caso en particular, buscacrear un criterio que determine si un texto fue escrito por un hombre o una mujer. Si lamedida es un número positivo, eso indicaría que fue escrito por un hombre, y si es menora cero eso indicaría que es escrito por una mujer. En este caso, entre más lejano de ceroesté el número, más concluyente resulta; mientras que si es muy cercano a cero el riesgo deerror es alto.

Esta medida se puede dar en términos de frecuencia de palabra o frecuencia de docu-mento. Las siguientes de�niciones y notaciones se tendrán en cuenta de ahora en adelante,a menos que se indique lo contrario:

h: hombres; m: mujeres; 10: 10's; 20: 20's; 30: 30's.

C = {h, m, 10, 20, 30}, donde sus elementos hacen referencia a las cinco categoríasdemográ�cas con las que se trabaja aquí.

f(w) : número de apariciones de w en el corpus.

fC(w) : frecuencia de la palabra w en la categoría C, es decir, el número de ocurrenciasde esta palabra en documentos escritos por miembros de la categoría C.

ft(w) : frecuencia de w en t, es decir, número de veces que la palabra w aparece en eltexto t.

df(w) : número de documentos del corpus en los que aparece w.

dfC(w) : Frecuencia de documento de la palabra w, es decir, número de documentosescritos por integrantes de la categoría C en los que aparece w.

NC : Número de documentos en la categoría C.

W : Número de ocurrencias de palabras en el corpus.

WC : Número de ocurrencias de palabras en documentos escritos por miembros de lacategoría C.

La puntuación de género según frecuencia de palabra w está dada por la siguiente ecuación:

gf (w) =fh(w)Wh− fm(w)

Wm.

De modo que la puntuación que se le asigna a un texto t del corpus está dada por:

Gf (t) =∑

w∈t[gf (w) · ft(w)].

De manera análoga de�nimos la puntuación de genero según frecuencia de palabra dela siguiente forma:

Page 20: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 11

gdf (w) =dfh(w)Wh

− dfm(w)Wm

,

Gdf (t) =∑

w∈t[gdf (w) · ft(w)].

De esta forma, se generan dos atributos:

v71 = Gf (t).

v72 = Gdf (t).

2.1.5. Teorema de Bayes (C)

Aplicando probabilidad condicionada, se puede encontrar la probabilidad de un eventocuando se tiene un conocimiento previo. Esta nueva probabilidad está dada por:

P (A|B) = P (A⋂B)

P (B) .

El Teorema de Bayes permite intercambiar el orden de dependencia de los eventos, esdecir, a partir de P (A|B) se puede obtener P (B|A), la forma de hacerlo es la siguiente:

P (B|A) = P (B⋂A)

P (A) = P (A|B)P (B)P (A) .

De este modo, una vez se ha calculado la probabilidad de cada palabra dentro de cadauna de las categorías demográ�cas, por ejemplo, cuál es la probabilidad de 'amor' en lacategoría de los hombres, o en la de las personas de 20's, se puede calcular la probabilidadde dicha categoría cuando aparece la palabra.

Teniendo en cuenta que hay 37.950 textos escritos por hombres y 75.900 textos en total,P (h) = 37950

75900 = 0, 5. Además, la palabra `amor' aparece 63.595 veces en el corpus, que tieneun total de 36.708.117 ocurrencias de palabras, por lo que P (′amor′) = 63595

36708117 ≈ 0,001732.Además, esta palabra aparece 25.921 veces en documentos escritos por hombres, y el nú-mero total de ocurrencias de palabras en documentos escritos por hombres es de18.459.292,se obtiene P (′amor′|h) = 25921

18459292 = 0,001404. Con estos datos, aplicando el Teorema de

Bayes, se puede calcular P (h|′amor′) = P (′amor′|h)P (h)P (′amor′) = 0,40527. Este número se re�ere a'

cuáles son las probabilidades de que el documento haya sido escrito por un hombre cuandoaparece la palabra 'amor'.

Así, para un texto se puede calcular la probabilidad de que haya sido escrito por unhombre, sumando el resultado que da Bayes para cada palabra. Se de�ne la probabilidadbayesiana del texto en relación a la categoría de los hombres como:

PBhf (t) =

∑w∈t P (h|w) · ft(w).

Page 21: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 12

Naturalmente, se puede utilizar el Teorema de Bayes utilizando frecuencia de pala-bra, como se hizo en el ejemplo de amor, o se puede usar la frecuencia de documento.Adicionalmente, esto es posible hacerlo para las cinco categorías demográ�cas.

De esta manera, se pueden de�nir PBmf (t), PBf

f (t), PB10f (t) , PB20

f (t) , PB30f (t),

PBmdf (t), PB

fdf (t), PB

10df (t), PB

20df (t), PB

30df (t).

Teniendo en cuenta las de�niciones antes dadas, se de�ne la probabilidad de una pa-labra según frecuencia de palabra o según frecuencia de documento, y las consecuentesprobabilidades condicionales, de la siguiente forma:

Pf (w) =f(w)W ,

PCf (w) = fC(w)WC

,

Pdf (w) =df(w)N ,

PCdf (w) =dfC(w)NC

,

P (C) = NCN ,

Pf (w|C) = fC(w)f(w) ,

Pdf (w|C) = dfC(w)df(w) ,

Pf (C|w) =Pf (w|C)Pf (C)

Pf (w),

Pdf (C|w) =Pdf (w|C)Pdf (C)

Pdf (w).

Así, se pueden obtener los nuevos atributos v73 − v82, que corresponden a las puntua-ciones de Bayes de los textos:

PBCf (t) =

∑w∈t Pf (C|w) · ft(w),

PBCdf (t) =

∑w∈t Pdf (C|w) · ft(w).

2.1.6. Entropía (C)

La entropía se re�ere a la incertidumbre promedio de una variable aleatoria, y mide lacantidad de información contenida en esa variable. Siendo p(x) la función de probabilidadde una variable aleatoriaX sobre un conjunto discreto de símbolos, la fórmula de la entropíaestá dada por:

H(p) = H(X) = −∑

x∈X p(x) log2 p(x).

Page 22: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 13

Sin embargo, se puede entender de distintas formas. La primera de ella la entiende comola longitud promedio necesaria para transmitir un mensaje con los posibles resultados deuna variable. Así, las unidades de la entropía son los bits.

La entropía también se puede interpretar en términos del juego de veinte preguntas.Es decir, mínimo cuántas preguntas son necesarias para identi�car el resultado. En estecaso, la entropía representa el tamaño del espacio que contiene los posibles valores deuna variable aleatoria y sus respectivas probabilidades. Si la variable está determinada, laentropía es de 0, y entre menos se conozca sobre el resultado, la entropía es mayor. �Laentropía es una medida de nuestra incertidumbre. Entre más sepamos sobre algo, menorserá su entropía, pues estaremos menos sorprendidos con el resultado del experimento"[4].

En el caso del análisis de texto, generalmente la entropía es una medida de la riquezadel vocabulario del documento. A mayor entropía, mayor riqueza en la forma de escritura.

Para esta solución al problema de per�l de autores, se calcula la entropía según fre-cuencia de término y según frecuencia de documento de la siguiente forma, utilizando lanotación de probabilidades dadas en la construcción de los atributos de Bayes:

ef (w) = Pf (w) · log2(Pf (w)),

edf (w) = Pdf (w) · log2(Pdf (w)).

De modo que se generan dos nuevos atributos para cada texto, v83 y v84, dados por lasumatoria de la entropía de todas las palabras que aparecen en un documento dado:

Ef (t) =∑

w∈t ef (w) · ft(w),

Edf (t) =∑

w∈t edf (w) · ft(w).

Adicionalmente, se calcula la entropía tomando las probabilidades de la palabra paracada categoría, esto es:

eCf (w) = PCf (w) · log2(PCf (w)),

eCdf (w) = PCdf (w) · log2(PCdf (w)).

Sumando estas entropías para cada texto, se adquieren nuevos atributos, que corres-ponden a v85 a v94:

ECf (t) =∑

w∈t eCf (w) · ft(w),

ECdf (t) =∑

w∈t eCdf (w) · ft(w).

En el modelo contruido hay 10 atributos que no agregan ningún valor, pues se consideróla entropía tomando P (C|w), de�nida de la siguiente forma:

Page 23: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 14

eC|Wf (w) = Pf (C|w) · log2(Pf (C|w)),

eC|Wdf (w) = Pdf (C|w) · log2(Pdf (C|w)).

Sumando estas entropías para cada texto, se adquieren los atributos v95 a v104:

EC|Wf (t) =

∑w∈t e

C|Wf (w) · ft(w),

EC|Wdf (t) =

∑w∈t e

C|Wdf (w) · ft(w).

Sin embargo, la suma sobre C de las probabilidades condicionadas dada una palabrano es 1, por lo que no es correcto aplicar entropía.

2.1.7. Kullback-Leibler (C)

La divergencia Kullback-Leibler, también conocida como entropía relativa, es una me-dida de qué tan diferentes son dos distribuciones de probabilidad. Esta medida está dadapor:

D(p||q) =∑

x∈X p(x) logp(x)q(x) .

En la aplicación al análisis de texto, la Kullback Leibler permite medir qué tanto di�erela distribución de palabras de un texto de la del corpus general, o a la del corpus de unacategoría demográ�ca. De esta forma, se mide qué tan representativo del corpus general ode una categoría es determinado texto. En muchos casos, la divergencia Kullback-Leibler seinterpreta como una distancia (aunque no tiene la rigurosidad matemática para serlo), puesinformalmente se entiende como la distancia entre un texto y un grupo de documentos.

Según esta noción, en nuestro caso se podría esperar que la divergergencia de un textosea menor cuando se mide en relación a la categoría a la que efectivamente pertenece.

Para calcular esta divergencia para cada texto, se de�nen las siguientes funciones:

qt(w) =

{ft(w)|t| si w ∈ Dt,

0 si w /∈ Dt

.

pt(w) =f(w)∑w∈t f(w)

.{Pf (w) si w ∈ Dt

0 si w /∈ Dt

Con esto, se calcula la divergencia Kullback Leibler de cada texto:

Page 24: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 15

klt(w) = log(pt(w)qt(w)) · pt(w),

De modo que el atributo que mide la divergencia Kullback Leibler con relación al corpuses:

v105 = KL(t) =∑

w∈t klt(w),

De manera análoga, se construyen los atributos para comparar el texto con el conjuntode documentos de cada género y cada rango de edad:

pCt (w) =

{PCf (w) si w ∈ Dt,

0 si w /∈ Dt.

klCt (w) = log(pCt (w)qt(w)

) · pCt (w),

Así, v106 a v110, los atributos de divergencia Kullback Leibler en relación a la categoríaC serán:

KLC(t) =∑

w∈t klCt (w),

2.1.8. Entropía cruzada (C)

La entropía cruzada es una de las formas más comunes de aplicar medidas de entropíaal procesamiento de lenguaje natural. La idea fundamental está en predecir la siguientepalabra con base en el historial de texto que se tiene hasta ese momento. Entre más altasea la entropía cruzada, menos esperaba el modelo que determinada palabra apareciera,lo que indica que el modelo no está funcionando correctamente. La fórmula que se aplicapara hallar la entropía ccruzada es:

H(X, q) = H(X) +D(p||q) = −∑

x p(x) log q(x).

Se puede medir la entropía cruzada de un texto de la misma forma que se hizo con ladivergencia Kullback-Leibler: en relación al corpus o en relación a cada categoría. Trabajarcon el corpus general mide qué tan predecible es un texto si se toma como modelo el corpusgeneral, mientras que si se halla la entropía cruzada tomando como referencia una categoríademográ�ca, se está determinando qué tan predecible es un texto si se predice utilizandolos documentos de cada una de determinado género o rango de edad. De esta forma, laentropía cruzada debería ser menor cuando se halla en relación a las categorías a las queefectivamente pertenece un documento.

Utilizando lo que se presentó al construir la divergencia Kullback- Leibler, se de�ne:

ht(w) = −pt(w) · log2(qt(w)),

Page 25: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 16

hCt = −pCt (w) · log2(qt(w)).

De modo que los nuevos atributos de entropía cruzada, correspondientes a v111 − v116,son:

H(t) =∑

w∈t ht(w),

HC(t) =∑

w∈t hCt (w).

2.1.9. Frecuencia de término e inverso de la frecuencia de documento (C)

los atributos v117 y v118 corresponden a las medidas frecuencia de término, tf, e inversode frecuencia de documento idf explicados en la sección 2. Se de�nen:

idf(w) = log Ndf(w) ,

v117: IDF (t) =∑w∈t idf(w)

W (t) .

v118: TF.IDF (t) =∑w∈t ft(w)·idf(w)

W (t) .

2.1.10. Lexicones(L/SL/SCL)

El uso de lexicones cumple con tres propósitos principales. En primer lugar, el uso dediccionarios de español (o cualquier otro idioma en el que se trabaje) permite identi�carqué tanto se ciñe un autor a los diccionarios o�ciales del idioma, teniendo en cuenta quecuando utiliza una palabra que no se encuentra en el diccionario se puede tratar de erro-res de ortografía, uso de emoticones, uso de abreviaciones propias de Internet, enlaces apáginas web o palabras en otros idiomas. Por otro lado, los lexicones temáticos permitenidenti�car tópicos de los textos. La categorización por tópicos es una herramienta amplia-mente utilizada en las tareas de identi�cación de autores, utilizando diferentes métodospara lograrlo. En este caso, la implementación de lexicones temáticos sobre cocina, amor y

sexo, y deporte permiten identi�car la presencia de estos temas en los documentos. Final-mente,los lexicones permiten identi�car características de estilo de los autores, al añadirlistas de groserías y palabras propias de Internet.

En este laboratorio, cada lexicón permite generar cuatro atributos más para cada texto:

1. Densidad de palabras del lexicón en el texto, notada por ρl(t).

xl: el número de palabras en el lexicón l.

ρl(t) =xl

W (t) .

Page 26: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 17

2. Densidad ponderada del lexicón en el texto.

Como se verá más adelante, algunos lexicones asignan peso a cada una de las palabras.La densidad ponderada, que se nota como ρpl (t) calcula la densidad de lexicón en el textode la siguiente forma:

βi : peso que el lexicón le asigna a la palabra wi.

ρpl (t) =

∑wi∈t

βi·ft(wi)W (t) .

3. Entropía según frecuencia de término.

Para cada lexicón L se calcula la entropía según frecuencia de término, tomando encuenta únicamente aquellas palabras pertenecientes a éste. De modo que la ecuación es:

ELf (t) =∑

w∈t∩L ef (w) · ft(w).

4. Entropía según frencuencia de documento.

De manera análoga, se puede calcular la entropía según frecuencia de documento de lasiguiente manera:

ELdf (t) =∑

w∈t∩L edf (w) · ft(w).

Para los lexicones temáticos (amor y sexo, deportes, cocina) las densidades aportanatributos L y las entropías corresponden a CL. Por su parte, las groserías y palabrascaracterísticas de Internet resultan informativas del estilo, por lo que las densidades sonSL y las entropías SCL.

2.1.11. El lexicón de emociones de Sidorov (L/CL)

Grigori Sidorov construyó un lexicón de emociones a partir del trabajo de 19 anotadores[5]. Usando una nueva medida para cada palabra, a la que llama Factor de probabilidad de

uso afectivo -PFA por sus siglas en inglés-, los anotadores determinan qué tan relacionadaestá la palabra con la emoción. Estos resultados luego se combinan, y a cada palabra se leasigna un valor entre 0 y 1 para relacionarlo con la emoción. Si el 100% de los anotadoresa�rman que la palabra tiene una alta relación con la emoción, ésta tendrá un PFA de 1, ysi el 100% considera que tiene una relación nula con la emoción, luego su PFA será 0. Enlas tablas a continuación se muestran unos ejemplos tomando la emoción 'Alegría'.

Page 27: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 18

Las emociones incluidas son {Alegría, Enojo, Miedo, Repulsión, Sorpresa, Tristeza}.

Cada una de estas listas se utiliza como lexicón con ponderación de palabras, crean-do a partir de este los cuatro atributos presentados anteriormente. Al igual que con losdiccionarios temáticos, las densidades aportan atributos L y las entropías CL.

2.1.12. Palabras vacías (SCL/SL)

Las palabras vacías hacen referencia a preposiciones, artículos, y otras palabras queañaden ruido al análisis de texto.El uso de stopwords puede variar de acuerdo al género ola edad. Por ejemplo en este proyecto se encontró que los hombres usan un 10% más lapalabra de que las mujeres, mientras las mujeres utilizan pronombres posesivos como mi,

yo, mio con más frecuencia. Por está razón, una lista de palabras vacías fue incluida comolexicón, generando con este los cuatro atributos ya descritos para lexicones. Sin embargo,como este lexicón no pondera las palabras, la densidad ponderada es igual a la densidad,pues el peso de cada palabra del lexicón se toma igual a 1. Las densidades son SL y lasentropías SCL.

2.1.13. La prueba T de Student y la signi�cancia (SCL)

Esta prueba estadística es utilizada en programas de minería de datos como DTM-VIC para identi�car las palabras más representativas de un autor o, en este caso, de unacategoría demográ�ca. La idea es comparar la frecuencia de una palabra en una categoríao autor, y en el corpus en general (u otra categoría) para identi�car aquellas que seancaracterísticas de un grupo.

Ya que en el caso de género se tienen dos grupos y en el caso de edad son tres, la formade aplicar este método es diferente en cada uno.

Género: En este caso, se asigna un valor Tg a cada palabra, comparando la frecuenciade esta en hombres y mujeres, de modo que aquellas palabras con un peso positivo altosean características de hombres y aquellas con un peso negativo alto sean característicasde mujeres.

En primer lugar, se de�ne la media de los hombres y las mujeres, y la desviaciónestandar de cada género de la siguiente manera:

Page 28: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 19

xC = fC(w)WC

,

SC =√xC − xC2.

Con esto, se de�ne el valor T:

Tg =xm−xf√Sm2

Nm+Sf

2

Nf

.

Por la forma como se ha construido, si una palabra obtiene un valor T positivo, signi�caque es más utilizada por hombres, y si obtiene un valor negativo es porque las mujeres lautilizan más. Siguiendo los valores de la tabla de distribución T, se sabe que tomar aquelloscuyo valor T tiene un valor absoluto mayor a 2 equivale a tomar el tres por ciento másrepresentativo.

La ventaja que este criterio de selección presenta en comparación con el atributo depuntuación de género, por ejemplo, es que las herramientas estadísticas que se utilizanaquí permiten que se tenga en cuenta un criterio de signi�cancia, lo que permite elegirpalabras que son verdaderamente representativas de cada género, y excluir el ruido queentregan aquellas que tienen un peso positivo o negativo cercano a cero, y por lo tanto noson verdaderamente representativas de ninguno de los dos géneros.

Edad: Para el caso de la edad no es posible comparar los grupos de edad entre ellospues son tres, por lo que se hace el proceso entre cada uno de los grupos y el corpus general,obtienendo un valor T para cada uno de los rangos de edad.

f(w) = frecuencia de la palabra w en el corpus, es decir, el número de veces que estapalabra aparece en los documentos sin importar quién los haya escrito.

Las medias y distribuciones estándar de cada categoría demográ�ca están dadas por lamisma ecuación que se presentó para el caso de género, pero se de�ne también la media yla distribución estandar del corpus:

x = f(w)W ,

S =√x− x2.

Ahora,se construyen los valores T10, T20 y T30 haciendo una comparación entre cadauno de los rangos de edad y el corpus general. En este caso, entonces, puede ocurrir queuna palabra sea representativa de dos rangos de edad y muy poco usada por el tercero.

T10 =x10−x√S10

2

N10+S2

N

,

T20 =x20−x√S20

2

N20+S2

N

,

Page 29: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 20

T30 =x30−x√S30

2

N30+S2

N

.

Para cada una de las cinco categorías demográ�cas, se contruye un lexicón que contienetodas las palabras cuyo peso ponderado en la categoría es mayor a 2, y a partir de cadauno de los lexicones se extraen los cuatro atributos descritos anteriormente, para un totalde 20 nuevos atributos.

En este punto se presenta como un resultado interesante las palabras más representati-vas de hombres, mujeres y personas en cada uno de los rangos de edad especí�cado, segúnla prueba T de Student para el corpus entregado por el CLEF.

Page 30: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 21

Page 31: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 22

Si bien el ruido no se ha eliminado del todo, se pueden sacar conclusiones interesantes.Para el género, es evidente que las mujeres utilizan más emoticones que los hombres.Además, mientras palabras como 'amor', 'amo', 'quiero', son frecuentes en las mujeres, loshombres utilizan palabras como 'sistema', 'desarrollo', 'gobierno', 'banda', 'metal', 'disco'.De lo anterior se puede comenzar a extraer conclusiones sobre los tópicos, pues mientraslas mujeres utilizan palabras que hacen referencia a sus relaciones personales, los hombresparecen hablar más de temas ajenos a ellos como música y gobierno. Este argumento parece

Page 32: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 2. EL LABORATORIO: PERFIL DE AUTORES 23

soportado por las palabras vacías que aparecen en estas listas: mientras los pronombresmás característicos de las mujeres son 'te', 'me', 'tu','mi', 'yo', los hombres utilizan 'de','le', 'del', 'los', 'el, 'en', 'a'.

Estas listas también permiten sacar conclusiones sobre la edad. Al parecer, los emoti-cones son utilizados en los 10's y en los 20's, mientras en los 30's ya dejan de ser frecuentes.Además, mientras en los 10's aparece 'qe', 'q' y 'k', en los 20's se utiliza 'ke' y 'q', y yaen los 30's se escribe la palabra correcta 'que'. Por otro lado, las palabras vacías no sonutilizadas en el rango de los 10's; esta lista parece caracterizarse por el uso de emotico-nes, que explican los signos como ':', '=', ')' y las palabras como 'picturebox', al mismotiempo que aparece un gran número de nombres propios. Por su parte, a los 20's son fre-cuentes palabras vacías como 'me', 'te', 'mi, 'yo', 'tu', 'ti'y palabras como 'quiero', 'kiero'y 'puedo'son características. Por último, a los 30's los errores de ortografía dejan de serfrecuentes, las palabras vacías más usadas ya no son pronombres posesivos, y aparecenpalabras que resultan indicativas de los temas, como 'trabajo', 'dios' e 'hijos'. Este análisises un pequeño ejemplo de las conclusiones que se pueden sacar a partir de los atributosconstruidos en este modelo.

2.1.14. Las modi�caciones para el caso de inglés

El modelo aplicado para analizar textos en inglés es el mismo de español, con ligerasvariaciones. En este caso, siendo I el corpus de documentos en inglés, |I| = 236,000, y lafunción que transforma documentos en vectores f : T → R166. Los atributos que generancada elemento del vector son los mismos que en español, con excepción de los lexicones. Laslistas de Sidorov solo existen para español, por lo que en su lugar se incluyó un lexicón deemociones. Como diccionarios temáticos, se incluyeron listas de términos legales, de cocinay deportes.

Page 33: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 3

Aprendizaje de máquinas

'El aprendizaje de máquinas proporciona la base técnica de minería de datos. Se utilizapara extraer información de los datos en bruto en bases de datos, información que esexpresada en una forma comprensible y puede ser utilizada para una variedad de propósitos.El proceso es uno de abstracción: tomar los datos, con todos sus defectos, e inferir cualquieraque sea la estructura que subyace' [6]. Esta explicación la dan los autores en el libro Data

Mining: Practical Machine Learning Tools and Techniques, en el que hacen un recorridopor el desarrollo reciente de la mineriía de datos y el aprendizaje de máquinas e introducenWeka, el programa que desarrollaron en la Universidad de Waikato y que fue utilizado eneste proyecto.

Como ellos explican, el aprendizaje de máquinas permite tomar grandes cantidades deinformación y hallar patrones y modelos que permitan predecir y clasi�car nuevos datos.Los modelos matemáticos utilizados para este proceso van desde clasi�cadores bayesianos,pasando por funciones de regresión y árboles de decisión, entre muchos otros.

3.1. El modelo aplicado para este laboratorio

Una vez se construyó la matriz que identi�caba a los documentos como vectores, seutilizó el aprendizaje de máquinas para poder determinar el rango de edad y el génerode los autores de textos no conocidos por el programa (ni por nosotros). Para hacerlo, seutilizó un modelo de regresión multinomial con estimadores de Ridge de Weka.

Esta función se basa en el trabajo de Cessie y Howelingen[7], quienes siguen el trabajo deDu�y y Santner[8] para extender la teoría de regresión Ridge en regresión lineal estandar aregresión logística. Sin embargo, los desarrolladores del modelo de Weka incluyeron ciertasmodi�caciones que se pueden leer en sus especi�caciones del método.

24

Page 34: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 4

Resultados

En el PAN-CLEF 2013 nuestro modelo para epañol obtuvo el 6to lugar entre 20, lo quedemuestra que nuestra propuesta contiene elementos competitivos para predecir caracte-rísticas demográ�cas del autor de un texto. Para el caso de inglés, sin embargo, nuestromodelo no parece dar resultados acertados. A continuación, se presenta una tabla con losresultados en cada uno de los idiomas y las líneas de base respectivas.

Tabla 4.1: Resultados español

Total Género Edad

Ganador 0.4208 0.6473 0.6430Resultados 0.3145 0.5627 0.5429

Línea de base 0.1650 0.5000 0.3333

Tabla 4.2: Resultados inglés

Total Género Edad

Ganador 0.3894 0.5921 0.6491Resultados 0.2450 0.4998 0.4885

Línea de base 0.1650 0.5000 0.3333

Para obtener estos resultados, los organizadores probaron nuestro modelo con 33.000documentos desconocidos y midieron la precisión. Por nuestra parte, realizamos experimen-tos con los primeros 20.000 documentos del corpus, utilizando validación cruzada con diezpliegues y reportando la precisión promedio y la desviación estandar de 10 formas de plegaraleatorias. Medimos la precisión de los tres tipos de atributos que incluimos (estadísticasde corpus, lexicones y estilísticos).

Ya que los atributos basados en estadísticas de corpus presentan los mejores resultados,a continuación se presenta una tabla mostrando cuánto aporta cada una de las subcatego-rías de este grupo:

25

Page 35: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 4. RESULTADOS 26

Tabla 4.3: Precisión promedio de los tres tipos de atributos

Tipo de atributo Género en Edad en Género es Edad es

Estadísticas 0.8393(0.0005) 0.7860(0.0013) 0.8038(0.0007) 0.7866(0.0004)Lexicones 0.5933(0.0010) 0.6198(0.0003) 0.6261(0.0007) 0.6446(0.0006)Estilísticos 0.5502(0.0012) 0.6048(0.0003) 0.5981(0.0008) 0.6336(0.0009)Todos 0.8477(0.0023) 0.7809(0.0002) 0.8202(0.0013) n/a

Tabla 4.4: Precisión promedio de las subcategorías estadísticas

Tipo de atributo Género en Edad en Género es Edad es

Bayes 0.7951(0.0004) 0.7382(0.0015) 0.7696(0.0002) 0.7677(0.0003)Entropía cruzada 0.5527(0.0008) 0.5891(0.0006) 0.5376(0.0006) 0.5624(0.0004)Divergencia KL 0.5485(0.0005) 0.6034(0.0003) 0.5896(0.0005) 0.5952(0.0007)Lexicones TT 0.5863(0.0006) 0.6204(0.0004) 0,6240(0.0005) 0.6377(0.0003)

Todos 0.8477(0.0023) 0.7809(0.0002) 0.8202(0.0013) n/a

Adicionalmente, los atributos se pueden dividir entre supervisados y no supervisados.Los no supervisados solo toman en cuenta información del documento y del corpus general,mientras los supervisados también incluyen información sobre las categorías demográ�casconsideradas. En nuestro programa, los únicos atributos supervisados corresponden a es-tadísticas de corpus, y son los siguientes:

· Puntaje de género.

· Atributos construidos con el teorema de Bayes.

· Entropías, entropías cruzadas y divergencias KL calculadas con relación a las catego-rías (ECf (t), E

Cdf (t), H

C(t),KLC(t)).

A continuación se presenta una tabla comparando los resultados obtenidos a partir deambos tipos de atributos.

Tabla 4.5: Precisión promedio de atributos supervisados y no supervisados

Tipo de atributo Género en Edad en Género es Edad es

Supervisados 0.8432(0.0003) 0.7968(0.0006) 0.8155(0.0007) 0.7941 (0.0005)No supervisados 0.5487(0.0012) 0.6075(0.0006) 0.5990(0.0005) n/a

Todos 0.8477(0.0023) 0.7809(0.0002) 0.8202(0.0013) n/a

Finalmente, se hicieron experimentos para cada lexicón, pues estos son los únicos atri-butos que incluimos indicativos del contenido del texto. La siguiente tabla muestra el aportede cada uno de estos:

Page 36: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

CAPÍTULO 4. RESULTADOS 27

Tabla

4.6:

Precisión

prom

edio

deatribu

tossupervisadosyno

supervisados

Groserías

Cocina

Emociones

Internet

Legal

Amor-sexo

Deportes

Palabrasvacías

Géneroen

0.5288

0.5257

0.5267

0.5270

0.5305

n/a

0.5311

0.5304

Edaden

0.5551

0.5673

0.5593

0.5697

0.5942

n/a

0.5945

0.5934

Géneroes

0.5388

0.5041

0.5282

0.5187

n/a

0.5361

0.5359

0.5335

Edades

0.5774

0.5625

0.5709

0.5628

n/a

0.5707

0.5676

0.5701

Page 37: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Conclusiones

El sistema desarrollado para el PAN-CLEF 2013 muestra un mejor desempeño en espa-ñol e identi�ca mejor edad que género. En el caso de español, el hecho de haber quedado 6toentre 20 demuestra que es competitivo para identi�car rasgos demográ�cos de los autores.

Los lexicones temáticos, que inicialmente se incluyeron bajo la hipótesis de que podríanayudar a diferenciar género, muestran mayor precisión para diferenciar edad. Además, comose puede observar, los atributos estadísticos, en particular el uso del Teorema de Bayes,aportan los resultados más precisos. Esta conclusión resulta particularmente interesantecuando se hace un análisis del estado del arte, pues como se puede observar en el artículoadjunto, en la bibliografía revisada por el grupo de investigación los atributos estilísticosson los más utilizados. Los estadísticos, si bien se han usado en tareas de minería de datosy procesamiento de lenguaje natural, no parecen haber sido utilizados en esta tarea enparticular, por lo que nuestro laboratorio constituye un aporte al desarrollo de elaboraciónde per�l de autores.

Un elemento que parece común en toda la bibliografía utilizada es el uso de etiquetasgramaticales, que no fue incluido en nuestro programa por falta de tiempo y capacidad deprocesamiento de nuestras máquinas, por lo que se podría esperar que al incorporar estecriterio al programa los resultados mejoren.

Más allá del análisis sobre el modelo presentado en este trabajo, hay re�exiones perti-nentes que se deben realizar frente a los resultados de todos los participantes al PAN-CLEF2013. En primer lugar, llama la atención que si bien en el estado del arte revisado para elproyecto se habla de niveles de precisión alrededor del 80%, los resultados más altos en estelaboratorio no alcanzan el 70%, por lo que cabe preguntarse si los niveles de precisión delos que hablan en la bibliografía se obtuvieron mediante procesos de validación cruzada osemejantes, lo que indicaría que aun queda mucho camino por andar para llegar a obtenerresultados concluyentes en la elaboración de per�l de autores.

28

Page 38: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Trabajo futuro

Los objetivos del grupo de investigación en la línea de identi�cación de edad y géneroen la elaboración de per�l de autores son:

• Incluir nuevos atributos para optimizar los resultados de este modelo.

• Determinar qué conclusiones lingüísticas se pueden obtener de los atributos aplicadosen este modelo.

• Profundizar en la aplicación del Teorema de Bayes para la elaboración de per�l deautores.

29

Page 39: Modelos vectoriales en minería de textos y sus ... · Modelos vectoriales en minería de textos y sus aplicaciones en la elaboración del per l de autores María De Arteaga Código:

Bibliografía

1 "PAN Workshop and Competition: Uncovering Plagiarism, Authorship and SocialSoftware Misuse."PANWorkshop and Competition: Uncovering Plagiarism, Authors-hip and Social Software Misuse. N.p., n.d. Web. 2013.

2 Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural

language processing. MIT press, 1999. pg. 544.

3 Maria De-Arteaga, Sergio Jimenez, George Dueñas, Sergio Mancera and Julia Ba-quero. Author Pro�ling Using Corpus Statistics, Lexicons and Stylistic Features.

Notebook for PAN at CLEF-2013, CLEF 2013, PAN 2013 (Online Working No-tes/Labs/Workshop). Valencia, Spain (2013)

4 Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural

language processing. MIT press, 1999. pg. 63.

5 G. Sidorov, S. Miranda-Jiménez, F. Viveros-Jiménez, A. Gelbukh, N. Castro-Sánchez,F. Velásquez, I. Díaz-Rangel, S. Suárez-Guerra, A. Treviño, J. Gordon. Empirical

Study of Opinion Mining in Spanish Tweets. LNAI 7629-7630, 2012, 14 p.

6 Witten, Ian H., and Eibe Frank. Data Mining: Practical machine learning tools and

techniques. Morgan Kaufmann, 2005.

7 Le Cessie, Saskia, and J. C. Van Houwelingen. Ridge estimators in logistic regression.

Applied statistics (1992): 191-201.

8 Du�y, Diane E., and Thomas J. Santner. On the small sample properties of norm-

restricted maximum likelihood estimators for logistic regression models. Communica-tions in Statistics-Theory and Methods 18.3 (1989): 959-980.

• S. Argamon, M. Koppel, J. Pennebaker and J. Schler (2009), Automatically pro�ling

the author of an anonymous text, Communications of the ACM 52 (2) :119− 123.

• J. Schler, Moshe Koppel, S. Argamon and J. Pennebaker (2006), E�ects of Age and

Gender on Blogging, in Proc. of AAAI Spring Symposium on Computational Ap-proaches for Analyzing Weblogs, March 2006.

• M.Koppel, S. Argamon and A. Shimoni (2003), Automatically categorizing written

texts by author gender, Literary and Linguistic Computing 17(4), November 2002,pp. 401-412.

30