etiquetando la sociedad a través de la web y rastreando grandes conjuntos de datos para usos...
Post on 25-Jun-2015
88 Views
Preview:
TRANSCRIPT
11
Etiquetando la sociedad a través de la web y rastreando grandes conjuntos de datos para
usos sociales: Método e implicaciones en la red de la globalización de la agricultura
JUAN DIEGO BORRERO, jdiego@uhu.es
ESTRELLA GUALDA, estrella@uhu.es
Universidad de Huelva
VI Congreso Andaluz de Sociología - Cádiz, 30 de noviembre 2012
22
Tabla de contenidos
1. Introducción y objetivos
2. Perspectiva teórica– Globalización de la
agricultura– Etiquetando la Sociedad a
través de la Web 2.0
3. Métodos y técnicas para la recuperación de la información– Procedimiento de
recolección de datos
4. Resultados– Centralización– Cohesión y subestructuras:
Autoridad– Etiquetas para recomendar
y compartir Webs
5. Discusión, conclusiones, e investigaciones futuras
33
1. Introducción y objetivosDesafíos
¡La era de los grandes conjuntos de datos y de la Web Social ha llegado!
p.e., Twitter, Facebook, Tumbrl, Delicious, Youtube, Flickr, Wikipedia…
1. ¿Van a transformar la forma en que estudiamos los fenómenos de comunicación y las relaciones sociales?
2. ¿Van a cambiar el modo de hacer "investigación“ en las ciencias sociales?
Debido a ello, es crucial comenzar a preguntarse sobre los supuestos analíticos, los marcos metodológicos y los sesgos implícitos en el fenómeno de los grandes datos y su implicación para la investigación en las ciencias sociales.
44
1.El acceso a grandes conjuntos de datos no es tan importante por su tamaño, sino por su relación con otros datos. Estos datos conforman una red (de datos, de personas).
2.La Web Social maneja grandes datos y goza de un alto interés en la academia así como una alta popularidad.
1. Introducción y objetivosLa importancia de la Web Social
55
1. Introducción y objetivosSistemas de etiquetado social
Muchos usuarios incorporan metadatos en forma de
ETIQUETAS
Que dan como resultado una estructura de etiquetas
colectiva
Fuente: http://www.idonato.com/2009/05/27/fun-with-tag-clouds/
Fuente: http://blog.hubspot.com/blog/tabid/6307/bid/7372/9-Reasons-Why-Your-Social-Media-Strategy-Isn-t-Working.aspx/
Fuente: http://bvdt.tuxic.nl/index.php/the-wisdom-of-the-crowds-in-the-audiovisual-archive-domain/
Las nuevas tecnologías han hecho posible para la sociedad, compartir e interactuar colaborativamente.
66
1. Introducción y objetivosNuestros objetivos
1. Usar grandes conjuntos de datos provenientes de la Web 2.0, concretamente de Delicious, para descubrir cómo se estructura el tema “globalización de la agricultura”.
2. Mediante el análisis de redes sociales, conocer1. qué Webs han sido recomendadas a través del
etiquetado social, qué tipos de usuarios son centrales en la red, y qué tipo de estructura y subestructuras conforman la red estudiada;
2. qué clases de etiquetas se están usando para marcar las Webs y cómo se estructuran.
77
2. Perspectiva teóricaWeb 2.0… y etiquetado colaborativoWeb 2.0 es la revolución de los negocios en la industria de la computación, originada por el paso hacia internet como plataforma (O’Reilly, 2007)
Etiquetado social o colaborativo es la actividad en la Web 2.0 consistente en etiquetar recursos digitales mediante palabras clave - tags (Golder y Huberman, 2006; Trant, 2009).
Fuente: http://www.laurenwood.org/anyway/2007/11/web-20-buzzwords/
Un sistema de etiquetado social está compuesto principalmente por tres elementos interrelacionados
usuarios, etiquetas y recursos(Smith, 2008)
Páginas webs, fotos, videos,
posts…
Puede haber un cuarto elemento: Momento/ tiempo en el que se hace la anotación
88
2. Perspectiva teórica… etiquetado colaborativo y folksonomía
Los sistemas de etiquetado social agregan las etiquetas de todos los usuarios, resultando una indexación social o clasificación colaborativa denominada folksonomy o clasificación popular (Vander Wal, 2004) Sinónimos global warming = climate change
Variaciones globalization = globalisation poor=poors
problemasFuente: http://scot-project.net//
99
2. Perspectiva teórica… folksonomía y conocimiento colectivo
En un proceso de abajo hacia arriba… …las etiquetas de numerosos y diferentes usuarios son agregadas resultando una estructura de etiquetas colaborativa – como una nube de etiquetas – que representaría el conocimiento colectivo de los usuarios de la Web (Cress et al., 2012)
Fuente: http://blog.cimmyt.org/?p=6052
Fuente: http://scot-project.net//
1010
2. Perspectiva teóricaEtiquetado y redes sociales
Un tipo particular de red es la red bipartita, cuyos nodos representan dos conjuntos –p.e. usuarios y etiquetas.
Una red de opinión (Maslov and Zhang, 2001; Blattner et al., 2007), es una red en la que los usuarios se conectan con los objetos que ellos producen o recogen.
La estructura de los sitios de etiquetado social puede ser vista como una red con tres tipos diferentes de nodos: los U usuarios, los R recursos (páginas webs) y los T (tags, etiquetas) que los U usuarios usan para etiquetar sus R páginas web favoritas.
Fuente: Autores
Figura 1. Red bipartita compuesta por tres usuarios U=(u,u’,u’’), tres etiquetas T=(t,t’,t’’) y dos clases de vínculos: entre usuarios RU (línea continua), y entre usuarios y etiquetas RT (línea discontinua).
1111
2. Globalización de la agriculturaGlobalización
implica la ampliación del mercado como resultado de la reducción de los costes de transacción del comercio internacional
Globalización de la agricultura- comercio (de alimentos, inputs)
- precios (de los alimentos, inputs)- consumo alimentos (productos básicos vs elaborados)
- investigación- políticas (subsidios, WTO, relacionadas con la reducción del hambre y la pobreza)
implicaciones para
Asimetrías
efectos
espacio de discusión/ difusión (Web 2.0)
1212
3. Metodología• Datos tomados de: Delicious – www.delicious.com –. • Delicious = sistema de marcadores sociales cuyo
– Contenido es creado, anotado y visto por sus usuarios. – Sistema de clasificación no jerárquico: los usuarios pueden
etiquetar cada marcador en la página web de Delicious, y dar información sobre la web que se marca
– Naturaleza colectiva: • Ver los marcadores añadidos y anotados por otros usuarios • Organizar las etiquetas existentes en grupos
• Nos concentramos en la co-occurrencia de usuarios, recursos y etiquetas (usuario, recurso, etiqueta).
Conjunto de datos recogido: U (usuarios)= {u1; u2; : : : ; uK},
R (recursos: webs) = {r1; r2; : : ; rM}, y T (etiquetas) = {t1; t2; : : ; tN}
Tiempo: en ulteriores explotaciones
1313
3. MetodologíaEtiquetado en DeliciousLas personas pueden producir y clasificar la gran cantidad de
información que tienen a su disposición mediante tags.Keywords elegidas libremente por los usuarios y empleadas para dar significado a diversos contenidos digitales, como websites, fotos, videos, posts…
Source: www.delicious.com
Delicious es una herramienta Web 2.0 gratuita, denominada sitio de marcadores sociales donde se puede guardar, compartir y descubrir favoritos de internet
1414
3. MetodologíaProceso para recuperar los datos
(A) Punto de arranque. Identificar los atributos de búsqueda. Mediante una combinación de técnicas de búsqueda (Rogers y Zelman, 2002). Fuente de autoridad como base para encontrar las palabras clave conectadas a la idea de ‘globalización de la agricultura’
– Wikipedia: definición de los “críticos de la globalización” (web popular, de alta reputación)
– Otros puntos de partida (futuro)– Conceptos principales seleccionados de las webs, nubes
de etiquetas o temas (manualmente= experiencia del investigador)
– Se identificaron 9 keywords para que sirvieran de semillas de búsqueda (globalization + agriculture, development, activism, trade, poverty, food, organic, GMO)
– No se tienen en cuenta otros conceptos(B) La muestra de usuarios, webs y etiquetas se reunió con un programa hecho con Perl para explorar webs (web-crawling)
- Para globalization+agriculture;globalization+development; globalization+activism; globalization+poverty; globalization+food; globalization+organic; globalization+GMO
- 22 de abril de 2011 a 21 de mayo de 2011 (mes completo)
- Resultados: 61.043 registros etiquetados, 3.668 usuarios, 4.913 webs y 5.724 etiquetas
(C) Programa en Haskell para reducir la cantidad de datos cortando las webs y usando palabras claves, incluyendo la identificación de sinónimos, la eliminación de palabras con mayúsculas y palabras derivadas como las que van en plural.
(D) Conjunto de datos para el análisis
Tabla 1. Procedimiento para la recuperación de datos
Fuente: Autores.
(A) 26 sitios de wikipedia
(B) 9 keywords
(C) 61,043 taggings
3.668 usuarios; 4.913 webs; 5.724 etiquetas
(D) 60,722 taggings
3.668 usuarios; 2.148 webs; 4.776 etiquetas
extracción manual
Filtrado y acortado (manualmente y programa en Haskell)
web-crawling (programa en Perl)
1515
3. MetodologíaEjemplo: conjunto de datos final
2.148 webs 4.776 etiquetas 3.668 usuariosFuente: Autores.
1616
4. RESULTADOSTabla 2. Principales etiquetas de las palabras clave usadas en el tema “Globalización de la agricultura”
Fuente: Autores.
Atributos de búsqueda usados
Nº de etiquetas resultante
s (I+II)
Principales etiquetas: 5 etiquetas más frecuentes
Globalization (I) + development (II)
10.684 economics (916), politics (503), business (245), poverty (232), international (203)
Globalization (I) + activism (II)
13.296 politics (1.203), economics (695), news (381), environment (367), research (290)
Globalization (I) + trade (II) 8.378 economics (888), politics (343), china (311), business (144), free (141)
Globalization (I) + poverty (II) 4.956 economics (422), politics (216), development (140), world (84), inequality (80)
Globalization (I) + food (II) 3.547 economics (251), environment (123), sustainability (84), politics (81), culture (67)
Globalization (I) + agriculture (II)
3.481 food (268), economics (238), environment (147), politics (123), trade (83)
Globalization (I) + organic (II) 62 fairtrade (5), business (3), activism, economics, environment, politics, sustainability, trade (2)
Globalization (I) + GMO (II) 198 food (13), agriculture (12), politics (6), environment, sustainability, health (5)
1717
Grado de entrada (indegree) Grado de salida (outdegree)
1 1203 http://www.nytimes.com/ 433 /mritiunjoy
2 674 http://news.bbc.co.uk/ 195 /laura208
3 365 http://www.guardian.co.uk/ 127 /rd108
4 186 http://www.washingtonpost.com/ 112 /amaah
5 158 http://www.ft.com/ 111 /thepouncer
6 154 http://www.reason.com/ 100 /anilius
7 147 http://www.thenation.com/ 100 /emmarlyb
8 137 http://www.spiegel.de/ 87 /adorngeography
9 136 http://www.foodfirst.org/ 86 /pagolnari
10 130 http://www.economist.com/ 85 /freemanlcFuente: Autores.
4. RESULTADOSTabla 3. Principales páginas web en la red de hipervínculos (usuarioweb)
18
Redes Tipo Relación Nº de nodos
Nº de enlaces
Densidad Grado medio
Usuario Web
Bipartita Dirigida 5.816 7.200 0,09% 2.476
Usuario - Usuario
Unipartita No dirigida 3.668 134.833 1,97% 73.5187
Web - Web Unipartita No dirigida 2.148 20.558 0,84% 19.141
Etiqueta -Etiqueta
Unipartita No dirigida 4.776 539.105 47,06% 225.756
Fuente: Autores.
Red bipartita con una relación dirigida = Se crea a través de dos tipos diferentes de nodos (ej. usuarios y webs) que están directamente conectados por una relación (usuario recomienda Webs, o usuario etiqueta Webs) (red 2-mode).
Red unipartita con una relación no dirigida = Es una red que se crea después de la transformación de la matriz original en una matriz usuario-usuario, etiqueta-etiqueta, o web-web. En estos casos hay una relación no directa a través de un nodo que los conecta (red 1-mode).Por ejemplo, una matriz usuario-usuario es creada a través de las webs que conectan a losusuarios porque gente diferente puede etiquetar o recomendar la misma web.
4. RESULTADOSTabla 4. Descripción de las redes y subredes y principales datos estadísticos
1919
¿qué hace que algunos sitios/usuarios estén mucho mejor conectados que la mayoría?
Se observa un alto grado de centralización de la red. Esta es una propiedad característica de las redes a gran escala, como la web.
Nuestra red cumple con la propiedad de las redes libres de escala (o de cola larga), donde una minoría de los nodos concentra la mayoría de los
enlaces (Barabási and Albert, 1999)
Fuente: Autores.
Webs ordenadas según los lazos entrantes Usuarios ordenados según los lazos salientes
4. RESULTADOSFigura 2. Centralización de la red. 2.148 webs ordenadas según los lazos entrantes y 3.668 usuarios ordenados por el número de lazos salientes
20
Grado de entrada - Indegree Grado de salida - Outdegree
Valor Web Descripción Valor Usuario Descripción
1 259 www.nytimes.comPeriódico on line 71 /garrygolden
http://www.garrygolden.net/Professional futurist
2 170 www.independent.co.ukPeriódico on line 51 /mritiunjoy
Mritiunjoy MohantyProfessor, Economics Indian Institute of Management Calcutta
3 155 www.naomiklein.orgSitio web activista 44 /emmarlyb
4 144 www.news.bbc.co.uk/Periódico on line 42 /woldpublicopinion
http://www.worldpublicopinion.org/Activist media site
5 124 www.globalresearch.caSitio web activista 33 /criticalspatialpractice
Nicholas BrownArtist
6 95 www.spiegel.de/Periódico on line 30 /pagolnari
Dr. Kathy Ward pagol NariProfessor, Carbondale, EEUUFeminist bloggerhttp://pagolnari.blogspot.com.es/
7 94 www.guardian.co.uk/Periódico on line 28 /bfunk
Bryan Finokihttp://subtopia.blogspot.com.es/Author Subtopia (Blog), Senior Editor, Archinect, and Adjunct, Woodbury University School of Architecture, San Diego
8 94 www.economist.com/Periódico on line 28 /chris.h.p
9 87 www.corpwatch.org Sitio web activista 27 /maitreya11 Carlos Puentes
10 172 www.theatlantic.com Revista on line 24 /matttbastardMatthew Elliothttp://bastardlogic.wordpress.com/
Predominio de periódicos on-line, y sitios de activistas
4. RESULTADOSTabla 5. Centralización de la red. Webs y usuarios más centrales
Fuente: Autores.
21
Núcleos de grado K=1..5
(subred)
Nº de Nodos Porcentaje(%)
Frecuencia acumulada(nº nodos)
Frecuencia acumulada
(%)
1 4.445 76,43% 4.445 76,43%
2 792 13,62% 5.237 90,04%
3 387 6,65% 5.624 96,70%
4 147 2,53% 5.771 99,23%
5 45 0,77% 5.816 100,00%
Suma 5.816 100,00%Fuente: Autores.
k-core: Un núcleo de grado k es una subred en la que cada nodo tiene grado k en esa subred, o sea es la máxima red en la cual todos los nodos son adyacentes al menos otros k nodos, a diferencia de los cliques donde todos los pares de puntos están conectados directamente a través de al menos un enlace.
En las redes libre escala, como la nuestra, el núcleo con el grado más alto (grado 5) es el núcleo central de la red, detectando el conjunto de nodos de la red (45 nodos) que componen ese núcleo y su posición.
4. RESULTADOSTabla 6. Cohesión y subestructuras. Red de la globalización de la agricultura (K-cores, núcleos de grado K)
22Fuente: Autores a partir de datos de Delicious.
4. RESULTADOSFigura 3. Red UsuariosWebs. 5.816 nodos. Color. NúcleosRepresentación Energy-Frutcherman (Pajek)
23
4. RESULTADOSFigura 4. Red UsuariosWebs (Núcleos 2 a 5) 1.371 nodos. Color. NúcleosRepresentación Energy-Frutcherman (Pajek)
Fuente: Autores a partir de datos de Delicious.
24
Gráfico 5. Red UsuarioWeb (2-core, 792 nodos)Representación Kamada-Kawai
Gráfico 6. Red UsuarioWeb (3-core, 387 nodos)Representación Kamada-Kawai
Gráfico 7. Red UsuarioWeb (4-core, 147 nodos)Representación Kamada-Kawai
Gráfico 8. Red UsuarioWeb (5-core, 45 nodos)Representación Kamada-Kawai
Fuente: Autores a partir de datos de Delicious.
25
Conglomerado nº
Nº de Nodos
Porcentaje(%)
Densidad (%)
Grado medio
294 90 1,88% 97,75% 165.22
344 168 3,52% 100,00% 692.00
692 691 14,47%
Fuente: Autores, a partir de datos de Delicious.
4. RESULTADOSEtiquetado, recomendando y compartiendo Webs Tabla 7. Etiquetas en la red de la globalización de la agricultura (K-cores, núcleos)
Selección de los 3 conglomerados más importantes
Red unipartita de etiquetas, conectadas entre sí porque se han usado para etiquetar las mismas webs
26
Gráfico 9. Nube de etiquetas para la Red de Globalización de la Agricultura identificada en
Delicious (Principales etiquetas de la red)
temas principales
4. RESULTADOSFigura 9. TagCloud. Red ”globalization of agriculture”50 etiquetas. Tamaño según grado de centralidad
27
Más importancia a asuntos políticos y activismo relacionado con la globalización
4. RESULTADOSFigura 10. TagCloud. Red ”globalization of agriculture”Red userweb. Núcleo 294 (90 etiquetas de 4.476)
Representación de 50 etiquetas. Tamaño según grado de centralidad
28
4. RESULTADOSFigura 11. TagCloud. Red ”globalization of agriculture”Red userweb. Núcleo 344 (168 etiquetas de 4.476)
Representación de 50 etiquetas. Tamaño según grado de centralidad
Menor prominencia de temas políticos y activistas, aunque se repiten asuntos, pero se gira hacia aspectos económicos y algunos países menos desarrollados
29
4. RESULTADOSFigura 12. TagCloud. Red ”globalization of agriculture”Red userweb. Núcleo 692 (691 etiquetas de 4.476)
Representación de 50 etiquetas. Tamaño según grado de centralidad
Prevalencia de cuestiones socioeconómicas, sociológicas, tecnológicas orientadas hacia aspectos como la energía, seguridad, comida y aspectos medioambientales
30
5. Discusión, conclusiones e investigaciones futurasDiscusión
• Campo de gran interés para la Sociología, que obliga en cierta medida a trabajar interdisciplinarmente
• Hemos encontrado algún tipo de estructuración en la red de la agricultura
• Se identifican subgrupos al recomendar webs y etiquetarlas en torno a la globalización de la agricultura:– Periódicos (sesgo americano, anglosajón: Delicious)– Activismo
• Constitución “desde abajo” al etiquetar colaborativamente• ¿Qué empieza primero: micro-macro, acción-estructura?• Pensar y re-pensar en términos teóricos
– Teoría de la estructuración, estructura y agencia (Giddens, 1984)– Habitus (Bourdieu, 1984)– Relación dialéctica entre estructura y agencia (Berger y Luckman, 1966)– La “bañera” de Coleman (1990)– La colonización del mundo de la vida (Habermas, 1984)– Paradigma sociológico integrado (Ritzer, 2000)– etc
31
• Sociedades actuales estructuradas por las redes sociales, basadas en tecnologías de la microelectrónica (Castells,1996)
• ¿Se pueden trasladar estas preguntas clásicas a la comprensión de la sociedad que está viviendo alrededor de la Web 2.0 a través del etiquetado colaborativo?
• ¿Emergencia de comunidades? En nuestro caso tras la práctica de recomendar y compartir Webs vía Delicious, pero hay otros escenarios de comunidades virtuales en la Web 2.0
Hemos encontrado:• Un proceso colaborativo muy importante bottom-up • Pero desde arriba están elementos macro como la tecnología o el
lenguaje, e incluso cierta limitación cuando la propia web propone etiquetas, aparte de otras vías de estructuración que proporciona la web semántica
• Aunque es el usuario el que finalmente recomienda webs y las etiqueta.• En la red de la globalización de la agricultura intuimos que parecen
mezclarse estos procesos top-down, como ocurre en otras esferas sociales
5. Discusión, conclusiones e investigaciones futurasDiscusión
32
Distribución muy desigual del poder de las webs citadas por los usuarios, y también etiquetas usadas para describir las webs en el sistema de marcadores de Delicious fueron mayoritariamente concrentrados alrededor de algunas de las principales temáticas.
Etiquetas y páginas webs se encuentran estructuradas en subgrupos. Algunos vacíos informativos respecto a los usuarios
Red con centralización y segmentación en Delicious:- Actores muy prominentes en ella (especialmente medios de
comunicación y activistas, no sólo: universidades)- Importancia potencial en el proceso de difusión de noticias,
eventos, agenda, trending topics, ideología, cultura, y etcétera. - La identificación y profundización en la influencia de los actores
clave: mejor comprensión de fenómenos de liderazgo, procesos de influencia o estructuras de poder.
- Buena vía para identificar informantes clave (intervención social).
5. Discusión, conclusiones e investigaciones futurasConclusiones
33
Futuro:- Estudio de esta red a través del tiempo, y el rol de los actores más
poderosos con el tiempo (configuración y reconfiguración de la red). y las webs más referenciadas
- Comparación con otros sistemas de marcadores sociales - Profundizar en el conocimiento de las webs más recomendadas y
los usuarios y etiquetas más importantes alrededor de la red de la globalización de la agricultura a nivel internacional
Comentarios para terminar:• Estamos en los comienzos de examinar grandes conjuntos de
datos extraídos de la Web 2.0• Largo camino desde aquí.• Camino interdisciplinar parece más productivo, como viene siendo
en los últimos años en el campo del ARS – Análisis de Redes Sociales
5. Discusión, conclusiones e investigaciones futurasInvestigaciones futuras
3434
Etiquetando la sociedad a través de la web y rastreando grandes conjuntos de datos para
usos sociales: Método e implicaciones en la red de la globalización de la agricultura
JUAN DIEGO BORRERO, jdiego@uhu.es
ESTRELLA GUALDA, estrella@uhu.es
Universidad de Huelva
VI Congreso Andaluz de Sociología - Cádiz, 30 de diciembre 2012
35
Anexos
3636
Procedimiento de análisis: ARSAnálisis de redes
• Centralidad: identificación de los nodos que son más centrales que otros. Propiedad de la red = idea del poder social del nodo basado en cómo se conecte a la red.
• Grado de un nodo = Número de conexiones individuales directas que tiene con otros en el grupoGrados elevado = Ejerce influencia (o autoridad).
In-degree = número de lazos entrantes que reflejan la popularidad de una web. Como resultado, los miembros de la red bien conectados, prominentes son líderes de opinión (esos con un alto grado de centralidad).
Out-degree = número de lazos salientes que determiman si un usuario particular es un participante activo o pasivo dentro de la red.
Software Pajek (para grandes series de datos)
37
RESULTADOSTabla 1. Meta-palabras clave usadas en Delicious
respecto a la “Globalización de la Agricultura”
Aspectos Palabras clave
Socioeconómicos globalization: 8,082; development: 2,344; activism: 2,118; trade: 2,066; poverty: 1,434
Agrarios globalization: 8,082; food: 1,220; agriculture: 642; organic: 54; GMO: 29
(*) El número corresponde a la frecuencia de ocurrencia (22 de abril a 21 de mayo de 2011).Fuente: Autores.
Presencia diferente en Delicious, algunas de ellas arrojan más resultados
top related