medidas de centralidad. ¿qué es el pagerank? lo utilizan más seguido de lo que creen. es...

18
Medidas de Centralidad

Upload: graciano-cancel

Post on 18-Apr-2015

2 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Medidas de Centralidad

Page 2: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

¿Qué es el PageRank?Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet .

Por motivos obvios este algoritmo no se conoce públicamente de manera exacta aunque muchos especulan como podría ser.

Pero … ¿CUÁL ES EL CRITERIO?

“PageRank es una marca registrada y patentada por Google el 9 de enero de 1999 que ampara una familia de algoritmos utilizados para asignar de forma numérica la relevancia de los documentos (o páginas web) indexados por un motor de búsqueda.”

Wikipedia Dixit

Page 3: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

¿Qué es el PageRank?Evalúa principalmente dos cosas:

a)Cuantos links van hacia una página desde otras.b)La importancia de las páginas de origen de esos lazos.

Diez es el máximo PageRank posible y son muy pocos los sitios que gozan de esta calificación, 1 es la calificación mínima que recibe un sitio normal, y cero significa que el sitio ha sido penalizado o aún no ha recibido una calificación.

Donde:PR(A) es el PageRank de la página APR(Ti) es el PageRank de las páginas Ti que enlazan a A,C(T1) es el número de enlaces salientes de la página T1;d es un factor de amortiguación que tiene un valor entre 0 y 1.(The Anatomy of a Large-Scale Hypertextual Web Search Engine)

Page 4: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Páginas con PageRank 10

Page 5: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

1º medida de centralidad: Grado nodal (degree)Definición: Número de lazos relacionados con un nodo determinado

Red Estrella

Red línea

Red Circulo

Page 6: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

¿Qué pasa en este caso?

El grado nodal de los nodos en rojo (1 y 2) es el mismo (6) pero, evidentemente, no son igual de importantes.

¿Por qué no son lo mismo?

La debilidad de esta medida es que solo toma en cuenta los vínculos inmediatos (a un nivel local), dejando de lado los vínculos indirectos (a nivel global)

Page 7: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

2º medida de centralidad: Grado de intermediación (betweenness)

• Va a ver al actor 2 con una posición favorable en la medida que dicho actor está situado entre los caminos geodésicos de todos los otros actores.

• En otras palabras: a más nodos que necesiten pasar por mí para hacer conexiones indirectas, más centralidad tendré yo.

Page 8: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Entonces…

Nombre Grado Intermediación

1 6 70.00

2 6 96.500

Page 9: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

3º medida de centralidad: Cercanía (closeness)

• Se enfatiza la distancia de un actor a otros en la red al concentrarse en la distancia geodésica de cada actor con todos los demás.

• La suma de estas distancias geodésicas para cada actor es la lejanía del actor al resto.

• La inversa de dicha suma( 1/lejanía) es la medida de cercanía.

Page 10: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Calculo de Cercanía con Ucinet Farness nCloseness 2 2 34.000 50.000 1 1 40.000 42.500 13 13 42.000 40.476 17 17 44.000 38.636 8 8 44.000 38.636 12 12 45.000 37.778 18 18 45.000 37.778 14 14 52.000 32.692 6 6 56.000 30.357 5 5 56.000 30.357 7 7 56.000 30.357 3 3 56.000 30.357 4 4 56.000 30.357 9 9 56.000 30.357 15 15 66.000 25.758 10 10 70.000 24.286 16 16 82.000 20.732 11 11 86.000 19.767

Page 11: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

¿Qué pasa en grafos dirigidos?

• Hay que tener en cuenta que la dirección de un lazo es muy importante pudiendo llegar a cambiar todo el sentido de la centralidad de una red.

• El grado nodal ahora distingue salida/entrada.• La cercanía y la intermediación ahora toman

en cuenta la dirección de los lazos para calcular los caminos geodésicos.

Page 12: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

¿Qué algoritmos utilizar entonces?

• ¡Nosotros no podemos decirles nada!• En realidad es una decisión metodológica de uds. que va

a depender de sus interrogantes y del tipo de datos que posean.

Miceli dixit

Page 13: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Caso de Ejemplo: Blogs económico-políticos en Argentina (Guerrero)

Grafo con los diferentes blogs (67) seleccionados representados como nodos y sus hiperenlaces en sus respectivos blogrolls presentes en 2007 como lazos.

Page 14: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Características de lo Blogs:

Crecimiento del uso de blogs hasta 2007

Page 15: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Medidas de centralidad reprise:• Vamos a aplicar todas las medidas aprendidas al ejemplo de la blogsfera:

Page 16: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Para prestar atención: • Citando a Sergio:

Page 17: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

Bibliografía• Guerrero, S. (2008) Aplicación del análisis de redes sociales al estudio de

la estructura y desarrollo de una red de blogs económicos políticos en Argentina. En Revista Redes. Volumen 14

• Hanneman, R (2000) Introducción a los métodos del análisis de redes sociales. Capítulo VI http:/revista-redes.es/webredes/textos

• Miceli, J. (2008) Los problemas de validez en el análisis de redes sociales: Algunas reflexiones integradoras. En Revista Redes. Volumen 14

Sobre Pagerank:• http://www.thesmokesellers.com/?p=819• http://refugioantiaereo.com/2007/03/paginas-con-pagerank-10• http://www.hispamedios.com/articles/id27-pagerank• http://www.visitas-web.com/2007/12/pagerank.html

Page 18: Medidas de Centralidad. ¿Qué es el PageRank? Lo utilizan más seguido de lo que creen. Es probablemente unos de los algoritmos más importantes de Internet

¿Preguntas?