la matriz de datos más grande del mundo · las páginas más visitadas son aquellas que tienen...

4
3/5/13 10:21 AM La matriz de datos más grande del mundo Page 1 of 4 http://www.milenio.com/cdb/doc/impreso/9174146 Twittear Twittear 3 Like 11 0 INVITADO Raúl Rojas 2013-03-05 • POLÍTICA Google no inventó las máquinas de búsqueda, pero pudo convertirse en la máquina más usada debido, sobre todo, al método de clasificación de resultados llamado “Page Rank”. Recordemos: las primeras máquinas de búsqueda fueron Altavista y después Inktomi. Lo que hacían estos servicios era “leer” toda la web. Revisaban página por página almacenándolas en una supercomputadora o en una red de (computadoras) PC, para poder después ofrecerlas como resultado de las búsquedas. Google, sin embargo, introdujo algo muy importante: la clasificación de la “importancia” relativa de las páginas. Si Altavista respondía a un rastreo con 100 resultados sin jerarquía, Google respondía con 100 resultados, pero los primeros en la lista eran los más relevantes, de acuerdo con la popularidad de las páginas. La estrategia utilizada por Google es lo que en la estadística se conoce como un “modelo de Markov”, en honor al matemático ruso Andrey Markov (1856-1922). Una cola en el banco, por ejemplo, es un modelo de Markov. En la cola vamos avanzando poco a poco, de un “estado” al siguiente, hasta “salir” a la ventanilla. El tiempo que pasamos en cada “estado” (es decir, la posición específica en la cola) es aleatorio y depende de cómo van siendo atendidos los usuarios. Un problema importante para un proceso de Markov como éste es, por ejemplo, el largo promedio de la cola durante un día. Los dos fundadores de Google, Larry Page y Sergey Brin, tuvieron la siguiente idea: si un internauta comienza en una página de internet y va saltando de esa página a otra (siguiendo las ligas en la página y escogiendo una liga específica usando un dado) irá recorriendo toda la red. Si llega a una página web sin salida (sin ligas para continuar), elige otra página cualquiera y sigue surfeando por la red. Ahora bien, si el internauta repite este procedimiento una y otra vez, habrá páginas a las que solo entrará muy ocasionalmente y otras páginas que serán visitadas muchas veces. Las páginas más visitadas son aquellas que tienen más y mejores vías de entrada, es decir, aquellas a las que muchas otras páginas importantes apuntan. Si el internauta se queda un segundo en cada página antes de saltar a la siguiente, ¿cuáles son las páginas en las que pasaría más tiempo en total? Este tiempo de permanencia promedio en la página en este proceso de saltos aleatorios es lo que Page y Brin llamaron el “rango” o importancia de la página. Las páginas de mayor rango son aquellas que se le presentan primero al usuario de Google, La matriz de datos más grande del mundo PERFIL Raúl Rojas Invitado FIRMAS ANTERIORES Ver más VER EN VIVO Milenio Noticias DESPUÉS Bienes Ecoforestales: El proyecto Edición: Nacional Edición Impresa La Afición.com Milenio Televisión Martes, 05 de Marzo de 2013 Escribe aquí tu búsqueda Buscar Buscar Cd. de México 12°C 7 Mín 26 Máx Share Share

Upload: others

Post on 03-Apr-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

3/5/13 10:21 AMLa matriz de datos más grande del mundo

Page 1 of 4http://www.milenio.com/cdb/doc/impreso/9174146

TwittearTwittear 3

Like 11

0

INVITADO Raúl Rojas

2013-03-05 • POLÍTICA

Google no inventó las máquinas de búsqueda, pero pudo convertirse en lamáquina más usada debido, sobre todo, al método de clasificación deresultados llamado “Page Rank”.

Recordemos: las primeras máquinas de búsqueda fueron Altavista ydespués Inktomi. Lo que hacían estos servicios era “leer” toda la web.Revisaban página por página almacenándolas en una supercomputadora oen una red de (computadoras) PC, para poder después ofrecerlas comoresultado de las búsquedas.

Google, sin embargo, introdujo algo muy importante: la clasificación de la“importancia” relativa de las páginas. Si Altavista respondía a un rastreocon 100 resultados sin jerarquía, Google respondía con 100 resultados, pero los primeros en la listaeran los más relevantes, de acuerdo con la popularidad de las páginas.

La estrategia utilizada por Google es lo que en la estadística se conoce como un “modelo deMarkov”, en honor al matemático ruso Andrey Markov (1856-1922). Una cola en el banco, porejemplo, es un modelo de Markov. En la cola vamos avanzando poco a poco, de un “estado” alsiguiente, hasta “salir” a la ventanilla.

El tiempo que pasamos en cada “estado” (es decir, la posición específica en la cola) es aleatorio ydepende de cómo van siendo atendidos los usuarios. Un problema importante para un proceso deMarkov como éste es, por ejemplo, el largo promedio de la cola durante un día.

Los dos fundadores de Google, Larry Page y Sergey Brin, tuvieron la siguiente idea: si un internautacomienza en una página de internet y va saltando de esa página a otra (siguiendo las ligas en lapágina y escogiendo una liga específica usando un dado) irá recorriendo toda la red.

Si llega a una página web sin salida (sin ligas para continuar), elige otra página cualquiera y siguesurfeando por la red. Ahora bien, si el internauta repite este procedimiento una y otra vez, habrápáginas a las que solo entrará muy ocasionalmente y otras páginas que serán visitadas muchasveces. Las páginas más visitadas son aquellas que tienen más y mejores vías de entrada, es decir,aquellas a las que muchas otras páginas importantes apuntan.

Si el internauta se queda un segundo en cada página antes de saltar a la siguiente, ¿cuáles son laspáginas en las que pasaría más tiempo en total? Este tiempo de permanencia promedio en la páginaen este proceso de saltos aleatorios es lo que Page y Brin llamaron el “rango” o importancia de lapágina. Las páginas de mayor rango son aquellas que se le presentan primero al usuario de Google,

La matriz de datos más grande del mundo

PERFIL

Raúl RojasInvitado

FIRMAS ANTERIORES

Ver más

VER EN VIVO

Milenio Noticias

DESPUÉS

Bienes Ecoforestales: Elproyecto

Edición: Nacional Edición Impresa La Afición.com Milenio Televisión

Martes, 05 de Marzo de 2013

Escribe aquí tu búsqueda BuscarBuscarCd. de México 12°C 7 Mín 26 Máx

ShareShare

3/5/13 10:21 AMLa matriz de datos más grande del mundo

Page 2 of 4http://www.milenio.com/cdb/doc/impreso/9174146

es decir, aquellas que el hipotético internauta visitaría más frecuentemente.

Obviamente que este método de cálculo de la importancia de las páginas web requiere demuchísimas horas de procesamiento. Hay millones y millones de páginas en internet. Estar saltandode una a otra, como pide el algoritmo, sería demasiado engorroso.

Entonces, lo que se puede hacer para simplificar los cálculos es utilizar una técnica clásica en elestudio de procesos de Markov. Para ello se requiere definir una tabla de “transiciones”. Si solohubiera 100 páginas web, por ejemplo, se podría armar una tabla de 100 renglones por 100columnas.

En esa tabla se anota cuál es la probabilidad de saltar de la pagina 1 a cada una de las 100restantes, de la pagina 2 a las 100 restantes, etcétera. En el ejemplo de la tabla (mostrada másabajo) podemos salir de la pagina 1 hacia las paginas 2, 4 y 5, y como se trata de tres caminosposibles, cada camino tiene una probabilidad de ser usado de 1/3 (recordemos que las salidas seescogen con un dado, es decir, de manera aleatoria).

De la página 2 se puede pasar a la página 4 o a la 6 con probabilidad de 50% en cada caso. Estatabla, que los matemáticos llaman una matriz, se llena con todos estos datos y nos puede servir parasimular que el internauta va leyendo todas las páginas saltando de una a la otra.

En procesos de Markov esta tabla se llama la “matriz de transición” entre estados (las páginas weben este caso). Lo interesante es que se puede calcular el tiempo promedio en el que nuestrointernauta pasaría en cada página sin tener que realizar la simulación de los saltos entre páginas.Para ello se puede calcular la distribución estacionaria asociada a la matriz, lo que nos dadirectamente el tiempo de permanencia promedio de un proceso de Markov en cada estado, esdecir, el tiempo porcentual que nuestro surfeador pasaría en cada página si fuera saltando de una aotra en la forma descrita más arriba.

La matriz de transición de Google es enorme: tiene miles de millones de renglones y de columnas.Es la matriz de datos más grande que se ha recopilado hasta ahora (aunque en la teoría se trabajecon matrices aún más grandes). Es por eso que Google ha reclutado a muchos especialistas enestadística y en métodos de cálculo matriciales: para dar un mejor servicio al usuario tomando encuenta una matriz de datos que todos los días crece de tamaño rompiendo el propio récord del díaanterior. Las computadoras de Google trabajan día y noche calculando los rangos a ser utilizados enlas búsquedas de los usuarios.

La estadística, como se ve, está presente siempre en aspectos tan frecuentes de la vida diaria comoes realizar una simple búsqueda enInternet. m

----------------------------

*Miembro de la Academia Mexicana de Ciencias. Catedrático de Inteligencia Artificial que

pertenece al Departamento de Matemáticas y Ciencias de la Computación de la Universidad

Libre de Berlín, donde obtuvo grado posdoctoral en Ciencias de la Computación y doctorado

summa cum laude en Economía y Ciencias Sociales.

La actualización en tiempo real está pausada. (Continuar)

10:10

10:09

10:09

10:01

09:58

09:57

Elige una sección TodasTodas

Crean “casa inteligente” en España conapps proyectadas en la pared

Presentan explorador interactivo delibros en 3D

Archivo personal de Bolaño, se expone enBarcelona

Kate muestra ‘tímidamente’ su embarazo

Abre dólar a la venta hasta en $12.90 enbancos de la capital mexicana

Geena Davis dice que Seth MacFarlane lefalta el respeto a las mujeres

Ver más

AccederAñadir comentario

Escribe tu comentario aquí.

A TIEMPO MÁS LEÍDAS RECOMENDADAS

REDES SOCIALES

NUESTRAS APLICACIONES

3/5/13 10:21 AMLa matriz de datos más grande del mundo

Page 3 of 4http://www.milenio.com/cdb/doc/impreso/9174146

M Suscríbete por correo electrónico S RSS

Ordenar por lo más popular ahora mismoMostrando 1 comentario

Facebook Twitter

Blogspot Ver PDF

Conago

Benedicto XVI

Ley de Amparo

UPOEG

Pemex

Conagua

Brasil

SME

Policía Comunitaria

Alfonso NavarretePrida

TÓPICOS

Ver más tópicos

Contáctanos Suscripciones Quiénes Somos Aviso de Privacidad Aviso Legal

Acerca de Milenio Sigue en contacto con nosotros

Derechos Reservados © Grupo Milenio 2013Suscríbete a nuestro boletíny recibe todos los días las noticias más relevantes. Déjanos mantenerte informado

Corríjame si estoy mal pero, ¿Qué PageRank no prioritiza en base a qué tan populares sonlas páginas tomando en cuenta las veces que aparecen en otras páginas? Si las páginas B,C, H, M, O, P, R, Z contienen un link a la página A y la página D (asumiendo que las páginasA y D satisfacen el criterio de búsqueda entrado por el usuario) sólo es mencionada en las B,E, I entonces la página A aparecerá antes que la D en el listado.

Full Metal Pizza, Soylent Green is STILL made out of people!!!

Me gusta ResponderHace 2 horas 1 Me gusta

3/5/13 10:21 AMLa matriz de datos más grande del mundo

Page 4 of 4http://www.milenio.com/cdb/doc/impreso/9174146

*Campos requeridosNombre * Apellido * Email *