3/5/13 10:21 AMLa matriz de datos más grande del mundo
Page 1 of 4http://www.milenio.com/cdb/doc/impreso/9174146
TwittearTwittear 3
Like 11
0
INVITADO Raúl Rojas
2013-03-05 • POLÍTICA
Google no inventó las máquinas de búsqueda, pero pudo convertirse en lamáquina más usada debido, sobre todo, al método de clasificación deresultados llamado “Page Rank”.
Recordemos: las primeras máquinas de búsqueda fueron Altavista ydespués Inktomi. Lo que hacían estos servicios era “leer” toda la web.Revisaban página por página almacenándolas en una supercomputadora oen una red de (computadoras) PC, para poder después ofrecerlas comoresultado de las búsquedas.
Google, sin embargo, introdujo algo muy importante: la clasificación de la“importancia” relativa de las páginas. Si Altavista respondía a un rastreocon 100 resultados sin jerarquía, Google respondía con 100 resultados, pero los primeros en la listaeran los más relevantes, de acuerdo con la popularidad de las páginas.
La estrategia utilizada por Google es lo que en la estadística se conoce como un “modelo deMarkov”, en honor al matemático ruso Andrey Markov (1856-1922). Una cola en el banco, porejemplo, es un modelo de Markov. En la cola vamos avanzando poco a poco, de un “estado” alsiguiente, hasta “salir” a la ventanilla.
El tiempo que pasamos en cada “estado” (es decir, la posición específica en la cola) es aleatorio ydepende de cómo van siendo atendidos los usuarios. Un problema importante para un proceso deMarkov como éste es, por ejemplo, el largo promedio de la cola durante un día.
Los dos fundadores de Google, Larry Page y Sergey Brin, tuvieron la siguiente idea: si un internautacomienza en una página de internet y va saltando de esa página a otra (siguiendo las ligas en lapágina y escogiendo una liga específica usando un dado) irá recorriendo toda la red.
Si llega a una página web sin salida (sin ligas para continuar), elige otra página cualquiera y siguesurfeando por la red. Ahora bien, si el internauta repite este procedimiento una y otra vez, habrápáginas a las que solo entrará muy ocasionalmente y otras páginas que serán visitadas muchasveces. Las páginas más visitadas son aquellas que tienen más y mejores vías de entrada, es decir,aquellas a las que muchas otras páginas importantes apuntan.
Si el internauta se queda un segundo en cada página antes de saltar a la siguiente, ¿cuáles son laspáginas en las que pasaría más tiempo en total? Este tiempo de permanencia promedio en la páginaen este proceso de saltos aleatorios es lo que Page y Brin llamaron el “rango” o importancia de lapágina. Las páginas de mayor rango son aquellas que se le presentan primero al usuario de Google,
La matriz de datos más grande del mundo
PERFIL
Raúl RojasInvitado
FIRMAS ANTERIORES
Ver más
VER EN VIVO
Milenio Noticias
DESPUÉS
Bienes Ecoforestales: Elproyecto
Edición: Nacional Edición Impresa La Afición.com Milenio Televisión
Martes, 05 de Marzo de 2013
Escribe aquí tu búsqueda BuscarBuscarCd. de México 12°C 7 Mín 26 Máx
ShareShare
3/5/13 10:21 AMLa matriz de datos más grande del mundo
Page 2 of 4http://www.milenio.com/cdb/doc/impreso/9174146
es decir, aquellas que el hipotético internauta visitaría más frecuentemente.
Obviamente que este método de cálculo de la importancia de las páginas web requiere demuchísimas horas de procesamiento. Hay millones y millones de páginas en internet. Estar saltandode una a otra, como pide el algoritmo, sería demasiado engorroso.
Entonces, lo que se puede hacer para simplificar los cálculos es utilizar una técnica clásica en elestudio de procesos de Markov. Para ello se requiere definir una tabla de “transiciones”. Si solohubiera 100 páginas web, por ejemplo, se podría armar una tabla de 100 renglones por 100columnas.
En esa tabla se anota cuál es la probabilidad de saltar de la pagina 1 a cada una de las 100restantes, de la pagina 2 a las 100 restantes, etcétera. En el ejemplo de la tabla (mostrada másabajo) podemos salir de la pagina 1 hacia las paginas 2, 4 y 5, y como se trata de tres caminosposibles, cada camino tiene una probabilidad de ser usado de 1/3 (recordemos que las salidas seescogen con un dado, es decir, de manera aleatoria).
De la página 2 se puede pasar a la página 4 o a la 6 con probabilidad de 50% en cada caso. Estatabla, que los matemáticos llaman una matriz, se llena con todos estos datos y nos puede servir parasimular que el internauta va leyendo todas las páginas saltando de una a la otra.
En procesos de Markov esta tabla se llama la “matriz de transición” entre estados (las páginas weben este caso). Lo interesante es que se puede calcular el tiempo promedio en el que nuestrointernauta pasaría en cada página sin tener que realizar la simulación de los saltos entre páginas.Para ello se puede calcular la distribución estacionaria asociada a la matriz, lo que nos dadirectamente el tiempo de permanencia promedio de un proceso de Markov en cada estado, esdecir, el tiempo porcentual que nuestro surfeador pasaría en cada página si fuera saltando de una aotra en la forma descrita más arriba.
La matriz de transición de Google es enorme: tiene miles de millones de renglones y de columnas.Es la matriz de datos más grande que se ha recopilado hasta ahora (aunque en la teoría se trabajecon matrices aún más grandes). Es por eso que Google ha reclutado a muchos especialistas enestadística y en métodos de cálculo matriciales: para dar un mejor servicio al usuario tomando encuenta una matriz de datos que todos los días crece de tamaño rompiendo el propio récord del díaanterior. Las computadoras de Google trabajan día y noche calculando los rangos a ser utilizados enlas búsquedas de los usuarios.
La estadística, como se ve, está presente siempre en aspectos tan frecuentes de la vida diaria comoes realizar una simple búsqueda enInternet. m
----------------------------
*Miembro de la Academia Mexicana de Ciencias. Catedrático de Inteligencia Artificial que
pertenece al Departamento de Matemáticas y Ciencias de la Computación de la Universidad
Libre de Berlín, donde obtuvo grado posdoctoral en Ciencias de la Computación y doctorado
summa cum laude en Economía y Ciencias Sociales.
La actualización en tiempo real está pausada. (Continuar)
10:10
10:09
10:09
10:01
09:58
09:57
Elige una sección TodasTodas
Crean “casa inteligente” en España conapps proyectadas en la pared
Presentan explorador interactivo delibros en 3D
Archivo personal de Bolaño, se expone enBarcelona
Kate muestra ‘tímidamente’ su embarazo
Abre dólar a la venta hasta en $12.90 enbancos de la capital mexicana
Geena Davis dice que Seth MacFarlane lefalta el respeto a las mujeres
Ver más
AccederAñadir comentario
Escribe tu comentario aquí.
A TIEMPO MÁS LEÍDAS RECOMENDADAS
REDES SOCIALES
NUESTRAS APLICACIONES
3/5/13 10:21 AMLa matriz de datos más grande del mundo
Page 3 of 4http://www.milenio.com/cdb/doc/impreso/9174146
M Suscríbete por correo electrónico S RSS
Ordenar por lo más popular ahora mismoMostrando 1 comentario
Facebook Twitter
Blogspot Ver PDF
Conago
Benedicto XVI
Ley de Amparo
UPOEG
Pemex
Conagua
Brasil
SME
Policía Comunitaria
Alfonso NavarretePrida
TÓPICOS
Ver más tópicos
Contáctanos Suscripciones Quiénes Somos Aviso de Privacidad Aviso Legal
Acerca de Milenio Sigue en contacto con nosotros
Derechos Reservados © Grupo Milenio 2013Suscríbete a nuestro boletíny recibe todos los días las noticias más relevantes. Déjanos mantenerte informado
Corríjame si estoy mal pero, ¿Qué PageRank no prioritiza en base a qué tan populares sonlas páginas tomando en cuenta las veces que aparecen en otras páginas? Si las páginas B,C, H, M, O, P, R, Z contienen un link a la página A y la página D (asumiendo que las páginasA y D satisfacen el criterio de búsqueda entrado por el usuario) sólo es mencionada en las B,E, I entonces la página A aparecerá antes que la D en el listado.
Full Metal Pizza, Soylent Green is STILL made out of people!!!
Me gusta ResponderHace 2 horas 1 Me gusta