arquitectura de google · arquitectura de google universidad de costa rica escuela de ciencias de...

16
Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides

Upload: others

Post on 09-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Arquitectura de Google

Unive

rsidad

de Cos

ta R

ica

Escue

la de Cienc

ias de

la C

ompu

tación

e Informática

M.Sc. K

ryscia D

aviana

Ram

írez

Ben

avides

Page 2: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Introd

ucción

�Goo

gle fue fund

ada el 7 de septiembre de

199

8 po

r Larry

Pag

e y Serge

y Brin.

�Goo

gle se enfoc

óen

:�

Pon

er entre la

s prim

eras diez pá

gina

s lo que

el u

suario promed

io está

buscan

do.

�Con

struir un sistem

a qu

e la m

ayoría de las pe

rson

as pue

dan utilizar

sin prob

lemas.

�Gua

rdar to

dos los do

cumen

tos qu

e se enc

uentren en

el rastreo

.

2

Page 3: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Introd

ucción

(co

nt.)

Primera oficina de

Goo

gle.

Con

sigu

ióha

cer func

iona

r va

rias

máq

uina

s totalm

ente diferen

tes co

n un

im

presiona

nte rend

imiento.

Una

máq

uina

hecha

a m

edida,

con tech

o de

LEGO.

Go lego!!! ⇒ ⇒⇒⇒Google!!!

3Tom

ado de

http://roya

l.pingd

om.com

/200

9/03

/02/original-goo

gle-setup-at-stanford-un

iversity/.

Page 4: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Características

�Sus

princ

ipales ven

tajas se deb

en a que

es muy

ráp

ido, y sus

resu

ltad

os son

relev

antes y ba

stan

te bien orde

nado

s.

�Para jerarquizar su

s pá

gina

s utiliza dive

rsos

factores tales

como mod

elo ve

ctorial, texto de

enlaces, Page Rank.

�Goo

gle an

aliza más de 10

0 factores para de

term

inar la

releva

ncia de un

a pá

gina

Web

.�

Entre ello

s, destacan el te

xto de

l enlace (anchor text), el tam

año de

la

fuen

te y la

proximidad

.

4

Page 5: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Características (co

nt.)

�Goo

gle inde

xa m

ás de 3 mil m

illone

s de

pág

inas W

eb, a

unqu

e ofrece

n más resultado

s gracias a los “rastreo

s profun

dos”.

�Hay

varios “rastreado

res”

(crawlers):

�El g

eneral (un

a ve

z al m

es), que

busca en la m

ayoría de la W

WW

.

�El Fresh, q

ue rastrea en las pá

gina

s qu

e se actua

lizan frecue

ntem

ente.

�El d

e no

ticias, q

ue rastrea cad

a 10

minutos.

5

Page 6: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Características (co

nt.)

�Hay

4 tipo

s de

servido

res en

el c

lúster de Goo

gle, situa

dos en

pa

ralelo del servido

r W

eb:

6Tom

ado de

http://es.w

ikiped

ia.org/w

iki/Plataform

a_de

_Goo

gle.

Page 7: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Arquitectura de

Goo

gle

Links

Anc

hors

(Anc

las)

Rep

osito

ry(A

lmac

én)

Diccion

ario

Índice

de

Doc

umen

tos

Servido

r de

URLs

Crawlers

Crawlers

Crawlers

Servido

r de

Alm

acen

amiento

Inde

xado

r

Barrels

Resolve

dor de

URLs

Pag

eRan

kBus

cado

r

Clasifica

dor

(Orden

ador)

Clasifica

dor

(Orden

ador)

Clasifica

dor

(Orden

ador)

7Tom

ado de

http://infolab.stan

ford.edu

/~ba

ckrub/go

ogle.htm

l.

Page 8: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Hardware

�Esp

ecificacione

s de

l hardware

del a

ño 200

3:�

Más de 15

.000

servido

res co

n ve

locida

des co

mpren

dida

s en

tre el

Intel C

eleron

de 53

3 MHz y el Pen

tium III a 1,4 G

Hz du

al (a fech

a de

200

3). S

egún

Pau

l Strassm

an, G

oogle tend

ría en

200

5 un

os

200.00

0 servidores m

ientras qu

e algu

nas fuen

tes indican qu

e el

número de

servido

res po

dría hab

er alcan

zado

los 45

0.00

0 en

200

6.

�Uno

o m

ás disco

s du

ros de

80 GB por servido

r (en 20

03).

�Entre 2 y 4 G

B de mem

oria por m

áquina

.

8

Page 9: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Hardware

(con

t.)

�El tam

año ex

acto de los ce

ntros de

datos

que

Goo

gle utiliza es

descon

ocido, y la

s cifras oficiales se man

tien

en poc

o precisas

intenc

iona

damen

te.

�Seg

ún una

estim

ación de

l año

200

0, la

granja de

servido

res de

Goo

gle estaba

com

puesta por 600

0 proc

esad

ores, 1

2.00

0 discos

duros IDE (do

s po

r máq

uina

).�

Cad

a centro te

nía un

a co

nexión

de fibra óp

tica de

248

8 Mbit/s y otra

de 622

Mbit/s

.

�Los

servido

res ejecutan

un software llam

ado Goo

gle W

eb Serve

r.

9

Page 10: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Hardware

(con

t.)

�Actua

lmen

te G

oogle está

desarrolland

o un

sup

erco

mpu

tado

r en

un ce

ntro de da

tos en

Dallas.

�El p

roye

cto se llam

a Proyecto O2y se esp

era qu

e increm

ente

sustan

cialmen

te la

cap

acidad

de su

red

globa

l actua

l, pe

rmitiend

o ejec

utar m

iles de millone

s de

bús

qued

as al d

ía y

un catálog

o de

otros

servicios

que

cad

a ve

z crece más.

10

Page 11: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Top

olog

ía de Red

�Se estima qu

e Goo

gle man

tien

e más de 45

0.00

0 servidores,

orde

nado

s en

racksde

clustersen

varias ciud

ades del m

undo

.

�Es po

r eso qu

e Goo

gle pu

ede ofrece

r un

servicio más ráp

ido a

los us

uarios

.�

En el año

200

5 Goo

gle ha

bía inde

xado

8.000

millone

s de

sitios W

eb.

�Cua

ndo se hac

e co

nexión

a G

oogle, lo

s servidores D

NS

trad

ucen

la dirección

www.google.com

a va

rias IP's distintas,

perm

itiend

o qu

e se distribuy

a la carga

entre varios clusters.

11

Page 12: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Top

olog

ía de Red

(co

nt.)

�Cad

a cluster

tien

e miles de servidores.

�Los

racksde

Goo

gle están he

chos

a m

edida y pu

eden

con

tene

r en

tre 40

y 80 servidores.

�Cad

a rack

tiene

una

con

exión ethernet

a un

routerlocal q

ue a su ve

z se con

ecta al routercentral u

tilizan

do una

con

exión de

1 G

igab

it.

�Un rack

es algo asíc

omo: 88 du

al-C

PU 2Ghz

servido

res Intel X

eon

con 2G

bytes de

RAM y un disco du

ro de 80

Gby

tes.

12

Page 13: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Top

olog

ía de Red

(co

nt.)

13

Un centro de da

tos do

nde

se pue

den ve

r va

rios racks.

Arquitectura típ

ica de

un

balanc

eado

r de

carga

.

Tom

ado de

http://es.w

ikiped

ia.org/w

iki/Plataform

a_de

_Goo

gle.

Page 14: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Ope

racion

es de los Servido

res

�La may

oría de op

eracione

s so

n de

solo lectura.

�En la actua

liza

ción

de da

tos, la

s co

nsultas se env

ían a otros

servidores, p

ara simplificar lo

s prob

lemas de co

nsistenc

ia.

�Las con

sulta

s se dividen

en subc

onsulta

s y se env

ían po

r diferentes

cana

les en

paralelo, red

uciend

o asíe

l tiempo

de latenc

ia.

�En los fallos de ha

rdware se utiliza te

cnolog

ía R

AID

.�

El s

oftw

are también

estádiseña

do para ge

stiona

r los fallo

s.

�Cua

ndo un

servido

r se cae, los datos to

davía están dispon

ibles en

otros servidores.

Los

racksde

Goo

gle están he

chos

a m

edida y pu

eden

con

tene

r 14

Page 15: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Implem

entación

�Los

leng

uajes de

program

ación utilizad

os son

:�

La am

plia m

ayoría de los mód

ulos que

com

pone

n la arquitectura

están im

plem

entado

s en

C y C

++.

�Ejecu

ción

sob

re Solaris y Linux

.

�Los

Crawlers

y el Servido

r de

URLs están im

plem

entado

s en

Perl.

15

Page 16: Arquitectura de Google · Arquitectura de Google Universidad de Costa Rica Escuela de Ciencias de la Computación e Informática M.Sc. Kryscia Daviana Ramírez Benavides. Introducción

Referen

cias B

ibliog

ráfica

s

�La inform

ación fue tomad

a de

:�

http://es.wikiped

ia.org/w

iki/G

oogle.

�http://en.wikiped

ia.org/w

iki/G

oogle_

platform

.

�http://w

ww.m

axglaser.net/arquitectura-original-de-go

ogle/.

�http://w

ww.promoc

iona

rweb

.com

/goo

gle/arqu

itectura.htm

.

�http://w

ww-gist.d

et.uvigo

.es/~m

artin/ns

t/goo

gle.pd

f.

�http://goo

gle.dirson

.com

/.

�http://roy

al.pingd

om.com

/200

9/03

/02/original-goo

gle-setup-at-

stan

ford-unive

rsity

/.

16