google - tresna multimediak

12

Upload: endikagarona92

Post on 15-Aug-2015

45 views

Category:

Education


4 download

TRANSCRIPT

Page 1: Google - Tresna Multimediak
Page 2: Google - Tresna Multimediak

2

AURKIBIDEA (Orrialdera joateko izenburuan klikatu)

1. SARRERA ................................................................................................... 3

a. Google Empresa ....................................................................................... 3

b. Google Bilatzailea ..................................................................................... 3

2. FUNTZIONAMENDUA ................................................................................. 4

a. Bilatzailea ................................................................................................. 4

b. Miaketa ..................................................................................................... 6

c. Indexazioa ................................................................................................ 7

d. Algoritmoak............................................................................................... 7

e. Spam-a ..................................................................................................... 8

3. Konklusioa ................................................................................................. 10

4. Bibliografia ................................................................................................. 11

5. ERANSKINAK ............................................................................................ 12

a. Bilatzailearen funtzionamendua.............................................................. 12

Page 3: Google - Tresna Multimediak

3

1. SARRERA

a. Google Empresa

Google Inc enpresaren marka bat da. 1998ko irailean izan zen zabaldua

Larry Page eta Sergey Brin-em eskutik, garai hartan Stanfordeko

Unibertsitateko Konputazio Zientzietako ikasleak. Izenaren jatorria beraz,

zientzia arlotik atera zuten, matematikaren alorretik hain zuzen ere. Izan ere,

Google izenaik oinarrian Googol du. Googol zenbaki zehatz bat da, zeina bat

digitua 100 zeroz jarraituta dagoen. Hau da, era matematikoan 10100 (hamar ber

ehun) den. (informazio gehiagorako klikatu hemen).

Beraien produktu nagusia mundu osoan zehar ezaguna eta oso

estilizatua den Google bilatzailea da, baina Google Inc-ek askoz produktu

gehiago eskaintzen dizkigu erabiltzaileoi. Google Maps, gmail, Google Chrome

eta Android izan daitezke agian ezagunenak, baina badira beste asko.

b. Google Bilatzailea

Bilatzaileak 30 miloi miloi (30.000.000.000.000) web orri batzen ditu, 100

milioi gigabytes kontrolatzen ditu. Hilabetero 100.000 milioi bilaketa egiten dira

bilatzaile honetan eta zenbakia handitzen dihoa. “Crawling” (orri guztietatik

mugitzen da) bidez bereizi eta ordenatzen duten material guztia. Atari

bakoitzeko jabeek erabaki dezakete haien edukia arakatu daitekeen.

Bilatzaileak, formula matematikoen bidez, orriak edukia eta beste faktore

batzuen arabera antolatzen ditu, emaitza onena lortzeko helburuarekin.

Algoritmo horiek jartzen dute martxan bilatzailea, erabiltzaileak bilatu nahi

duena aurkitzeko. Horretarako, akats ortografikoak, “autocompletado” edo

bilaketa alternatiboen proportzioak kontuan hartzen ditu, besteak beste.

Hau guztia kontuan hartu ondoren, emaitzak agertzen dira (200.000 aldagai

erabiltzearen ondorioz). Hala ere, algoritmoak aldatzen doa eta hau Googleko

ingenieroek aldatzen dituzte.

Bestalde, beste ezaugarri batzuk ditu Gooogle bilatzaileak:

1. Klima ezagutu daiteke

2. Burtsaren egoera jakiteko aukera

3. Munduko edozein tokiko ordua

Page 4: Google - Tresna Multimediak

4

4. Kirol emaitzak

5. Unitateen konbertsioa (luzerak adb.)

6. Txanponen konbertsioa

7. Hiztegia

2. FUNTZIONAMENDUA

a. Bilatzailea

Google bilatzea, bilaketa motor bat da google Inc. propietatearena.

Bilatzaile nagusiena da munduan egunero milaka bisita jasotzen ditu. Bilatzaile

honek internet guztiko datuak hartzen

ditu. Gaur egun, hizkuntza askotan

dago bilatzea: txinua, euskara,

ingelesa, gaztelania, frantzesa,

holandesa, japoniarra beste askoren

artean. Egun, google da munduko

base datu handiena.

Googlek jarritako hitzen inguruko orrietara eramaten dizu, beste

bilatzaileekin konparatuta. Honek, zuzenean testuetara eramaten zaitu edo

bestela LINK batzuetara orriarekin erlazionatua dagoela. Google bilatzaileak ez

zaitu bakarrik eramaten jarritako kontenituetara bakarrik. Web orri barrutako

kontenitua aztertu eta antzekotasuna badaukate, bertara eraman zaitezkete.

Googlek garrantzia ematen dio, bilaketaren terminoen antzekotasunei. Beste

bilatzaileen aldean Googlek ez ditu laburpenak egiten, egindako kontsulten

inguruan hartzen ditu testuak.

Googlek datuak memoria ``cache´´ batean gordetzen ditu. Era honetan,

erabiltzaileak datu horietara iristeko aukera izan dezake seguritate kopia

bezala. Honela, bilatzerakoan orduan serbidoreak huts egiten badu

segurtasuneko kopia erabil dezakezu.

Funtzionamendua azaltzeko era sinplea hau da, bilatu nahi dugunaren

inguruan hitz deskritbo batzuk jarri behar ditugu eta sartu teklari sakatu behar

diogu, emaitzak bilatzeko orduan. Googlrk bilatzen ditu web orriak jarritako

hitzekin antzekotasuna dutenak bakarrik.

Page 5: Google - Tresna Multimediak

5

AND kontsulta automatikoak,

Googlek hitzen artean AND

hitza erabiltzerakoan, bakarrik

bi hitzak (edo daudenak)

dituzten webguneak bakarrik

agertzen ditu.

OR erabileraren inguruan,

bilatzerakoan hitzen artean OR

erabiltzerakoan, Googlek hitz

bate do beste dituen

dokumentuak bakarri agertzen

ditu.

Pagerank aztertzerako orduan, Googlek bilakaterako orduan, sartutako

hitzekin dauden orrialde denak, era batera edo bestera antolatu behar ditu.

Googlek honela antolatzen ditu web orri hauek, link kopuruen arabera, link

gehiena dituena lehena azalduko da eta orden honetan joango dira beste

guztiak, linkak agertzen dira, web orri batek bere linka bestearenean jartzen

duenean eta zenbait eta gehiago izan hobeto.

Google bilatzaileak gutxienez 22 karakteristika berezi hitz bakoitzeko,

honek sinonimoak,

prebisio meteorilogiko

eta antzerakoak

azaltzen ditu. Zenbakiak

ere modu ezberdin

atean antolatzen ditu

google bilatzaileak,

interbaloen arabera, 70…73 prezioak, 10,5… temperatura…

(Bilatzailaren inguruko buruz gehiago jakiteko, hemen klik egin)

Page 6: Google - Tresna Multimediak

6

b. Miaketa

Google-k “web miatzailea” bezala ezaguna den softwarea erabiltzen du

jabetza publikoa duten web orrialdeak aurkitzeko. Miatzaile ezagunena

“Googlebot” da. Miatzaileak web orrialdeak eta hauetan azaltzen diren estekak

kontsultatzen dituzte, beste edozein erabiltzailek Web-eko edukietan

nabigatzerakoan egingo luken bezalaxe. Esteka batetik bestera igarotzen dira

eta Google-ko erabiltzaileei eskaintzen zaizkien web orrialde horiei buruzko

datuak biltzen dituzte.

Miaketa prozesua aurretik eginiko miaketetan erabilitako web orrialdeen

eta webguneen jabeek hornituriko “sitemaps”aren zerrenda batekin hasten da.

Webgune hauetara sartzean Googleko miatzaileek estekak bilatzen dizkiete

beste orrialde batzuei honela hauei bisitatu ahal izateko.Softwareak arreta

berezia eskaintzen die gune berriei, egungo guneetan dauden berriei eta ez

aktibo dauden estekei.

Programa informatikoek zehazten dituzte miatu beharreko guneak,

hauek nolako maiztasunarekin miatu eta gune bakoitzean miatu beharreko orri

kopuru zein den. Googlek ez du ordainketarik onartzen gune bat maiztasun

handiagoarekin miatzeko. Gehiago kezkatzen dira ahalik eta emaitz onenak

ateratzen.Izan ere, etorkizun hurbil baterako onena izango baita; bai google-

entzat eta bai bere erabiltzaileentzat ere.

Webgune gehienek ez dute murrizketarik ezarri beharrik miatzeko,

indexatzeko edo edukia argitaratzeko. Beraz, beren orrialdeak bilatzaileko

emaitzetan azal daitezke. Hau esanda, guneetako nagusiek aukera asko dituzte

Google-k bere guneak nola miatzen eta indexatzen dituen jakiteko Googleko

webmasters-entzako lanabesen eta “robots.txt” izeneko fitxategiaren bitartez.

Fitxategi honekin, guneetako nagusiek adierazi dezakete nahiago dutela

Googlebot-ek bere guneak ez miatzea edo bere guneetako orrialdeak

prozesatzeko argibideak ematea.

Guneetako nagusiek miatutako orrialdearen arabera edukia indexatzeko

aukera dute. Adibidez, beraien orrialdeak textuko zatirik gabe azaltzeko aukera

dute( bilatzaileko emaitzetan izenburuaren azpian azaltzen den orrialdearen

Page 7: Google - Tresna Multimediak

7

laburpena) edo miaketa prozesuan dagoen bertsioa (Googleko zerbitzarian

gordetako txandakatze bertsioa, argitaraturiko orrialdea erabiltzeko moduan ez

dagoen unerako). Halaber, webmasters-ak beren orrialdeetan bilaketa

bertakotzeko aukera izan dezake Googleko bilaketa pertsonalizatuaren bitartez.

c. Indexazioa

Web-a milaka liburu dituen eta geroz eta handiagoa den liburutegi

publiko baten modukoa da, artxibo sistemarik gabea. Laburbilduz, Googlek

orrialdeak biltzen ditu miaketa prozesua ematen den artean; eta ondoren,

aurkibide bat sortzen du. Beraz, badakigu zehazki non aurkitu behar dugun.

Liburu baten amaierako aurkibide baten modu berdinean, Googleko aurkibideak

barne hartzen ditu hitzen eta hauek azaltzen diren tokien informazioa.

Oinarrizko maila batean bilaketa bat egiten denean, orrialde egokienak

aurkitzeko gure algoritmoek kontsulta terminoak bilatzen dituzte aurkibidean.

Une honetatik aurrera bilaketa prozesua askoz ere zailagoa bihurtzen da.

Izan ere, “katu” hitza bilatzerakoan ez dugu nahi izaten “katu” hitza ehundaka

aldiz egotea. Gure helburua irudiak, bideoak edo arrazen zerrendak aurkitzea

izango da ziur aski. Googleko indexazio sistemek orrialdeen alderdi ezberdinak

hartzen dituzte kontuan, adibidez: noiz izan den argitaratua, irudi edo bideorik

duten etab. Ezagutza grafikoak hitz klabeen arteko komunztadura baino

haratago joaten uzten digu pertsona,leku edota intereseko gauzak hobeto

ulertzeko.

d. Algoritmoak

Googlek bi algoritmo erabiltzen ditu bilaketa egiterakoan: lehenik

garrantzia algoritmoa (“algoritmo de relevancia”) erabiltzen du eta PageRank

algoritmoa ondoren.

Garrantzi algoritmoaren bidez, Google-k bilatzen diren hitzekin

erlazionatuak dauden orriak aurkitzen ditu. Horretarako, bilatzen diren hitzak

web orri batean non eta zenbat aldiz agertzen diren aztertzen du. Analisi hau

“hitz gakoen dentsitatea” kalkulatuz egiten da (orrian dauden hitz gako kopurua,

orriko hitz kopuruarekin zatituz; ehunekotan adierazten da). Beraz, dentsitatea

Page 8: Google - Tresna Multimediak

8

handia bada, emaitza onak lortuko dira (hala ere, handiegia bada, bilatzaileak

orria zigortzen du). Gainera, hitz guztiak ez dira berdin balioztatzen: gehien

balioztatzen diren hitzak URL, orriaren tituluan, esteketan, hitz loditan edo

goiburuan agertzen direnak dira. Dentsitatea kalkulatzeko orriak aurki ditzakegu

(adb. Adworks).

PageRank Google-k sortu eta erabiltzen duen algoritmoa da. Algoritmo

honek web orriak balioztatzen ditu emaitzak lortzeko. Orriak 1 eta 10 artean

balioztatzen ditu, 1 balioztatze txikiena da, eta 10 handiena; orri batek 0

balioztatzea badu, orria berria delako edo zigortu duelako da. Google-n

bilatzaile software-a algoritmo honetan oinarritzen da bilaketaren emaitzak

aurkezteko. PageRank balioztatze handia duten orriak agertuko dira lehenik. 5

balioztatzetik aurrerakoa orriak garrantzitsuak izango dira Google-entzat.

PageRank parametro batzuen arabera kalkulatzen da:

Web gune batera doazen hiperesteka kopurua. Esteka bakoitza boto bat

bezala kontsideratzen du; beraz, gero eta boto gehiago, orduan eta emaitzetan

kokaleku onagoa.

Botoa ematen duen web gunea: esteka duen web guneak PageRank

handia badu, bere botoak balio handiagoa du.

Esteka duten web guneen gaia: estekak gai berdina duten web guneen

artean egiten bada, PageRank-entzat balio handiagoa du.

e. Spam-a

Spam lekuak bilaketetan aurreneko postuetan ateratzen saiatzen dira,

hitz klabeak errepikatuz, testu ikusezina erebiliz edota estekak erosiz. Hori

txarra da bilaketarentzat, izan ere berez testu garrantzitsuak direnei lekua

kentzen diete.

Nahiz eta horiek izan erabilienak, beste hainbat ere badaude. Jarraian

agertzen dira gehien agertzen diren Spam motak:

Page 9: Google - Tresna Multimediak

9

1. Hipertestu berbideratzaile “gaiztoak”: Lekuak, eduki desberdina

erakusten dio bilatzaileari eta erabiltzaileei, baita erabiltzaileei beste

orrialde batzuei berbideratu.

2. Leku Komprometituak: Beste hirugarren pertsona batek orrialdea

hackeatzean gertatu ohi da.

3. Testu ikusezina eta hitz gako gehiegi

4. Dominio aparkatuak: Dominio aparkatuak berezko eduki gutxi du

eta, hori dela eta, Googlek ez ditu bilaketetan sartzen.

Horren kontra borroka egiteko, Googlek bere sorkuntzatik asko dira

hartutako neurriak. 2007an eratorritako spam-ari aurre egiteko, hauek sailkatu

eta datuen formatua hobetu zuten. Hori dela eta, eratorritako elementuen spam-

a desagertu zen (grafikoko marra gorria). Honen desagertzearekin, beste spam

mota bat agertu zen: Spam Agresiboa (kolore urdina). Hurrengo eguneratzeak

horri aurre egiteko bideratuak egon dira.

2009an iruzurrezko hipertestuak gutxitzen saiatu ziren baita leku

komprometituen handiagotzearen kontra egin. Azken eguneratzea Spam-aren

kontrakoa 2012ko Apirilekoa da. Algoritmo berrikuntza bat egin zute. Honi,

“Penquin” kodea deitu zioten eta horrekin spam taktikak erabiltzen dituzten

Page 10: Google - Tresna Multimediak

10

webguneei puntuazioak jaisten zaizkie. (Penquin kodeari buruz gehiago

jakiteko, klik egin hemen.)

3. Konklusioa

Lan honen ondorioz, Google hobeto ezagutzea lortu dugu. Egunero

erabiltzen dugun tresna da, baina ez genekien zehazki bere funtzionamendua

nolakoa zen; bere egitura ezagutzea ahalbidetu digu, baita bilatzaileak dituen

prozesuak ere.

Googlek dituen aukera eta abantailak ikaragarriak dira, eta bilatzen

duenarentzat erosoa da sarean ibiltzea bilatzaile honen bidez. Zehazki bilatu

nahi dena aurkitzeko erabiltzen dituen prozesu eta algoritmoak zein diren ikusi

ondoren ohartu gara Googlen arrakastaren arrazoia zein izan den:

erabiltzaileak bilatu nahi duena bilatzen du, oso era eraginkorrean.

Page 12: Google - Tresna Multimediak

12

5. ERANSKINAK

a. Bilatzailearen funtzionamendua