:: Apunts sobre cercadors::
PANORAMA DE CERCADORS
SearchEngineWatch (Dani
Sullivan) ens dóna informació útil sobre els cercadors
que hi ha i les seves característiques.
Pel que fa a l'origen de les dades indexades h¡ ha dos tipus
de cercadors:
- basats en editors humans; persones que introdueixen informació
o classifiquen la base de dades
- crawler-based o spider-based; o sigui, basats en robots de
software que cerquen la informació pels servidors i sistemes
automatitzats de classificació.
Sembla que per ara els crawler-based han superat ampliament als directoris
creats per persones, que sobreviuen combinats als primers, donant rellevància
o corregint certa informació. Els sistemes automatitzats han unit
a a la incansable tasca de les seves "aranyes" algorismes que
destaquen determinats sites a partir del comportament de l'usuari del
propi buscador.
Actualment el líder indiscutible dels buscadors és
google. Per què?
Potser perquè...
- Utilitza l'algorisme PageRank (desenvolupat pels seus fundadors
a la Universitat de Stanford) que dóna més rellevància
a les pàgines que reben més enllaços i alhora es
retroalimenta donant més valor als enllaços que surten
d'aquestes.
- Té un ampli directori acumulat i l'actualitza a una velocitat
prou bona
- És popular; o sigui, molt visitat; això retroalimenta
el seu funcionament basat en les decisions dels usuaris.
- Cada cop té menys compentència.
...o potser no.
Sobre PageRank crec que és útil mencionar:
Altres cercadors importants, a part de google, són:
- Motors de cerca crawler-based:
- Alltheweb: motor
de cerca crawler-based | segons Sullivan
el segon millor, diu que pertany a FAST; però al © consta
Overture S. Inc. Overture ha esta comprat per Yahoo.
- Teoma: motor de cerca
crawler-based | té un índex encara menor als altres.
Pertany a Ask Jeeves.
- Inktomi: motor de
cerca crawler-based. Propietat de Yahoo. Proveeix a MSN
Search entre d'altres.
- Basats en editors humans:
- Open Directory Project:
community-based; basat en la feina de milers de voluntaris; és
el més complet. Google l'utilitza per al seu Google
Directory (que és jerarquitzat
per PageRank). Propietat de Netscape-AOL; pot ser utilitzat
per tothom perquè utilitza una llicència oberta.
- Zeal: community-based;
basat en la feina de voluntaris; propietat de LookSmart, li proveeix
les ref. no-comercials.
- Meta-cercadors (n'utilitzen d'altres com a motor de cerca i/o
font de dades) i semi-meta-cercadors:
- Yahoo: inicialment
directori editat per humans; des de 2002 passa
a utilitzar principalment google (teòricament
creuat amb les seves dades) i segueix mantenint un directori revisat
per persones.
- Ask Jeeves: permet preguntes
en "llenguatge natural"; utilitza Teoma com a motor
- MSN Search: utilitza
una barreja de directori d'editors humans (propis i de LookSmart)
i de crawler-based (utilitzant Inktomi).
- AOL search:
utilitza google, només en la seva versió interna
(pels clients a qui ofereix connexió a internet) amplia les
prestacions.
- Lycos: abans un crawler-based
amb motor propi; ara basat en Alltheweb. Pertany a Terra-Lycos.
- HotBot: meta-cercador
sobre AllTheWeb.com/FAST, Google, Inktomi i
Teoma. Pertany a Terra-Lycos.
- Nous projectes:
- The Wondir: community-based;
en fase beta; sistema de preguntes en "llenguatge natural"
amb respostes d'altres usuaris. Veure explicació.
- Nutch: projecte
de fer un motor de cerca open-source equiparable a google.
Molts d'aquests buscadors utilitzen publicitat per posicionament.
Això vol dir que qui paga més surt més amunt en el
ranking o bé surt abans del ranking no-comercial. Les pàgines
que han pagat solen sortir marcades com a "patrocinadores".
Evidentment aquest és un factor que distorsiona qualsevol resultat
i que en sistemes com el de google fa que les pàgines de publicitat
tinguin més possibilitats de ser clicades i s'introdueixin en el
ranking normal.
Sobre els sistemes de cerca i la millor manera de ser visibles podem
fer un cop d'ull al debat: Google
versus Fast (AllTheWeb)
GOOGLE-WATCH
Daniel Brandt posa en marxa la pàgina google-watch.org
i la societat sense ànim de lucre Public
Information Research Inc. Ho fa per denunciar la política de
privacitat de google que utilitza cookies (que caduquen el 2038!!) per
crear una gran base de dades sobre les cerques que fem. També denuncia
altres aspectes de la actuació de google, de la seves relacions
amb el gover americà i els serveis d'inteligència i de la
concentració que s'està donant en el sector:
why we target google.
La motivació de Brandt ha estat controbertida i un tal Chris Beasley
que "estima google" ha creat google-watch-watch.org.
De totes maneres, com diu una internvenció a webmasterworld.com
google-watch és útil per vàries coses:
- Proxy: Ofereix la possibilitat de fer una cerca
a sobre Google anònima i sense publicitat (ho feia també
sobre Alltheweb però sembla que per temes tècnics no pot
seguir fent-ho).
- Gookie:
et permet mirar que hi ha dins una cookie que Google t'ha posat al teu
ordinador i t'explica com configurar el navegador per fer una cerca
a Google amb les cookies deshabilitades.
- Who owns
that IP? Et permet saber a qui pertany una IP o saber quines IP
tenen una llarga llista de propietaris.
Google-watch es converteix, doncs, en una alternativa real de cerca.
No sembla que hi hagi hagut cap intent de resoldre el "conflicte"
entre google i googe-watch; de fet sembla que google ignori el segon.
Tampoc hem trobat informació de que hi hagi cap procés legal
per cap de les dues parts.
No hem trobat crítiques del tipus google-watch, referent a altres
cercadors, però no n'he trobat, bàsicament trobo comparatives.
Hi ha algunes iniciatives per part del moviment de software lliure
per fer un cercador amb criteris de tecnologia oberta i garantir la
privacitat, però tampoc sembla que sigui una prioritat ni que
hagi saltat l'alarma.
|