enlloc > argelaga > apunts cercadors
Argelaga: Arbust fortament espinós de la família de les papilionàcies (Genista scorpius), de fulles simples i escasses i de petites flors grogues agrupades en ramells.
[Diccionari de la Llengua Catalana - Enciclopedia Catalana Ed.1994]

 

 

 

 

 

:: Apunts sobre cercadors::

PANORAMA DE CERCADORS

SearchEngineWatch (Dani Sullivan) ens dóna informació útil sobre els cercadors que hi ha i les seves característiques.

Pel que fa a l'origen de les dades indexades h¡ ha dos tipus de cercadors:

  • basats en editors humans; persones que introdueixen informació o classifiquen la base de dades
  • crawler-based o spider-based; o sigui, basats en robots de software que cerquen la informació pels servidors i sistemes automatitzats de classificació.

Sembla que per ara els crawler-based han superat ampliament als directoris creats per persones, que sobreviuen combinats als primers, donant rellevància o corregint certa informació. Els sistemes automatitzats han unit a a la incansable tasca de les seves "aranyes" algorismes que destaquen determinats sites a partir del comportament de l'usuari del propi buscador.

Actualment el líder indiscutible dels buscadors és google. Per què?

Potser perquè...

  • Utilitza l'algorisme PageRank (desenvolupat pels seus fundadors a la Universitat de Stanford) que dóna més rellevància a les pàgines que reben més enllaços i alhora es retroalimenta donant més valor als enllaços que surten d'aquestes.
  • Té un ampli directori acumulat i l'actualitza a una velocitat prou bona
  • És popular; o sigui, molt visitat; això retroalimenta el seu funcionament basat en les decisions dels usuaris.
  • Cada cop té menys compentència.

...o potser no.

Sobre PageRank crec que és útil mencionar:

Altres cercadors importants, a part de google, són:

  • Motors de cerca crawler-based:
    • Alltheweb: motor de cerca crawler-based | segons Sullivan el segon millor, diu que pertany a FAST; però al © consta Overture S. Inc. Overture ha esta comprat per Yahoo.
    • Teoma: motor de cerca crawler-based | té un índex encara menor als altres. Pertany a Ask Jeeves.
    • Inktomi: motor de cerca crawler-based. Propietat de Yahoo. Proveeix a MSN Search entre d'altres.
  • Basats en editors humans:
    • Open Directory Project: community-based; basat en la feina de milers de voluntaris; és el més complet. Google l'utilitza per al seu Google Directory (que és jerarquitzat per PageRank). Propietat de Netscape-AOL; pot ser utilitzat per tothom perquè utilitza una llicència oberta.
    • Zeal: community-based; basat en la feina de voluntaris; propietat de LookSmart, li proveeix les ref. no-comercials.
  • Meta-cercadors (n'utilitzen d'altres com a motor de cerca i/o font de dades) i semi-meta-cercadors:
    • Yahoo: inicialment directori editat per humans; des de 2002 passa a utilitzar principalment google (teòricament creuat amb les seves dades) i segueix mantenint un directori revisat per persones.
    • Ask Jeeves: permet preguntes en "llenguatge natural"; utilitza Teoma com a motor
    • MSN Search: utilitza una barreja de directori d'editors humans (propis i de LookSmart) i de crawler-based (utilitzant Inktomi).
    • AOL search: utilitza google, només en la seva versió interna (pels clients a qui ofereix connexió a internet) amplia les prestacions.
    • Lycos: abans un crawler-based amb motor propi; ara basat en Alltheweb. Pertany a Terra-Lycos.
    • HotBot: meta-cercador sobre AllTheWeb.com/FAST, Google, Inktomi i Teoma. Pertany a Terra-Lycos.
  • Nous projectes:
    • The Wondir: community-based; en fase beta; sistema de preguntes en "llenguatge natural" amb respostes d'altres usuaris. Veure explicació.
    • Nutch: projecte de fer un motor de cerca open-source equiparable a google.

     

Molts d'aquests buscadors utilitzen publicitat per posicionament. Això vol dir que qui paga més surt més amunt en el ranking o bé surt abans del ranking no-comercial. Les pàgines que han pagat solen sortir marcades com a "patrocinadores". Evidentment aquest és un factor que distorsiona qualsevol resultat i que en sistemes com el de google fa que les pàgines de publicitat tinguin més possibilitats de ser clicades i s'introdueixin en el ranking normal.

Sobre els sistemes de cerca i la millor manera de ser visibles podem fer un cop d'ull al debat: Google versus Fast (AllTheWeb)

GOOGLE-WATCH

Daniel Brandt posa en marxa la pàgina google-watch.org i la societat sense ànim de lucre Public Information Research Inc. Ho fa per denunciar la política de privacitat de google que utilitza cookies (que caduquen el 2038!!) per crear una gran base de dades sobre les cerques que fem. També denuncia altres aspectes de la actuació de google, de la seves relacions amb el gover americà i els serveis d'inteligència i de la concentració que s'està donant en el sector: why we target google.

La motivació de Brandt ha estat controbertida i un tal Chris Beasley que "estima google" ha creat google-watch-watch.org. De totes maneres, com diu una internvenció a webmasterworld.com google-watch és útil per vàries coses:

  • Proxy: Ofereix la possibilitat de fer una cerca a sobre Google anònima i sense publicitat (ho feia també sobre Alltheweb però sembla que per temes tècnics no pot seguir fent-ho).
  • Gookie: et permet mirar que hi ha dins una cookie que Google t'ha posat al teu ordinador i t'explica com configurar el navegador per fer una cerca a Google amb les cookies deshabilitades.
  • Who owns that IP? Et permet saber a qui pertany una IP o saber quines IP tenen una llarga llista de propietaris.

Google-watch es converteix, doncs, en una alternativa real de cerca.

No sembla que hi hagi hagut cap intent de resoldre el "conflicte" entre google i googe-watch; de fet sembla que google ignori el segon. Tampoc hem trobat informació de que hi hagi cap procés legal per cap de les dues parts.

No hem trobat crítiques del tipus google-watch, referent a altres cercadors, però no n'he trobat, bàsicament trobo comparatives.

Hi ha algunes iniciatives per part del moviment de software lliure per fer un cercador amb criteris de tecnologia oberta i garantir la privacitat, però tampoc sembla que sigui una prioritat ni que hagi saltat l'alarma.

 

v.0.0.1 David Gómez 2003