les MetaCités - logo

Google : le premier moteur de recherche de l'internet

Google Dans un marcher hyper-concurentiel que l'on considérait comme saturé et entièrement dominé par des géants comme AltaVista et Inktomi, le moteur de recherche Google a su s'imposer en quelques mois pour devenir le moteur de recherche le plus utilisé de l'Internet.

Techniquement

Google est un cluster Beowulf, plus de 5 000 PC tournant sous Linux en parallèle. Admirable, et surtout gratuit : les logiciels sont des logiciels GNU : open source et dont l'utilisation est gratuite. Une belle réussite pour les logiciels libres.

Google connait plus de 2 miliards de pages web.

Pages similaires

Je suis assez bluffé par cette recherche sur Google

Google trouve tout seul les pages similaires à www.liberation.fr et la réponse est remarquablement exacte : on tombe sur le Monde, le Monde Diplo, les Echos, le Figaro, TF1, Nouvel Obs, ...

Bien sur, Google ne "comprend" pas (encore :-) les sites qu'il lit, donc il se base sur l'information incluse dans le web (ou plus certainement les liens du web). Comme tous ces sites sont plutot en concurrence, j'imagine qu'ils ne pointent pas trop les uns vers les autres. Pour Google, un site similaire à un site A n'est donc pas un site qui a des liens avec le site A. J'imagine que la
fonction "similarité" de Google, c'est :

Ensemble B : Je prends l'ensemble des pages qui pointent vers A.
Ensemble C : Maintenant je prends l'ensemble des pages cibles des pages de l'ensemble B.

Il suffit de classer les pages de C par nombre de liens depuis l'ensemble B et hop, l'affaire est faite (enfin, c'est mon hypothèse à 2 euros).

Moralité : la structure même du web permet de SAVOIR que les sites similaires à Libération sont Le Monde, etc ... l'information qui permet de trouver la similarité de deux sites n'est pas une information écrite dans les pages, mais inscrite dans la structure hypertexte (les liens) même du réseau.

Ainsi, le web est un système d'informations. Ces informations sont d'une part constituées des mots / images / vidéos constituant les pages web, mais aussi des liens entre pages eux même. Lorsque vous créez un lien hyper-texte, vous structurez le web, vous y ajoutez une information non négligeable.

Date de changement de l'index de Google

paragraphe plutôt obsolète, chercher Google google+dance .

Google scanne le web en permanence, il consulte vos sites, se promène de liens en liens, pour emmagasiner la croissance et les évolutions du web. Pendant des semaines, il accumule de nouvelles informations et recrée un nouvel index. Cependant, son changement d'index n'est pas immédiat. Google ne le mets à jour qu'une fois par mois environ, ce qui signifie que pendant plusieurs semaines, votre site peut avoir été scanné par Google, sans qu'il apparaisse encore dans le moteur de recherche. Et puis tout d'un coup, Google change son index, et se met à utiliser les nouvelles données qu'il a compiliées depuis son dernier changement d'index.

Liens pour en savoir plus sur Google

Google Print

Google est un service de Google qui propose de vous vendre des dizaines de milliers de livres qu'ils ont numérisé.

Pages ayant pour tag : Google

  1. Google_Maps : Google Maps : une application de cartographie de Google
  2. Google_Earth : Google Earth

Commentaires

Je tenais à signaler le site http://www.7-dragons.com/ qui fait une bonne synthèse du référencement sur Google.
ThickParasite, le 2005-08-21 à 00h19

Ecrire votre commentaire

Vous devez vous connecter pour pouvoir ajouter un commentaire.

MetaCités blog wiki changements pages se connecter

Projets en cours

MetaWiki KarmaOS Bookorati

Metadata

dernière modif :
2006-02-05 16h13
par : sls

Outils

diff. historique editer admin

Tags

javascript [18]
gratuit [16]
php [15]
Mac [14]
Mac OS X [13]
webware [8]
mysql [8]
logiciel [8]
open-source [8]
css [7]
rss [6]
linux [6]
HTML [5]
weblog [5]
graphisme [4]
DHTML [4]
OVH [4]
python [4]
Apple [4]
wiki [4]
tous les tags
MetaWiki : hébergement de wikis, wiki hosting.