Comment ça marche Google ?


Une question qui nous est souvent posée par nos interlocuteurs est : comment ça marche un moteur de recherche ? Et puisque Google est celui qui fait référence en France et sur les recherches automobiles, la question est fréquemment ciblée sur la firme de Mountain View.

Il est très difficile de répondre à cette question de manière synthétique et avec une visualisation claire, mais en surfant pour essayer de trouver une réponse j’ai trouvé le schéma que je vous joins ici (PPCblog). Il est en anglais mais assez facile d’accès, y compris pour ceux qui ne sont pas très confortables avec la langue de Shakespeare.

Je peux aussi vous proposer quelques informations complémentaires qui peuvent vous aider à mieux cerner le périmètre du sujet, qui est très vaste et surtout terriblement complexe. raison pour laquelle, se faire accompagner par des professionnels sur ces sujets est essentiel :

D’abord, savez vous ce que veux dire Google ?

Google est un néologismecréé à partir du mot Googol lui même inventé en 1938 par un mathématicien américain : Edward Kasner.

Celui ci à demandé à son neveu de 8 ans d’inventer un nom pour désigner le chiffre 1 suivi de 100 zéros, ce qui ne sert à rien mais donne ça : 10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000.

Google a donc choisi ce terme pour résumer sa fonction: l’organisation du volume d’information disponible sur Internet.

La mécanique mise en place par Sergey Brin, et Larry Page, les deux fondateurs de Google, est un algorithme très complexe, secret et en permanente évolution. Définition Wikipédia d’un algorithme :

Un algorithme est un ensemble de prescriptions et de règles qui définissent « ce qu’il faut faire » et « dans quel ordre » pour résoudre un problème (ou une classe de problème). C’est donc un énoncé bien défini d’une suite d’opérations permettant d’obtenir, avec un nombre défini de « pas », le résultat souhaité

La première pièce de la mécanique complexe qui est mise en oeuvre est le robot; il est aussi appelé « bot » ou « spider ».

Il s’agit d’un programme informatique qui navigue sans arrêt le web pour alimenter et mettre à jour une base de données qui contiendra :

– l’adresse de chaque page trouvée
 (dont le nom a lui aussi une grande importance),

– le contenu de cette page, donc : son titre, les textes qu’elle contient,  les balises meta ou repères fixes permettant au robot de lire plus vite les informations essentielles, les noms des images, les textes accompagnant des images, etc.)

– la liste des liens allant de cette page vers d’autres pages.

Un moteur tel que Google est alimenté par une quantité colossale de robots qui fonctionnent en permanence sur plusieurs milliers d’ordinateurs à travers le monde.

Ces robots parcourent les pages un peu comme vous pourriez le faire vous-même en feuilletant physiquement ou virtuellement un livre.

A chaque fois qu’une page contient un lien vers une autre page, le robot, une fois sa lecture terminée, saute à la page liée et continue son parcours, en enregistrant toutes les données acquises.

Le deuxième composant de cette mécanique est représenté par les index.

Les ordinateurs de Google traitent en effet en permanence le contenu des pages trouvées pour générer des index (un peu comme dans une bibliothèque) qui vont lui permettre de trouver de façon quasi-instantanée le résultat d’une requête parmi ces milliards de pages.

Une façon d’indexer les pages consiste, par exemple, à dresser – à l’avance – une liste de toutes les pages qui contiennent le mot « voiture » de façon à pouvoir répondre immédiatement aux recherches sur ce mot.

Le troisième et dernier rouage est constitué par le site web que vous interrogez lorsque vous vous connectez à Google. Il existe plus d’une centaine de sites (également appelés « DataCenter ») à travers le monde qui contiennent chacun une copie des index des milliards de pages et qui sont tous capables de répondre aux requêtes des internautes.

Cette distribution permet à chaque centre de rester performant malgré le nombre faramineux d’utilisateurs du système.
Et assure aussi la sécurité des données détenues.

A propos de l’auteur : Eric Saint-Frison:
Eric est l’associé principal de l’Agence Digital Dealer. Une expérience de 25 ans dans l’Industrie Automobile, ancien Président de Ford France, il se passionne maintenant pour Internet… sans oublier l’Automobile !
Site web:http://www.digitaldealer.fr

Pas de commentaire

    Laisser un commentaire