Arnaud Decurninge

Nous utilisons au quotidien les moteurs de recherche pour trouver les réponses instantanées à nos interrogations. Le web est alors devenu une bibliothèque géante dans laquelle les moteurs de recherche travaillent instantanément pour nous donnent accès à ce que l’on recherche. Ici, nous vous donnons la possibilité de comprendre toutes les informations concernant ces moteurs en ligne qui font désormais partie de nos vies.

Qu’est-ce qu’un moteur de recherche ?

Un moteur de recherche est un outil en ligne qui permet avant tout, comme son nom l’indique, de faire une recherche sur un sujet précis ou un thème. L’utilisateur trouvera alors de nombreuses ressources en tapant dans la barre de recherche une requête clé. Les termes de cette requête donnent ensuite accès à des millions de résultats avec une priorité aux ressources les plus pertinentes par rapport à la nature de la recherche.

Quels types de ressources peut-on trouver sur un moteur de recherche ?

Il existe une multitude de ressources pour trouver l’information recherchée. Il peut s’agir de pages web, d’articles, de forums, mais aussi d’images ou de vidéos. Le moteur de recherche donne également accès à des ouvrages ou des applications par exemple. De quoi trouver son bonheur en un clin d’œil.

Dans le cas d’un moteur de recherche, l’information demandée par l’internaute est étudiée sans intervention humaine. Il ne faut donc pas confondre ces moteurs avec un annuaire par exemple. Il s’agit de robots qu’on appelle aussi « crawlers » qui recherchent automatiquement le fichier à sortir de la bibliothèque du web. Ils passent le reste de leur temps à parcourir de nouveaux URL en suivant le plus souvent les liens hypertexte qui lient les pages les unes aux autres. Dès lors que ces robots découvrent une nouvelle page qu’ils ne connaissent pas encore, celle-ci est alors indexée par leurs soins dans la bibliothèque. Les internautes ont ensuite accès à l’ensemble de cette base de données grâce aux mots clés qui taperont dans la barre de recherche.

Et si on faisait un tour dans le passé ?

L’histoire des moteurs de recherche est aussi récente que fascinante. Les premiers s’inspirent d’autres systèmes des années 1970 : les outils de recherche de documentaire, à partir de fichiers inversés. Mais le premier moteur de recherche à proprement parlé a été créé par un étudiant, Alan Emtage. Il étudiait à l’université McGill de Montréal et a développé son moteur de recherche pour un projet d’école à l’origine. Puis, on recense ensuite quelques moteurs historiques à partir des années 1990 tels que Altavista (1995) avec le premier moteur de 64 bits ou encore l’ancêtre de Google : Backrub (1997).

Google quant à lui a été développé à l’université de Stanford par Sergei Brin et Larry Page, deux véritables génies. Ils révolutionnent le secteur avec un moteur de recherche nouvelle génération beaucoup plus performant. Google range et redonne accès aux résultats de recherche en fonction de leur popularité et de leur pertinence.

Comment fonctionne un moteur de recherche ?

Un processus précis permet d’expliquer clairement la façon dont fonctionne un moteur de recherche. Pour comprendre les coulisses, on distingue 3 temps dans le fonctionnement de ces moteurs

Le crawling

On parle de « crawling » lorsque le robot d’indexation explore les liens hypertextes pour récupérer de nouvelles données qu’il juge pertinentes et intéressantes. Cette étape précède l’indexation, une action cruciale. Pour comprendre le fonctionnement d’un moteur de recherche, il convient de saisir qu’il s’agit avant tout d’un outil d’indexation. Il collecte les documents par l’intermédiaire d’un robot d’indexation, aussi appelé « bot ». Chaque robot d’indexation possède sa propre signature selon les différents moteurs de recherche. A titre d’exemple, GoogleBot est la signature de Google et AppleBot celui d’Apple.

L’exploration est la première étape déterminante des autres moments du processus. Les moteurs de recherche aiment les hyperliens puisque ces derniers leur donnent l’occasion de s’agrandir et de se développer continuellement. Les liens contribuent au bon fonctionnement du moteur et permettent d’apporter des réponses toujours plus pertinentes.

L’indexing

Le travail des robots continue à se développer grâce à l’indexation des ressources retenues durant l’étape de l’exploration. Ils extraient ici les mots clés considérés comme pertinents pour les sauvegarder dans une base de données comparable à un dictionnaire géant ou encore à un index terminologique d’un ouvrage. Cette étape permet au moteur de recherche de ne jamais se perdre. A l’image d’un index, il peut retrouver facilement et instantanément dans quel chapitre se retrouve la requête de l’internaute.

le poids des mots

Dans un contexte qui diffère à chaque requête, certains termes ne sont pas significatifs. On les appelle alors les mots vides. Au contraire, les termes significatifs sont toujours attachés à un poids. Le poids correspond à la probabilité d’apparition de ce terme au sein d’un fichier en ligne.

Il faut également garder en tête qu’une indexation de sites ou de pages prend du temps. En effet, tout un ensemble d’étapes doit être effectué par le robot d’indexation. De l’algorithme à la syntaxe en passant par la sémantique, une multitude d’étapes désormais basée sur l’intelligence artificielle font partie du processus.

Le searching

La recherche regroupe l’ensemble des actions liées à la requête de l’internaute. A partir de l’index déjà créé, un algorithme recherche dans la bibliothèque les fichiers qui répondent au mieux à la requête demandée par l’internaute. Sur une page Google par exemple, on compte 10 résultats de recherches sur parfois plusieurs millions de sites, le tout retrouvé en moins d’une seconde… De quoi témoigner de la puissance exceptionnelle du système et de l’algorithme. Ensuite, les résultats de la requête sont classés par ordre de pertinence sur la page.

Il existe plusieurs types de moteurs de recherche avec des puissances et des méthodes différentes. Des requêtes booléennes aux modèles vectoriels, des plus basiques aux plus performantes, chaque moteur possède ses propres limites d’action. Certaines des techniques les plus élaborées utilisent la méthode d’analyse sémantique latente. Autour d’un mot clé tapé dans la barre de recherche, le moteur de recherche est capable d’anticiper les mots clés liés à la requête, lesquels l’internaute n’avait pas encore pensé ou pas encore écrit.

Quelles sont les techniques d’optimisation pour les moteurs de recherche ?

La présence en ligne est devenue incontournable dans le monde d’aujourd’hui. Alors, comment se différencier face à une concurrence devenue omniprésente ? Plusieurs techniques existent pour apparaître dans les 10 premiers résultats de recherche sur un ou plusieurs mots clés donnés. Nous avons fait un focus sur certaines techniques qui permettent de profiter d’un bon référencement de site ou de pages web.

Le référencement naturel (SEO)

On distingue deux façons d’être bien référencé sur les moteurs de recherche Google : le référencement payant (SEA) et le référencement naturel. En anglais, le SEO (Search Engine Optimization) rassemble l’ensemble des techniques qui permettent d’améliorer le positionnement d’une page ou d’un site internet. L’objectif est souvent d’arriver dans les 10 premiers résultats SERP sur un mot clé donné. Pour ce faire, les robots d’indexation analysent les contenus des pages web, leur structure et les mots clés intégrés.

Les enjeux du SEO

L’optimisation du contenu pour plaire aux moteurs de recherche révèle de nombreux grands enjeux. Le SEO permet d’accroitre la visibilité de son site en ligne et donc de permettre un bon référencement. De plus, l’expertise du site sera adressée à des internautes qui en ont besoin. Le trafic est alors qualifié. En plus de se créer une véritable image de marque, on augmente sa crédibilité et le nombre de conversions.

Par ailleurs, on en connaît désormais un peu plus sur les habitudes des internautes. Par exemple, on sait que 2/3 des utilisateurs se dirigeront vers un site de la première page du SERP. D’autre part, quasiment personne ne s’aventure sur la troisième page. Les habitudes de recherche évoluent à grande vitesse. Les recherches vocales et mobiles et la rapidité de navigation impliquent de nouvelles actions à mettre en place. Dans une dizaine d’années, l’enjeu du SEO sera d’être présent sur les 3 premiers résultats et non plus sur la première page.

Les limites du SEO

Le site et le contenu doivent pouvoir plaire aux algorithmes des moteurs de recherche. Toutefois, il est indispensable de penser avant tout à l’expérience de l’utilisateur sur le site. Il est évident de prendre en compte le robot d’indexation, mais sans jamais perdre de vue l’internaute. D’autant plus que les robots sont de plus en plus capables d’analyser la qualité de l’expression écrite dans un contenu web. C’est d’ailleurs une véritable valeur ajoutée qui contribue à un bon référencement.

Les mauvaises utilisations

Avec toute grande révolution, certaines mauvaises utilisations des nouveaux outils apparaissent, et d’autant plus avec internet. Et pour cause, les enjeux économiques sont particulièrement alléchants alors même que nous sommes derrière un écran. On distingue 3 utilisations malhonnêtes principales qui détournent les techniques pour attirer l’attention des moteurs de recherche.

L’invention de nouveaux mots

Certains inventent de nouveaux mots pour bénéficier d’une exclusivité dans le référencement. On appelle cette création malhonnête de néologismes le zurnisme. Ce mot particulier est lui-même un zurnisme, un mot inventé par une ancienne page de blog française.

Le cloaking

Une autre technique malhonnête a été mise au point. Le cloaking définit la technique de fournir deux pages différentes : une pour le moteur de recherche et une pour l’internaute.

Les sites miroirs

Avec cette technique, il est possible de copier l’ensemble d’un site internet et de le « cacher » sous une autre adresse.

Pour tenter de contrer ces techniques abusives, les éditeurs de moteurs de recherche font leur maximum pour pénaliser ces sites. Ils établissent donc des listes noires tantôt temporaires, tantôt définitives.

le saviez-vous ?

Dans le langage du web, le spamdexing désigne l’ensemble des méthodes utilisées de manière abusive et malhonnête pour obtenir des résultats de référencements naturels. Le spamdexing signifie référencement abusif en français. Attention à ne pas confondre le spamdexing avec le SEO (Search Engine Optimization) qui consiste quant à lui à correspondre aux attentes des algorithmes en matière de référencement.

Désormais, vous en savez plus sur les moteurs de recherche et leur fonctionnement, mais aussi sur leurs limites. Ce nouvel outil a profondément révolutionné le monde du web et ne cesse de se développer.

Les principaux moteurs de recherche

Google

Google, société américaine dirigée depuis 2019 par Sundar Pichai est un acteur majeur d’Internet. Plus qu’un moteur de recherche, Google est aussi avant tout une entreprise qui a pris de l’épaisseur au fil des années. Depuis sa fondation en 1998, elle a évolué au point de figurer au rang des géants du web et des multinationales les plus puissantes au monde.

Bing

Bing est un moteur de recherche puissant développé par Microsoft. Anciennement appelé Live Search, Windows Live Search ou encore MSN Search il est accessible au public depuis le 3 juin 2009.

Baidu

Baidu est un moteur de recherche chinois. Cette plateforme propose un index comptant près de 750 millions de pages de sites internet, 80 millions de photos et 10 millions de fichiers vidéo et audio. L’entreprise participe de manière active au développement de logiciels libres essentiellement axés sur l’intelligence artificielle. Il s’agit également du site connaissant le plus grand nombre de consultations en Chine.

Yandex

Yandex est un moteur de recherche russe créé en 1997. Bénéficiant d’une interface simple et de nombreux outils, il s’agit actuellement du site le plus utilisé par les internautes russophones. Yandex est aussi le cinquième moteur de recherche le plus populaire au monde.

Qwant

Qwant est un moteur de recherche alternatif qui attend encore qu’on le découvre. Sa proposition est différente des moteurs de recherche « classiques », qui détiennent le monopole. Il ne cherche pas à savoir quelles sont vos recherches. Il ne récupère pas vos données, il ne les revend à personne. Avec Qwant, votre vie privée est respectée. Vous n’avez pas à vous faire de soucis en vous demandant si vous êtes tracé ou tracké. C’est aussi un moteur de recherche qui se veut « neutre » avec un algorithme différent de ceux de ses concurrents. Il a une troisième particularité : c’est une création française.