Site introuvable dans les moteurs de recherche : ce qu’il faut vérifier

Dernière mise à jour le 29 décembre 2021

Pas besoin d’être génial pour essayer de résoudre un petit problème : il s’agit simplement d’entrevoir quelques rouages des moteurs de recherche, pas de techniques de référencement hyper-sophistiquées. Si vous n’êtes pas familier avec les termes employés, un petit glossaire en bas de page présente quelques éléments de jargon SEO.

Des pages qui ne sont pas trouvées ou qui ne sont pas indexées ?

Il faut bien distinguer

  • les pages qui apparaissent très peu dans les résultats des moteurs de recherche parce qu’elles ne sont pas trouvées là où vous les attendez
    Il y a manifestement d’autres pages considérées comme plus pertinentes par les moteurs, que cela soit juste ou pas.
  • les pages qui n’apparaissent pas du tout dans les résultats des moteurs de recherche
    Dans ce cas, c’est souvent un paramétrage ou un bout de code qui empêche vos pages d’être affichées dans les moteurs, ou qui bloque les robots d’exploration. C’est plus rarement quelque chose de très compliqué à régler.

Si vous avez un doute, vous pouvez taper site:votre-site.fr pour vérifier que vos pages sont présentes dans le moteur, ou site:votre-site.fr inurl:adresse-de-ma-page pour une vérification plus ciblée.

"page disparue" dans les résultats de Google
Des années que Linguee.fr et sa traduction campent en haut de la première page de Google, sur la recherche « la page a disparu »…

Les quelques paragraphes qui suivent donnent quelques pistes pour débloquer le référencement d’un site introuvable dans les moteurs.

Explorons donc rapidement les critères qui empêchent l’apparition d’un site dans les pages de résultats de recherche : et en miroir les conditions techniques à remplir pour que les moteurs puissent découvrir vos pages et parcourir leurs contenus.

Les robots des moteurs peuvent-ils accéder aux pages ?

Pour indexer une page dans un moteur de recherche, il faut que les robots puissent y accéder. Ça paraît évident :

  • Les pages qui nécessitent une identification sont inaccessibles aux robots (identifiant / mot de passe).
  • La page doit être valide, le code de réponse doit être ok : heureusement les moteurs ne veulent pas nous amener sur des erreurs de navigation, des erreurs serveur, … ils cherchent à explorer et proposer des codes 200, c’est à dire des adresses valides.
    Dans le doute, vérifiez donc ce code de réponse. A moins que vous ne sachiez utiliser la console de votre navigateur, aidez-vous d’outils tels que un outil tel que https://www.webrankinfo.com/outils/header.php, https://www.afficheip.net/services/test-redirection.php, ou d’une extension de navigateur comme MozBar ou OnCrawl.

Le contenu peut-il être lu et indexé par les moteurs ?

L’accès des robots à une page est indispensable, mais il faut aussi que les robots soient « autorisés » à lire son code et à indexer son contenu.

Lecture difficile, mais encore presque possible :-)
Cas d’école, version cancre
  1. Le fichier robots.txt est parfois paramétré de façon à bloquer des fichiers qui devraient pouvoir être « lus » par les moteurs. En effet, il faut que les robots puissent lire tous les fichiers utilisés pour l’affichage des pages du site : règles de style CSS, JavaScript, images…
    Vérifiez dans le fichier robots.txt présent à la racine de votre site (votre-site.fr/robots.txt) qu’il n’y a pas de contenu (pages, images, css, js) concernés par les règles « Disallow: ».
    Si le fichier robots.txt n’existe pas, créez le.
    Les outils Google Search Console et Bing Webmaster Tools sont très utiles pour identifier ces blocages (d’autres outils gratuits sans inscription existent tel que https://fr.ryte.com/free-tools/robots-txt/ et https://sitechecker.pro/fr/robots-tester/ par exemple).
  2. La balise meta robots, paramétrée en noindex, empêche la page d’être indexée. Si elle est présente, vous pouvez trouver cette balise en explorant le code source de la page, en utilisant une extension de navigateur ou un outil tel que https://seositecheckup.com/tools/noindex-tag-test.
    Voici le code source pour ne pas référencer une page dans les moteurs et qui ne doit pas apparaitre dans les pages que vous souhaitez référencer : <meta name= »robots » content= »noindex »>
    Beaucoup d’outils existent, Google Search Console et Bing Webmaster Tools peuvent être très utiles.
  3. Certaines technologies utilisées sur le web sont parfois compliquées à gérer pour le référencement. Comme autrefois les site en full Flash, les frameworks JS peuvent être très difficiles à référencer, en fonction de la façon dont ils ont été déployés.
    Si vous souhaitez vérifier la lecture que Google et Bing font de vos pages, rendez-vous en premier lieu sur https://search.google.com/test/mobile-friendly et sur https://www.bing.com/webmaster/tools/mobile-friendliness pour un premier aperçu. Pour aller plus loin, il faudra encore aller dans la Google Search Console et les Bing Webmaster Tools.

Pour continuer

Il s’agit bien d’une des bases du référencement naturel : l’indexation ou l’accès aux contenus sont fondamentaux. Les causes d’un référencement bloqué sont parfois plus difficiles à détecter et à résoudre : lancez donc des appels à l’aide, si possible à des référenceurs. Si vos pages sont présentes dans les moteurs mais pas aussi visibles que vous le souhaiteriez, il faut explorer d’autres pistes et en particulier

  • la qualité de vos contenus
  • la proximité de vos contenus avec les besoins des utilisateurs que vous voulez atteindre,
  • la manière dont ils expriment ces besoins,
  • ce qu’ils s’attendent à trouver comme réponses
  • la notoriété/popularité de vos pages, comparée aux sites positionnés en haut du classement

Glossaire : quelques éléments de langage SEO

  • Robots des moteurs de recherche : les robots des moteurs de recherche sont des programmes qui explorent le web de lien en lien.
  • Indexation : les robots des moteurs de recherche explorent les liens qu’ils trouvent dans les pages. L’indexation, c’est le processus qui découle la découverte d’une nouvelle adresse de page web par un robot : le moteur décide d’inclure et de classer la page dans son « catalogue » de pages évaluées. Cela ne veut pas dire que la page apparaîtra dans les résultats, mais cela signifie que la page est identifiée et peut apparaître dans les résultats en fonction des recherches effectuées.
  • Code de réponse : il s’agit d’une information transmise du serveur à votre navigateur, indiquant qu’une adresse est correcte (code 200), que c’est une erreur de navigation (code 404), …
  • Balise meta robots : bout de code intégré dans le code d’une page pour indiquer aux moteurs de recherche s’ils doivent indexer ou pas une page. Exemple d’utilisation le plus courant : <meta name= »robots » content= »noindex »> – indique au robots de ne pas indexer la page. Cette indication peut aussi être transmise aux robots d’une autre façon, avec l’entête de réponse http de la page.
  • Robots.txt : parfois mal paramétré, ce fichier permet d’indiquer aux moteurs qu’ils n’ont pas le droit de lire le contenu des adresses listées.

Par J-Michotey

Je suis ceinture jaune de WordPress !