Categories
Web

Pourquoi mon site n’apparait pas dans les résultats des moteurs de recherche ?

Dernière mise à jour le 18 September 2020

Tout d’abord, il n’est pas question de juger si les pages de votre site plaisent, si leurs contenus sont captivants : il est question ici de pages totalement absentes des moteurs de recherche.

Si vous avez un doute, vous pouvez taper “site:https://monsite/” pour vérifier que vos pages sont présentes dans le moteur, ou “site:https://monsite/mapage” pour une vérification plus ciblée.

"page disparue" dans les résultats de Google
Angoisse … le résultat qui hante les pages de Google, “la page a disparu”

C’est un sujet un peu “technique” mais les grandes lignes sont accessibles à tous, avec un peu de bonne volonté. Il ne s’agit pas de programmation, mais simplement d’entrevoir quelques rouages des moteurs de recherche.

Les consignes des moteurs sont fondées sur les technologies web. Elles ont leur logique. Pour la comprendre, il faut quelques connaissances précises en SEO (Search Engine Optimization, ou référencement naturel). Si vous n’êtes pas familier avec les termes employés, un petit glossaire en bas de page présente quelques éléments de langage SEO.

Explorons donc rapidement les critères qui permettent ou empêchent l’apparition d’un site dans les pages de résultats de recherche : les conditions techniques à remplir pour que les moteurs puissent découvrir vos pages et parcourir leurs contenus.

L’accès des robots

Pour indexer une page dans un moteur de recherche, il faut que les robots puissent y accéder. Ça paraît évident :

  • Les pages qui nécessitent une identification (identifiant / mot de passe) ne sont pas accessibles aux robots.
  • La balise robots paramétrée en noindex empêche la page d’être indexée. Vous pouvez chercher cette balise dans le code source des pages ou utiliser un outil tel que MozBar ou l’extension Chrome OnCrawl.
  • Le code de réponse de la page : il s’agit d’une information transmise qui indique qu’une adresse est correcte (code 200), que c’est une erreur de navigation (code 404), … D’autres codes existent, et bien heureusement les moteurs veulent avant tout explorer des codes 200. Les outils cités au-dessus vous seront utiles, à moins que vous ne sachiez récupérer et lire l’entête de réponse d’une requête HTTP…
Vieille porte en bois fermée par une chaine rouillée et un cadenas
Porte fermée à double tour

Le blocage par identification ou balise robots est notamment utilisé pour les sites de test ou les pages que l’ont ne souhaite pas voir indexées dans les moteurs de recherche.

La lecture du contenu

L’accès des robots à une page est indispensable mais il faut aussi que les robots soient en mesure de lire son code. Les éléments qui peuvent bloquer la lecture des contenus sont plus gênants : lever ces blocages est parfois simple, parfois impossible.

Lecture difficile, mais encore presque possible :-)
Lecture difficile, mais encore presque possible 🙂
  1. Le fichier robots.txt indique aux moteurs de recherche les adresses qu’ils n’ont “pas le droit” de lire. Ils peuvent connaître l’adresse mais ils ne sont pas censés lire son contenu. Ce fichier est souvent mal paramétré, bloquant certains fichiers qui ne devraient pas l’être. En effet, depuis maintenant quelques années et contrairement à ce qui était recommandé auparavant, il faut que les robots puissent lire tous les fichiers utilisés pour l’affichage des pages du site : règles de style CSS, JavaScript, images… C’est devenu impératif, sous peine de mal référencer vos pages.
    Vérifiez, si un fichier robots.txt est présent à la racine de votre site, qu’il n’y a rien d’embêtant après la ou les occurences de “Disallow:”. Pour aller plus loin, il faudra aller dans la Google Search Console et la Bing Webmaster Toolbox, ou utiliser les outils et la science précieuse d’un référenceur compétent. J’aurais bien ajouté Qwant, mais il ne propose pas d’outil pour les éditeurs de site, à cette heure en tout cas.
  2. Les technologies utilisées peuvent également être incompatibles avec les robots. Le langage web historique, HTML, est bien entendu parfaitement maitrisé par les moteurs de recherche. Le Flash, servant il y a quelques temps à montrer des animations, des menus voire les contenus, n’était que très peu compréhensibles pour les robots des moteurs. Le JavaScript, qui n’était pas pris en compte, est désormais bien interprété, mais attention ! Les frameworks JS doivent être généralement adaptés pour être correctement référencés. Avec la prise en compte du JavaScript, les styles CSS sont également interprétés par les robots.
    Si vous souhaitez vérifier la lecture que Google et Bing font de vos pages, rendez-vous en premier lieu sur https://search.google.com/test/mobile-friendly et sur https://www.bing.com/webmaster/tools/mobile-friendliness pour un premier aperçu. Pour aller plus loin, il faudra encore aller dans la Google Search Console et la Bing Webmaster Toolbox. Toujours d’outil Qwant à cette heure non plus.

Conclusion

Il s’agit bien d’une des bases du référencement naturel. Les problèmes d’indexation ou d’accès aux contenus produisent des effets directs sur le référencement et le trafic d’un site. Il est donc indispensable d’être attentif à ces aspects d’accès et de lecture des robots, autant pour toute création ou refonte de site web (utiliser des technologies web adaptées) que régulièrement pour vérifier la bonne gestion du référencement (paramétrages, erreurs, etc.).

Si vos pages sont présentes dans les moteurs mais pas aussi visibles que vous le souhaiteriez, il faut explorer d’autres pistes :

  • qualité des contenus
  • cohérence entre vos contenus et les attentes de ceux qui cherchent dans les moteurs,
  • notoriété/popularité comparée aux sites positionnés en page 1,
  • optimisation des extraits de résultats de recherche

Glossaire : quelques éléments de langage SEO

  • URL : Uniform Resource Locator, plus couramment connu sous le nom d’adresse de la page
  • Robots des moteurs de recherche : les robots des moteurs de recherche sont des programmes qui explorent le web de lien en lien.
  • Indexation : Les robots des moteurs de recherche (programmes informatiques) explorent les liens qu’ils trouvent dans les pages. L’indexation, c’est le processus qui découle la découverte d’une nouvelle adresse de page web par un robot : le moteur décide d’inclure la page dans la “base” de pages connues du moteur. Cela ne veut pas dire que la page apparaîtra dans les résultats, mais cela signifie que la page est connue et peut apparaître dans les résultats.
  • Balise robots : bout de code intégré dans le code d’une page pour indiquer aux moteurs de recherche s’ils doivent indexer ou pas une page. Exemple d’utilisation le plus courant : <meta name=”robots” content=”noindex”> – indique au robots de ne pas indexer la page. Cette indication peut aussi être transmise aux robots d’une autre façon, avec l’entête de réponse http de la page.
  • Robots.txt : souvent mal utilisé, ce fichier permet d’indiquer aux moteurs qu’ils n’ont pas le droit de lire les contenus des URL listées. On s’attendrait donc à ce que les adresses indiquées dans le fichier robots.txt ne soient pas indexées. Pourtant, une adresse peut être indexée sans que son contenu soit lu par les moteurs…

By J-Michotey