Problème d'indexation : les pistes à suivre

Dernière mise à jour le 2 novembre 2022

Pour résoudre ce « petit » problème, il s’agit dans la plupart des cas d’entrevoir quelques rouages des moteurs de recherche. Si vous n’êtes pas familier avec les termes employés, un petit glossaire en bas de page présente quelques éléments de jargon SEO.

Au sommaire :

Problème de référencement ou d’indexation ?
- Pages mal positionnées Vs. pas indexées
- Déterminer si vous avez un problème d’indexation
Les pistes à explorer et les solutions
- Les robots des moteurs peuvent-ils accéder aux pages ?
- Le contenu peut-il être lu et indexé par les moteurs ?
Pour continuer
Glossaire : quelques éléments de langage SEO

Problème de référencement ou d’indexation ?

Pages mal positionnées Vs. pas indexées

Il faut bien distinguer

les pages qui apparaissent très peu dans les résultats des moteurs de recherche parce qu’elles ne sont pas trouvées là où vous les attendez
Il y a manifestement d’autres pages considérées comme plus pertinentes par les moteurs, que cela soit juste ou pas. C’est tout le cœur de métier des référenceurs, et ce n’est pas l’objet de ce post.
les pages qui n’apparaissent pas du tout dans les résultats des moteurs de recherche
Dans ce cas, c’est souvent un paramétrage ou un bout de code qui empêche vos pages d’être affichées dans les moteurs, ou qui bloque les robots d’exploration. C’est plus rarement quelque chose de très compliqué à régler, et vous allez trouver les principales pistes à suivre en poursuivant la lecture.

Déterminer si vous avez un problème d’indexation

Si vous avez un doute, vous pouvez taper site:votre-site.fr pour vérifier que vos pages sont présentes dans le moteur, ou site:votre-site.fr inurl:adresse-de-ma-page pour une vérification plus ciblée.
Si les résultats proposés sont beaucoup moins nombreux que ce à quoi vous pouvez légitimement prétendre, ou si des résultats indiquant « Pas d’informations disponibles sur cette page » ou « La description de ce résultat n’est pas accessible à cause du fichier robots.txt de ce site. »), vous pouvez aussi trouver la solution dans les paragraphes qui suivent.

"page disparue" dans les résultats de Google — Des années que Linguee.fr et sa traduction campent en haut de la première page de Google, sur la recherche « la page a disparu »…

Retour au sommaire

Les pistes à explorer et les solutions

Les quelques paragraphes qui suivent donnent quelques pistes pour débloquer le référencement d’un site introuvable dans les moteurs. Bien entendu, vous pouvez lire ce que Google conseille de faire (et vous devriez). La page de Google aborde des points supplémentaires, mais elle nécessite un certain effort de documentation pour ceux qui ne sont pas familiers avec le SEO.

Explorons donc rapidement les critères les plus évidents qui empêchent l’apparition d’un site dans les pages de résultats de recherche : et en miroir ce qu’il faut faire pour que les moteurs puissent découvrir vos pages et parcourir leurs contenus.

Retour au sommaire

Les robots des moteurs peuvent-ils accéder aux pages ?

Pour indexer une page dans un moteur de recherche, il faut que les robots puissent y accéder. Ça paraît évident :

Les pages qui nécessitent une identification sont inaccessibles aux robots (identifiant / mot de passe).
S’il y a un blocage lorsqu’un internaute lambda accède à la page, il y a sans doute une raison (bonne ou mauvaise).

Seule la levée de ce blocage rendra possible l’apparition de vos pages dans les moteurs de recherche.
La page doit être valide, le code de réponse doit être ok : heureusement les moteurs ne veulent pas nous amener sur des erreurs de navigation, des erreurs serveur, … ils cherchent à explorer et proposer des codes 200, c’est à dire des adresses valides.
Testez l’affichage de la page dans votre navigateur, et dans le doute, vérifiez donc ce code de réponse. A moins que vous ne sachiez utiliser la console de votre navigateur, aidez-vous d’outils tels que un outil tel que https://www.outiref.fr/ (onglet technique), https://www.afficheip.net/services/test-redirection.php, ou d’une extension de navigateur comme MozBar ou OnCrawl.

Même si cela semble évident, mieux vaut vérifier que la page se charge correctement dans un navigateur.

Retour au sommaire

Le contenu peut-il être lu et indexé par les moteurs ?

L’accès des robots à une page est indispensable, mais il faut aussi que les robots soient « autorisés » à lire son code et à indexer son contenu.

Texte flouté - illustration des difficultés des moteurs de recherche à lire un contenu :-) — Cas d’école, version cancre

Le fichier robots.txt est parfois paramétré de façon à bloquer des fichiers qui devraient pouvoir être « lus » par les moteurs. En effet, il faut que les robots puissent lire tous les fichiers utilisés pour l’affichage des pages du site : HTML, règles de style CSS, JavaScript, images…
Vérifiez dans le fichier robots.txt présent à la racine de votre site (votre-site.fr/robots.txt) qu’il n’y a pas de contenu (pages, images, css, js) concernés par les règles « Disallow: ».
Si le fichier robots.txt n’existe pas, créez le, c’est important pour les moteurs de recherche (même s’il est presque vide).
Les outils Google Search Console et Bing Webmaster Tools sont très utiles pour identifier ces blocages (d’autres outils gratuits sans inscription existent tel que https://en.ryte.com/free-tools/robots-txt/ et https://sitechecker.pro/fr/robots-tester/ par exemple).

Si des fichiers utiles à l’affichage de votre site, et notamment vos pages HTML, sont bloqués par le fichier robots.txt, il faut sans attendre le modifier pour donner une chance à vos pages d’être lues et référencées dans les résultats des moteurs de recherche.
Voici une version basique des lignes qui doivent y figurer :
User-agent: *
Disallow:
sitemap: https…

La ligne User-agent indique les robots concernés par ces règles : l’étoile (*) indique « tous », autant laisser tel quel, cela évite de lister les robots concernés par ces règles (de toute façon, ceux que vous voudriez interdire n’en tiendront pas compte).
La ligne Disallow indique les pages ou répertoires que vous souhaitez interdire à la lecture des robots. Attention, si vous ajoutez un slash (/) après les deux points, vous interdisez la lecture de toutes les pages du site !
La ligne sitemap est facultative, à compléter avec l’adresse de votre fichier sitemap valide s’il existe.
La balise meta robots, paramétrée en noindex, empêche la page d’être indexée. Si elle est présente, vous pouvez trouver cette balise en explorant le code source de la page, en utilisant une extension de navigateur ou un outil tel que https://seositecheckup.com/tools/noindex-tag-test.
Voici le code source pour ne pas référencer une page dans les moteurs et qui ne doit pas apparaitre dans les pages que vous souhaitez référencer : <meta name= »robots » content= »noindex »>
Beaucoup d’outils existent, Google Search Console et Bing Webmaster Tools peuvent être très utiles.

Bien entendu, si vous trouvez cette balise robots paramétrée en noindex, il faut agir pour autoriser les moteurs de recherche à indexer vos pages. Pour cela, vous pouvez soit supprimer complètement la balise, soit changer le « noindex » en « index ».
Dans certains cas, la consigne robots noindex est transmise non pas dans une balise mais dans une entête de réponse http : c’est un peu plus compliqué à détecter et à traiter.
Certaines technologies utilisées sur le web sont parfois compliquées à gérer pour le référencement. Comme autrefois les site en full Flash, les frameworks JS peuvent être très difficiles à référencer, en fonction de la façon dont ils ont été déployés.
Si vous souhaitez vérifier la lecture que Google et Bing font de vos pages, rendez-vous en premier lieu sur https://search.google.com/test/mobile-friendly et sur https://www.bing.com/webmaster/tools/mobile-friendliness pour un premier aperçu. Pour aller plus loin, il faudra encore aller dans la Google Search Console et les Bing Webmaster Tools.

Ces cas-là concernent généralement des sites complexes et si les solutions existent, elles nécessitent souvent des ajustements assez lourds en termes de développement.
La balise ou directive canonical, l’existence d’un contenu identique, des problèmes de sécurité, ou une pénalité liée à votre nom de domaine peuvent aussi expliquer l’absence d’un site ou de pages dans les moteurs de recherche.

Ces cas-là concernent des problématiques non pas rares, mais moins fréquentes. N’hésitez pas à creuser la documentation de Google ou à demander de l’aide à un référenceur.

Retour au sommaire

Pour continuer

Il s’agit bien d’une des bases du référencement naturel : l’indexation ou l’accès aux contenus sont fondamentaux. Les causes d’un référencement bloqué sont parfois plus difficiles à détecter et à résoudre : lancez donc des appels à l’aide, si possible à des référenceurs. Si vos pages sont présentes dans les moteurs mais pas aussi visibles que vous le souhaiteriez, il faut explorer d’autres pistes et en particulier

la qualité de vos contenus
la proximité de vos contenus avec les besoins des utilisateurs que vous voulez atteindre,
la manière dont ils expriment ces besoins,
ce qu’ils s’attendent à trouver comme réponses
la notoriété/popularité de vos pages, comparée aux sites positionnés en haut du classement

Glossaire : quelques éléments de langage SEO

Robots des moteurs de recherche : les robots des moteurs de recherche sont des programmes qui explorent le web de lien en lien.
Indexation : les robots des moteurs de recherche explorent les liens qu’ils trouvent dans les pages. L’indexation, c’est le processus qui découle la découverte d’une nouvelle adresse de page web par un robot : le moteur décide d’inclure et de classer la page dans son « catalogue » de pages évaluées. Cela ne veut pas dire que la page apparaîtra dans les résultats, mais cela signifie que la page est identifiée et peut apparaître dans les résultats en fonction des recherches effectuées.
Code de réponse : il s’agit d’une information transmise du serveur à votre navigateur, indiquant qu’une adresse est correcte (code 200), que c’est une erreur de navigation (code 404), …
Balise meta robots : bout de code intégré dans le code d’une page pour indiquer aux moteurs de recherche s’ils doivent indexer ou pas une page. Exemple d’utilisation le plus courant : <meta name= »robots » content= »noindex »> – indique au robots de ne pas indexer la page. Cette indication peut aussi être transmise aux robots d’une autre façon, avec l’entête de réponse http de la page.
Robots.txt : parfois mal paramétré, ce fichier permet d’indiquer aux moteurs qu’ils n’ont pas le droit de lire le contenu des adresses listées.

Retour au sommaire

« Mon site n’apparait pas dans les moteurs de recherche » : ce qu’il faut vérifier

Problème de référencement ou d’indexation ?

Pages mal positionnées Vs. pas indexées

Déterminer si vous avez un problème d’indexation

Les pistes à explorer et les solutions

Les robots des moteurs peuvent-ils accéder aux pages ?

Le contenu peut-il être lu et indexé par les moteurs ?

Pour continuer

Glossaire : quelques éléments de langage SEO

Plus de publications

Un site membres WordPress, gratuitement et sans coder (ou presque)

Ajouter un objectif simple dans Matomo

Obtenir le code YouTube No Cookies pour intégrer une vidéo YouTube avec le mode de confidentialité avancé

Des accents dans les URL de sitemap

Des résultats enrichis Guide / Tuto avec les données structurées HowTo