Accueil » Communication et marketing digital » Pourquoi Google indexe encore des pages bloquées par robots.txt ?

Pourquoi Google indexe encore des pages bloquées par robots.txt ?

Pourquoi Google indexe encore des pages bloquées par robots.txt ?

Lorsqu’un administrateur de site implémente des directives dans le fichier robots.txt pour restreindre l’accès de Googlebot à certaines pages, il est normal de s’attendre à ce que ces pages ne soient pas indexées. Néanmoins, il n’est pas rare que des pages spécifiquement bloquées se retrouvent malgré tout indexées par Google. Pourquoi et comment ? Cet article se propose de s’intéresser à la réponse de Mueller sur la situation et de fournir une analyse des implications pratiques pour l’optimisation SEO.

Récemment, Rick Horst, un expert SEO, a sollicité John Mueller, porte-parole bien connu de Google, au sujet de la problématique de l’indexation de pages bloquées par robots.txt. Horst a observé que des bots créaient des liens vers des URLs avec des paramètres de requête (par exemple, ?q=xyz) menant vers des pages dotées de balises “noindex” mais également bloquées par le fichier robots.txt. Cela entraînait leur signalement dans Google Search Console comme “Indexé, mais bloqué par robots.txt”.

La question principale était donc de savoir pourquoi Google indexerait des pages auxquelles il ne peut accéder. Quelle en est la logique d’un point de vue algorithmique, et quel bénéfice Google en tire-t-il ?

John Muelle nous explique

John Mueller a expliqué que, lorsque Googlebot ne peut pas explorer une page, il ne peut pas en lire la balise “noindex”. Cela explique pourquoi Google peut indexer une page bloquée par robots.txt : s’il ne peut la consulter, il ne peut pas non plus recevoir l’instruction explicite de ne pas l’indexer. CQDF ? Mais pourquoi recevons-nous ces alertes dans la search console ? 

Mueller a également souligné qu’il est préférable de ne pas s’alarmer de ces rapports dans la Search Console, car les utilisateurs ne sont généralement pas exposés à ces pages. Il recommande d’employer la balise “noindex” sans la coupler à une directive “disallow” dans robots.txt, permettant ainsi à Googlebot d’explorer les URLs et de respecter la directive “noindex”.

L’expert Google a également précisé que les rapports indiquant “exploré, mais non indexé” ne doivent pas être interprétés comme un problème critique à résoudre. Ces mentions indiquent simplement que la page a été explorée sans être ajoutée à l’index, sans qu’il y ait un impact négatif sur la performance globale du site en termes de référencement.

Interaction entre le fichier robots.txt et la balise Noindex

Il est essentiel de comprendre que Googlebot découvre souvent des URLs via des liens, qu’ils soient internes ou externes. Lorsqu’une page est bloquée par robots.txt, le robot ne peut pas accéder à son contenu, et par conséquent, ne peut pas lire la balise “noindex” présente sur la page. Cela laisse la possibilité que la page soit tout de même indexée. Pour éviter une telle situation, il est crucial que les pages pour lesquelles on souhaite appliquer une directive “noindex” ne soient pas bloquées par robots.txt.

Les limites de l'opérateur de recherche Site:

Mueller a aussi abordé les limitations de l’opérateur de recherche avancée “site:”. Cet opérateur est souvent utilisé pour vérifier quelles pages sont indexées, mais il n’est pas directement lié à l’index principal de Google ! Il ne fait donc pas s’en servir pour diagnostiquer des problèmes d’indexation. Les résultats obtenus avec “site:” ne reflètent pas toujours l’état réel de l’indexation des pages.

Selon la documentation officielle de Google, l’opérateur “site:” n’est pas conçu pour fournir une vue complète et ne doit pas être utilisé comme outil de diagnostic. Il offre un aperçu, certes, mais ne garantit pas une couverture exhaustive de l’indexation.

Recommandations pour que ces pages ne soient pas indexées

Vous l’avez compris, pour empêcher l’indexation de pages spécifiques, il est recommandé de ne pas combiner la directive “disallow” de robots.txt avec une balise “noindex”. C’est justement en accédant aux pages, qu’il pourra comprendre l’indication demandée et ne pas les indexer. Les rapports de la Search Console qui vous signalent du contenu “exploré, mais non indexé” ne représentent pas une anomalie en soi, mais relèvent plutôt du fonctionnement normal d’exploration des pages qui ne sont pas destinées à être indexées. 

Pour les spécialistes du SEO, il est fondamental de maintenir une vision d’ensemble des mécanismes d’indexation et de ne pas surinterpréter des messages qui peuvent sembler alarmants alors qu’ils s’inscrivent dans un processus usuel, sans effet sur la visibilité du site.

Clef2web est une agence de référencement naturel à Charleroi : SEO, SEA, réseaux sociaux ou encore formations ? Nous avons plusieurs cordes à notre arc ! Alors qu’attendez-vous pour nous confier votre projet ? 

 

Nos Certifications