Robots.txt WordPress : Guide Complet pour Optimiser le Crawl SEO

Photo of author

By L’équipe Formalive

Accueil » Robots.txt WordPress : Guide Complet pour Optimiser le Crawl SEO
27 min de lecture·📅 Mis à jour le 14 février 2026· Vérifié par l’équipe Formalive


En bref :

  • Le fichier robots.txt contrôle quelles pages les moteurs de recherche peuvent explorer sur ton site WordPress
  • WordPress génère un robots.txt virtuel par défaut, mais il est souvent insuffisant pour un SEO optimal
  • Les directives clés sont Disallow (bloquer), Allow (autoriser) et Sitemap (plan du site)
  • Une mauvaise configuration peut désindexer tout ton site et détruire ton trafic organique
  • Les plugins comme Yoast SEO ou Rank Math permettent de modifier le robots.txt sans toucher au code
  • Google Search Console est l’outil indispensable pour tester et valider ton fichier robots.txt

Qu’est-ce que le fichier robots.txt et pourquoi il est essentiel

Le robots.txt est un fichier texte placé à la racine de ton site web. Son rôle est simple mais fondamental : il indique aux moteurs de recherche quelles parties de ton site ils ont le droit d’explorer, et lesquelles ils doivent ignorer.

Concrètement, quand Googlebot (le robot d’exploration de Google) arrive sur ton site, la première chose qu’il fait, c’est lire ton fichier robots.txt. C’est comme un panneau d’instructions à l’entrée d’un bâtiment. Avant de visiter les différentes pièces, le robot vérifie s’il y a des zones interdites.

Ce fichier est un élément central du protocole d’exclusion des robots, un standard du web créé en 1994. Tous les moteurs de recherche sérieux (Google, Bing, Yahoo, Yandex) le respectent. Chaque site WordPress en a besoin pour gérer efficacement son budget de crawl et orienter les robots vers les pages qui comptent vraiment pour le référencement.

Pourquoi c’est si important pour ton site WordPress ? Parce que WordPress génère naturellement des dizaines de pages techniques inutiles pour le SEO : pages d’administration, flux RSS, archives de tags, pages de résultats de recherche interne… Sans un robots.txt correctement configuré, les moteurs de recherche perdent du temps à explorer ces pages au lieu de se concentrer sur ton contenu principal.

Comment fonctionne le robots.txt sur WordPress

WordPress a une particularité importante : il génère automatiquement un fichier robots.txt virtuel. Pas besoin de créer un fichier physique. Quand un moteur de recherche demande tonsite.fr/robots.txt, WordPress intercepte la requête et renvoie un contenu généré dynamiquement.

Le robots.txt par défaut de WordPress

Voici ce que WordPress génère automatiquement si tu n’as rien modifié :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://tonsite.fr/sitemap.xml

Ce contenu par défaut fait trois choses :

  • User-agent: * — s’adresse à tous les robots sans exception
  • Disallow: /wp-admin/ — bloque l’accès au tableau de bord d’administration
  • Allow: /wp-admin/admin-ajax.php — autorise l’accès au fichier AJAX (nécessaire pour que certains éléments dynamiques fonctionnent dans le front-end)

C’est un bon début, mais c’est largement insuffisant pour un site WordPress qui veut maximiser son référencement. Le fichier par défaut ne bloque pas les pages de recherche interne, les paramètres d’URL, les archives inutiles ou les flux de commentaires. Autant de ressources que les moteurs de recherche vont explorer inutilement.

Fichier virtuel vs fichier physique

Le robots.txt virtuel de WordPress n’existe pas en tant que fichier sur ton serveur. Il est généré par le code PHP de WordPress à chaque requête. Si tu crées un vrai fichier robots.txt à la racine de ton installation, WordPress utilisera ce fichier physique au lieu de sa version virtuelle.

Avantage du fichier physique : tu as un contrôle total et le contenu ne change pas si WordPress se met à jour. Inconvénient : tu ne peux plus le modifier depuis le tableau de bord avec un plugin. La plupart des experts recommandent d’utiliser un plugin SEO pour gérer le robots.txt, car c’est plus pratique et moins risqué que d’éditer un fichier directement sur le serveur.

Les directives du robots.txt expliquées simplement

Avant de configurer ton robots.txt WordPress, tu dois comprendre les directives disponibles. Pas d’inquiétude, il n’y en a que 5 principales et elles sont toutes simples.

User-agent : cibler un robot spécifique

La directive User-agent définit à quel robot s’appliquent les règles qui suivent. Le caractère * (astérisque) cible tous les robots. Tu peux aussi cibler un robot en particulier :

  • Googlebot — le robot principal de Google
  • Bingbot — le robot de Bing
  • Googlebot-Image — le robot de Google Images
  • GPTBot — le robot d’OpenAI (ChatGPT)
  • Applebot — le robot d’Apple pour Siri et Spotlight

Par exemple, si tu veux bloquer uniquement le robot de ChatGPT mais laisser Google explorer ton site :

User-agent: GPTBot
Disallow: /

User-agent: *
Disallow: /wp-admin/

Disallow : bloquer l’accès

La directive Disallow interdit l’exploration d’un chemin spécifique. C’est la directive la plus utilisée dans un robots.txt. Quelques exemples :

  • Disallow: /wp-admin/ — bloque le dossier d’administration
  • Disallow: /wp-includes/ — bloque les fichiers système WordPress
  • Disallow: /?s= — bloque les pages de recherche interne
  • Disallow: /tag/ — bloque les archives de tags

Attention : Disallow: / bloque l’intégralité du site. Une seule barre oblique suffit à rendre ton site invisible pour les moteurs de recherche. C’est l’erreur la plus dangereuse qui existe dans un fichier robots.txt WordPress.

Allow : autoriser explicitement

La directive Allow autorise l’accès à un sous-dossier d’un dossier bloqué. Elle est utile quand tu veux bloquer un répertoire entier mais garder certains fichiers accessibles :

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dans cet exemple, tout le dossier /wp-admin/ est bloqué sauf le fichier admin-ajax.php, qui est nécessaire au bon fonctionnement du front-end de WordPress.

Sitemap : indiquer le plan du site

La directive Sitemap indique aux moteurs de recherche l’emplacement de ton fichier sitemap XML. C’est un complément essentiel au robots.txt. Le sitemap liste toutes les URLs que tu veux indexer, tandis que le robots.txt liste ce que tu veux exclure. Les deux travaillent ensemble pour guider efficacement les moteurs de recherche sur ton site WordPress.

Sitemap: https://tonsite.fr/sitemap_index.xml

Crawl-delay : limiter la fréquence d’exploration

La directive Crawl-delay demande aux robots d’attendre un certain nombre de secondes entre chaque requête. Google ignore cette directive (il faut utiliser Google Search Console pour régler la fréquence de crawl), mais Bing et Yandex la respectent :

User-agent: Bingbot
Crawl-delay: 10

Cette directive est rarement nécessaire pour un site WordPress standard. Elle peut être utile si ton serveur est surchargé par les robots d’exploration.

Configurer le robots.txt WordPress avec un plugin SEO

La méthode la plus simple et la plus sûre pour configurer ton robots.txt sur WordPress est d’utiliser un plugin SEO. Voici comment faire avec les trois plugins les plus populaires.

Avec Yoast SEO

Yoast SEO est le plugin SEO le plus installé sur WordPress avec plus de 12 millions d’installations actives. Voici la procédure pour modifier ton robots.txt avec Yoast :

  1. Va dans Yoast SEO → Outils dans le menu de gauche de ton tableau de bord
  2. Clique sur Éditeur de fichiers
  3. Tu verras le contenu actuel de ton fichier robots.txt
  4. Modifie le contenu selon tes besoins
  5. Clique sur Enregistrer les modifications

Note importante : si l’option « Éditeur de fichiers » n’apparaît pas, c’est probablement parce que ton hébergeur a désactivé l’édition de fichiers pour des raisons de sécurité. Dans ce cas, tu devras créer le fichier manuellement via FTP ou utiliser le gestionnaire de fichiers de ton hébergeur.

Yoast crée automatiquement un fichier robots.txt physique dès que tu utilises l’éditeur. Ce fichier remplace la version virtuelle générée par WordPress. Si tu désinstalles Yoast, le fichier physique reste en place et continue de fonctionner.

Avec Rank Math

Rank Math est devenu un concurrent sérieux de Yoast grâce à ses nombreuses fonctionnalités gratuites. Pour modifier le robots.txt avec Rank Math :

  1. Va dans Rank Math → Réglages généraux
  2. Clique sur l’onglet Éditer robots.txt
  3. Modifie le contenu du fichier dans l’éditeur
  4. Clique sur Enregistrer les modifications

Rank Math propose aussi une fonctionnalité intéressante : la prévisualisation en temps réel. Tu peux voir exactement à quoi ressemblera ton fichier avant de le publier. Le plugin ajoute automatiquement la directive Sitemap si tu utilises son module de sitemap intégré.

Avec All in One SEO (AIOSEO)

All in One SEO, souvent abrégé AIOSEO, propose également un éditeur de robots.txt intégré. La procédure est similaire :

  1. Va dans All in One SEO → Outils
  2. Clique sur l’onglet Robots.txt
  3. Active l’option Activer le robots.txt personnalisé
  4. Ajoute ou modifie les règles via l’interface visuelle ou l’éditeur de texte
  5. Enregistre tes modifications

L’avantage d’AIOSEO est son interface visuelle avec des champs séparés pour chaque directive. Tu n’as pas besoin de connaître la syntaxe exacte : tu choisis le User-agent, le type (Allow/Disallow) et le chemin dans des menus déroulants. C’est la solution la plus accessible pour les débutants qui veulent configurer leur robots.txt WordPress sans risque d’erreur de syntaxe.

Comparatif des 3 plugins pour le robots.txt

FonctionnalitéYoast SEORank MathAIOSEO
Éditeur robots.txtOui (texte brut)Oui (texte brut)Oui (visuel + texte)
PrévisualisationNonOuiOui
Ajout auto SitemapOuiOuiOui
GratuitOuiOuiOui
Facilité d’utilisationIntermédiaireIntermédiaireDébutant
Support multisiteOui (Premium)Oui (Gratuit)Oui (Premium)

Créer un fichier robots.txt manuellement sur WordPress

Tu préfères ne pas dépendre d’un plugin ? Tu peux créer ton fichier robots.txt manuellement. Cette méthode te donne un contrôle total et garantit que le fichier ne changera pas si tu changes de plugin SEO.

Méthode 1 : via le gestionnaire de fichiers de l’hébergeur

C’est la méthode la plus simple pour créer un fichier robots.txt sans installer de logiciel :

  1. Connecte-toi à ton panneau de contrôle d’hébergement (cPanel, Plesk, etc.)
  2. Ouvre le Gestionnaire de fichiers
  3. Navigue jusqu’au répertoire racine de ton site WordPress (généralement public_html ou www)
  4. Crée un nouveau fichier nommé exactement robots.txt (tout en minuscules)
  5. Colle le contenu de ton robots.txt optimisé
  6. Enregistre le fichier

Vérifie que le fichier est bien à la racine, au même niveau que les dossiers wp-content, wp-admin et wp-includes. Si le fichier est dans un sous-dossier, les moteurs de recherche ne le trouveront pas.

Méthode 2 : via FTP / SFTP

Si tu as accès FTP à ton serveur (avec FileZilla, WinSCP ou Cyberduck), la procédure est quasiment identique :

  1. Connecte-toi à ton serveur via FTP avec tes identifiants
  2. Navigue jusqu’à la racine de ton installation WordPress
  3. Crée un fichier robots.txt sur ton ordinateur avec un éditeur de texte
  4. Transfère ce fichier à la racine du site
  5. Vérifie que les permissions sont en 644 (lecture pour tout le monde)

Méthode 3 : via le fichier functions.php

Tu peux aussi modifier le robots.txt virtuel de WordPress sans créer de fichier physique, en ajoutant du code dans le fichier functions.php de ton thème enfant :

add_filter('robots_txt', function($output, $public) {
    $output = "User-agent: *n";
    $output .= "Disallow: /wp-admin/n";
    $output .= "Allow: /wp-admin/admin-ajax.phpn";
    $output .= "Disallow: /?s=n";
    $output .= "Disallow: /wp-login.phpnn";
    $output .= "Sitemap: " . home_url('/sitemap_index.xml') . "n";
    return $output;
}, 10, 2);

Cette méthode est propre et élégante, mais elle présente un inconvénient : le contenu du robots.txt est lié à ton thème. Si tu changes de thème, tu perdras ta configuration personnalisée. C’est pourquoi on recommande plutôt un plugin ou un fichier physique pour gérer le robots.txt de ton WordPress.

Le robots.txt WordPress optimal : modèle à copier

Voici un modèle de robots.txt optimisé pour WordPress que tu peux adapter à ton site. Il couvre les cas les plus courants et respecte les bonnes pratiques SEO actuelles.

Modèle de base (blog / site vitrine)

# Robots.txt optimisé pour WordPress
# Dernière mise à jour : 2026

User-agent: *

# Bloquer l'administration
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# Bloquer les fichiers système
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /xmlrpc.php

# Bloquer les pages inutiles pour le SEO
Disallow: /?s=
Disallow: /search/
Disallow: /wp-json/
Disallow: /*?replytocom=
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: */feed/

# Bloquer les paramètres d'URL
Disallow: /*?*
Allow: /*?s=

# Bloquer les archives de tags (si non utilisées en SEO)
Disallow: /tag/

# Sitemap
Sitemap: https://tonsite.fr/sitemap_index.xml

Modèle avancé (WooCommerce / e-commerce)

Si tu utilises WooCommerce sur ton site WordPress, ton robots.txt nécessite des règles supplémentaires pour gérer les pages de panier, de commande et les filtres produits :

User-agent: *

# Administration et système
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-login.php

# Pages WooCommerce non indexables
Disallow: /cart/
Disallow: /panier/
Disallow: /checkout/
Disallow: /commande/
Disallow: /my-account/
Disallow: /mon-compte/

# Filtres et paramètres produits
Disallow: /*?orderby=
Disallow: /*?filter_
Disallow: /*?add-to-cart=

# Pages système
Disallow: /?s=
Disallow: /feed/
Disallow: /trackback/
Disallow: /xmlrpc.php

Sitemap: https://tonsite.fr/sitemap_index.xml

Chaque site est différent. Ces modèles sont des points de départ solides, mais tu devras probablement les adapter à la structure de ton propre site WordPress. L’important est de toujours tester après chaque modification (on verra comment dans la section suivante).

Tester et valider ton robots.txt avec Google Search Console

Configurer ton robots.txt WordPress sans le tester, c’est comme écrire du code sans le compiler. Tu dois absolument vérifier que tout fonctionne comme prévu avant de le mettre en production.

L’outil de test robots.txt de Google

Google Search Console proposait historiquement un outil dédié appelé « Outil de test du robots.txt ». Cet outil permettait de :

  • Vérifier la syntaxe de ton fichier pour détecter les erreurs
  • Tester une URL spécifique pour voir si elle est bloquée ou autorisée
  • Identifier les conflits entre les directives Allow et Disallow
  • Voir les avertissements et erreurs de formatage

Même si l’outil classique a évolué, Google Search Console reste l’endroit incontournable pour vérifier l’état de ton fichier robots.txt. Dans la section « Paramètres », tu peux voir le fichier tel que Google l’interprète et identifier d’éventuels problèmes.

Vérification manuelle rapide

La méthode la plus directe pour vérifier ton robots.txt :

  1. Ouvre ton navigateur
  2. Tape https://tonsite.fr/robots.txt dans la barre d’adresse
  3. Vérifie que le contenu affiché correspond exactement à ce que tu as configuré
  4. Vérifie que la directive Sitemap pointe vers une URL accessible

Si tu vois une page d’erreur 404 ou si le contenu est vide, il y a un problème. Vérifie que ton fichier est bien à la racine du site et que les permissions du fichier sont correctes (644 sous Linux).

Tester des URLs spécifiques

Après avoir vérifié le fichier global, teste individuellement les URLs importantes de ton site. Utilise l’outil d’inspection d’URL de Google Search Console pour vérifier que :

  • Tes articles et pages principales ne sont pas bloqués
  • Tes images sont accessibles pour Google Images
  • Tes fichiers CSS et JavaScript ne sont pas bloqués (sinon Google ne peut pas rendre ta page correctement)
  • Tes pages d’administration sont bien bloquées
  • Ton sitemap est accessible

Prends l’habitude de tester ton robots.txt WordPress après chaque modification. Une seule directive mal formulée peut avoir des conséquences désastreuses sur ton référencement.

Les erreurs fatales à éviter dans ton robots.txt WordPress

Le robots.txt est un outil puissant, mais il peut aussi détruire ton référencement en quelques secondes si tu fais une erreur. Voici les 8 erreurs les plus courantes et comment les éviter.

Erreur n°1 : bloquer tout le site

L’erreur la plus grave et malheureusement la plus fréquente :

User-agent: *
Disallow: /

Ces deux lignes suffisent à rendre ton site complètement invisible pour tous les moteurs de recherche. Google ne pourra explorer aucune page. Ton site disparaîtra progressivement des résultats de recherche. Cette erreur arrive souvent lors de la migration d’un site de la phase de développement à la production. Les développeurs bloquent le site pendant les travaux et oublient de supprimer cette directive.

Comment l’éviter : vérifie ton robots.txt après chaque mise en production. Ajoute une vérification dans ta checklist de lancement. Utilise Google Search Console pour recevoir des alertes si des pages importantes sont bloquées.

Erreur n°2 : bloquer les fichiers CSS et JavaScript

Certains webmasters bloquent les fichiers CSS et JS en pensant protéger leur code :

Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/

C’est une très mauvaise idée. Google a besoin d’accéder aux CSS et au JavaScript pour afficher ta page correctement (on parle de rendering). Si ces fichiers sont bloqués, Google verra une version incomplète de ta page et ne pourra pas évaluer correctement l’expérience utilisateur. Ton classement en souffrira directement.

Google a explicitement demandé aux webmasters de ne pas bloquer les ressources CSS et JavaScript dans son guide officiel. C’est un facteur de classement indirect mais réel.

Erreur n°3 : confondre robots.txt et noindex

Le robots.txt et la balise noindex ne font pas la même chose :

  • robots.txt (Disallow) = empêche le robot d’explorer la page (il ne la visite même pas)
  • noindex = le robot visite la page mais ne l’ajoute pas à l’index de recherche

Si tu veux qu’une page n’apparaisse pas dans les résultats de Google, utilise la balise noindex, pas le robots.txt. Pourquoi ? Parce que si tu bloques une page avec le robots.txt, Google ne pourra jamais voir la directive noindex qui est dans le code HTML de la page. Résultat : la page peut quand même apparaître dans les résultats si d’autres sites font des liens vers elle.

Erreur n°4 : oublier le slash final

La syntaxe du robots.txt est sensible. Regarde la différence :

  • Disallow: /wp-admin — bloque tout ce qui commence par /wp-admin (y compris une hypothétique page /wp-administration)
  • Disallow: /wp-admin/ — bloque spécifiquement le répertoire /wp-admin/ et tout son contenu

Ajoute toujours le slash final quand tu veux bloquer un répertoire complet. C’est plus précis et tu évites de bloquer accidentellement des pages dont l’URL commence par le même préfixe.

Erreur n°5 : utiliser robots.txt pour masquer du contenu sensible

Le fichier robots.txt est public et accessible à tout le monde. N’importe qui peut le lire en tapant tonsite.fr/robots.txt. Si tu y mets des chemins vers des pages confidentielles, tu les révèles au monde entier. Des hackers utilisent justement les fichiers robots.txt pour trouver des répertoires cachés ou des pages d’administration non sécurisées.

Pour protéger du contenu sensible, utilise l’authentification par mot de passe, le fichier .htaccess ou une protection côté serveur. Jamais le robots.txt.

Erreur n°6 : ne pas inclure le sitemap

Beaucoup de sites WordPress ont un robots.txt qui ne contient pas la directive Sitemap. C’est une occasion manquée. Le robots.txt est le premier fichier lu par les moteurs de recherche. En y incluant l’URL de ton sitemap, tu garantis que Google trouvera automatiquement la liste de toutes tes pages importantes, même sans passer par Google Search Console.

Erreur n°7 : avoir des directives contradictoires

Quand les directives se contredisent, les moteurs de recherche doivent choisir laquelle appliquer. Le résultat peut être imprévisible :

User-agent: *
Disallow: /blog/
Allow: /blog/article-important/
Disallow: /blog/article-important/images/

Ce type de configuration en cascade peut créer de la confusion. Garde ton robots.txt aussi simple que possible. Plus il est court et clair, moins il y a de risques de conflits. Si tu as besoin de règles complexes, documente-les avec des commentaires (lignes commençant par #).

Erreur n°8 : ne jamais mettre à jour le fichier

Ton site évolue : nouvelles pages, nouvelle structure, nouveaux plugins. Ton robots.txt doit évoluer avec lui. Prends l’habitude de le revoir au moins une fois par trimestre. Vérifie que les chemins bloqués existent toujours et que les nouvelles sections de ton site sont correctement gérées.

Robots.txt et SEO : les bonnes pratiques avancées

Au-delà de la configuration de base, il existe des techniques avancées pour tirer le maximum de ton robots.txt WordPress en termes de référencement.

Optimiser le budget de crawl

Le budget de crawl représente le nombre de pages que Google est prêt à explorer sur ton site dans un laps de temps donné. Pour un petit blog WordPress de 50 pages, ce n’est pas un problème. Mais pour un site e-commerce avec des milliers de produits et de variantes, le budget de crawl devient un enjeu stratégique.

Utilise le robots.txt pour empêcher les moteurs de recherche de gaspiller leur budget sur des pages à faible valeur. Bloque les pages de résultats de recherche interne, les pages de pagination profondes (au-delà de la page 5), les filtres de tri et les pages de tags avec peu de contenu. Chaque page inutile bloquée, c’est une page importante en plus qui sera explorée.

Gérer les robots d’intelligence artificielle

Depuis 2023, de nouveaux robots parcourent le web pour alimenter les modèles d’IA. Si tu ne veux pas que ton contenu soit utilisé pour entraîner des modèles de langage, tu peux les bloquer dans ton robots.txt WordPress :

# Bloquer les robots IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

Note que bloquer Google-Extended empêche l’utilisation de ton contenu par Bard/Gemini sans affecter ton référencement classique. C’est une distinction importante : Googlebot (le robot de recherche) et Google-Extended (le robot IA) sont deux agents différents.

Robots.txt pour un WordPress multilingue

Si ton site WordPress utilise WPML, Polylang ou TranslatePress pour gérer plusieurs langues, ton robots.txt doit inclure les sitemaps de chaque langue :

Sitemap: https://tonsite.fr/sitemap_index.xml
Sitemap: https://tonsite.fr/en/sitemap_index.xml
Sitemap: https://tonsite.fr/es/sitemap_index.xml

Assure-toi aussi que les versions traduites de tes pages ne sont pas accidentellement bloquées par une directive trop large. Par exemple, Disallow: /en/wp-admin/ ne fonctionne pas car le dossier /wp-admin/ n’est pas dupliqué dans les sous-répertoires de langue.

Robots.txt et WordPress multisite

Pour un réseau WordPress multisite, chaque sous-site doit avoir son propre robots.txt. Si ton réseau utilise des sous-répertoires (exemple : tonsite.fr/blog1/, tonsite.fr/blog2/), seul le robots.txt à la racine sera lu par les moteurs de recherche. Tu devras y inclure les règles pour tous les sous-sites.

Si ton réseau utilise des sous-domaines (blog1.tonsite.fr, blog2.tonsite.fr), chaque sous-domaine peut avoir son propre fichier robots.txt indépendant.

Comment vérifier que ton robots.txt WordPress fonctionne

La configuration ne suffit pas. Tu dois mettre en place une routine de vérification pour t’assurer que tout fonctionne correctement dans la durée.

Vérification avec Google Search Console

Google Search Console est ton meilleur allié pour surveiller l’impact de ton robots.txt. Voici ce que tu dois vérifier régulièrement :

  1. Rapport de couverture : vérifie qu’aucune page importante n’est listée comme « Bloquée par le fichier robots.txt »
  2. Inspection d’URL : teste manuellement tes pages clés pour confirmer qu’elles sont accessibles
  3. Rapport Sitemaps : vérifie que Google peut lire ton sitemap déclaré dans le robots.txt
  4. Statistiques d’exploration : observe l’évolution du nombre de pages explorées par jour

Si tu constates une chute soudaine du nombre de pages explorées, ton robots.txt peut en être la cause. Vérifie immédiatement qu’aucune directive ne bloque des pages importantes.

Vérification avec des outils tiers

Plusieurs outils en ligne gratuits permettent de tester et analyser ton robots.txt WordPress :

  • Google Rich Results Test — vérifie que Google peut accéder et rendre tes pages
  • Screaming Frog — crawl ton site en respectant ton robots.txt pour identifier les pages bloquées
  • Ahrefs / SEMrush — signalent les pages bloquées qui reçoivent des backlinks (perte de jus SEO)

L’idéal est de lancer un crawl complet de ton site avec Screaming Frog en activant l’option « Respecter robots.txt ». Tu verras exactement quelles pages sont bloquées et pourras vérifier que seules les pages voulues sont exclues.

Checklist de vérification trimestrielle

Tous les 3 mois, passe en revue cette checklist pour ton robots.txt WordPress :

  • Le fichier est accessible à tonsite.fr/robots.txt
  • Aucune page de contenu importante n’est bloquée
  • Les fichiers CSS et JavaScript ne sont pas bloqués
  • La directive Sitemap pointe vers un sitemap valide et à jour
  • Les chemins bloqués existent toujours sur le site
  • Les nouveaux répertoires ou pages créés depuis la dernière vérification sont correctement gérés
  • Les robots d’IA sont gérés selon ta politique de contenu
  • Google Search Console ne signale aucun problème lié au robots.txt

Robots.txt vs autres méthodes de contrôle du crawl

Le robots.txt n’est pas le seul outil pour contrôler l’exploration de ton site WordPress par les moteurs de recherche. Voici une comparaison des différentes méthodes disponibles.

Robots.txt vs balise meta robots (noindex)

La balise meta robots (<meta name="robots" content="noindex">) est placée dans le code HTML de chaque page. Contrairement au robots.txt qui empêche l’exploration, la balise noindex permet l’exploration mais empêche l’indexation. C’est la méthode recommandée quand tu veux qu’une page spécifique n’apparaisse pas dans les résultats de recherche.

Utilise le robots.txt pour gérer les répertoires entiers et les ressources techniques. Utilise noindex pour gérer les pages individuelles. Les deux sont complémentaires et chaque site WordPress devrait utiliser les deux.

Robots.txt vs en-tête X-Robots-Tag

L’en-tête HTTP X-Robots-Tag fonctionne comme la balise meta robots, mais elle est envoyée dans les en-têtes de la réponse HTTP au lieu d’être dans le code HTML. Son avantage principal : elle fonctionne pour les fichiers non-HTML (PDF, images, vidéos). Si tu veux empêcher l’indexation d’un fichier PDF sur ton site WordPress, l’en-tête X-Robots-Tag est la seule solution efficace.

Robots.txt vs .htaccess

Le fichier .htaccess (sur les serveurs Apache) permet de bloquer l’accès au niveau du serveur. Contrairement au robots.txt qui est une simple demande polie aux robots, le .htaccess bloque physiquement l’accès. Un robot qui ignore le robots.txt sera quand même arrêté par le .htaccess. Utilise le .htaccess pour la sécurité et le robots.txt pour le SEO.

MéthodeFonctionScopeUsage recommandé
robots.txtContrôle l’explorationRépertoires / sectionsGestion du budget de crawl
noindexEmpêche l’indexationPages individuellesPages à ne pas indexer
X-Robots-TagEmpêche l’indexationTout type de fichierPDF, images, fichiers
.htaccessBloque l’accès serveurToutSécurité
canonicalGère le contenu dupliquéPages individuellesVersions alternatives

FAQ : les questions fréquentes sur le robots.txt WordPress

Mon site WordPress a-t-il déjà un robots.txt ?

Oui. WordPress génère automatiquement un fichier robots.txt virtuel avec des directives de base. Tu peux le vérifier en visitant tonsite.fr/robots.txt. Si tu vois un contenu, c’est que le fichier existe (virtuel ou physique). Si tu as une erreur 404, c’est qu’il y a un problème de configuration de tes permaliens ou qu’un plugin interfère.

Le robots.txt peut-il empêcher une page d’apparaître sur Google ?

Non, pas totalement. Le robots.txt empêche Google d’explorer la page, mais si d’autres sites font des liens vers cette page, Google peut quand même l’indexer partiellement (l’URL apparaîtra dans les résultats, mais sans description). Pour empêcher complètement l’apparition dans Google, utilise la balise noindex et assure-toi de ne pas bloquer la page dans le robots.txt (sinon Google ne verra jamais le noindex).

Faut-il bloquer /wp-content/ dans le robots.txt ?

Non, surtout pas. Le dossier /wp-content/ contient tes images, tes fichiers CSS et JavaScript. Les bloquer empêcherait Google de rendre correctement tes pages et d’indexer tes images. Tu peux bloquer des sous-dossiers spécifiques comme /wp-content/cache/ ou /wp-content/backup/, mais jamais le dossier wp-content en entier.

Combien de temps faut-il pour que les changements prennent effet ?

Google met en cache ton fichier robots.txt et le rafraîchit environ toutes les 24 heures. Les modifications peuvent prendre de quelques heures à quelques jours pour être prises en compte. Si tu as besoin que Google prenne en compte une modification urgente, utilise l’outil de soumission dans Google Search Console pour demander une réévaluation plus rapide.

Le robots.txt affecte-t-il mon classement SEO ?

Indirectement, oui. Le robots.txt en lui-même n’est pas un facteur de classement direct. Mais un robots.txt mal configuré peut bloquer des pages importantes, empêcher Google de voir tes CSS/JS, ou gaspiller ton budget de crawl. Tout cela affecte négativement ton référencement. Un robots.txt bien configuré sur WordPress contribue à un meilleur crawl, une meilleure indexation et donc un meilleur classement.

Quelle différence entre Disallow et noindex pour le SEO ?

Disallow dans le robots.txt empêche le robot d’accéder à la page. Noindex dans le HTML empêche le robot d’ajouter la page à l’index de recherche. Pour le SEO, la règle est simple : si tu veux qu’une page ne soit pas indexée mais que le jus de liens (link equity) soit transmis, utilise noindex. Si tu veux économiser du budget de crawl sur des ressources techniques, utilise Disallow dans le robots.txt.

Avantages

  • Contrôle du crawl : le robots.txt te permet de diriger les moteurs de recherche vers ton contenu le plus important
  • Économie de budget de crawl : bloque les pages inutiles pour que Google explore davantage tes pages qui comptent
  • Facilité de mise en place : un simple fichier texte, pas besoin de compétences techniques avancées sur WordPress
  • Compatible avec tous les plugins SEO : Yoast, Rank Math et AIOSEO offrent tous un éditeur intégré
  • Protection contre les robots IA : bloque l’utilisation de ton contenu par les modèles de langage

Inconvénients

  • Pas un outil de sécurité : le fichier est public et ne protège rien réellement contre les accès malveillants
  • Ne garantit pas la désindexation : bloquer une page ne la supprime pas forcément des résultats Google
  • Risque d’erreur élevé : une seule mauvaise ligne peut désindexer tout ton site WordPress
  • Pas de granularité fine : impossible de bloquer une page spécifique sans bloquer toutes les URLs du même chemin
  • Non respecté par tous les robots : les robots malveillants ignorent le robots.txt
Notre avis sur le robots.txt WordPress

Le fichier robots.txt est un élément fondamental de la stratégie SEO de tout site WordPress. Ce n’est pas un gadget optionnel : c’est un outil essentiel pour contrôler comment les moteurs de recherche explorent ton site et optimiser ton budget de crawl.

Pour la grande majorité des sites WordPress, la configuration est simple : bloque l’administration, les pages système et les contenus à faible valeur, déclare ton sitemap, et teste avec Google Search Console. Les plugins comme Yoast SEO ou Rank Math rendent l’opération accessible à tous, même sans connaissances techniques.

L’erreur la plus courante reste de ne jamais y toucher et de laisser le robots.txt par défaut de WordPress, qui est trop minimaliste. Prends 15 minutes pour configurer un robots.txt optimisé, et tu donneras à ton site un avantage concret en termes de référencement. Si tu débutes avec WordPress, consulte notre guide d’optimisation SEO WordPress pour aller plus loin.

L'équipe Formalive
Écrit parL'équipe Formalive

Chez Formalive, chaque produit est testé en conditions réelles par notre équipe de rédacteurs spécialisés. Plus de 50 outils analysés, 200+ heures de tests et un seul objectif : vous recommander uniquement ce qui fonctionne vraiment.

✓ +50 produits testés✓ Indépendant & transparent✓ Mis à jour chaque mois