Chaque année, des centaines de sites perdent brutalement leur visibilité dans Google à cause d'un robots.txt mal configuré. Une seule ligne incorrecte peut bloquer le crawl de tout votre site — et vous n'en saurez rien avant que votre trafic s'effondre.

Ce guide vous explique tout ce que vous devez savoir sur robots.txt : ce que c'est, comment le configurer correctement, quelles erreurs éviter absolument, et comment vérifier que Google peut bien crawler votre site.

1. C'est quoi robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site qui donne des instructions aux robots d'exploration (crawlers) des moteurs de recherche. C'est la première chose que Googlebot lit avant de commencer à explorer votre site.

Il est accessible publiquement à cette adresse : https://votresite.com/robots.txt

💡 À retenir

robots.txt utilise le Robots Exclusion Protocol — un standard accepté par tous les grands moteurs de recherche (Google, Bing, Yandex, DuckDuckGo). Les robots bien intentionnés le respectent. Les scrapers malveillants, eux, l'ignorent souvent.

Un robots.txt typique ressemble à ceci :

# Robots.txt de votresite.com User-agent: * Disallow: /admin/ Disallow: /private/ Allow: / Sitemap: https://votresite.com/sitemap.xml

2. Les directives essentielles expliquées

User-agent — À qui s'adresse la règle

La directive User-agent spécifie quel robot est concerné par les règles qui suivent.

User-agent: * # Toutes les règles s'appliquent à TOUS les robots User-agent: Googlebot # Uniquement Googlebot User-agent: Bingbot # Uniquement le robot de Bing

Disallow — Ce qu'il ne faut PAS crawler

Disallow: /admin/ # Bloque le dossier /admin/ et tout son contenu Disallow: /page-privee # Bloque cette URL précise Disallow: /*.pdf$ # Bloque tous les fichiers .pdf (syntaxe étendue) Disallow: / # ⚠️ DANGER : bloque TOUT le site !

Allow — Autoriser une exception dans un dossier bloqué

User-agent: * Disallow: /wp-content/ Allow: /wp-content/uploads/ # On autorise les images même dans wp-content bloqué
DirectiveRôleExemple
User-agentCible le robot concernéUser-agent: Googlebot
DisallowInterdit le crawl d'un cheminDisallow: /admin/
AllowAutorise une exceptionAllow: /public/
SitemapIndique l'URL du sitemapSitemap: https://site.com/sitemap.xml
Crawl-delayDélai entre 2 requêtes (non supporté par Google)Crawl-delay: 2

3. Exemples concrets par CMS

WordPress — Robots.txt optimal

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php # Nécessaire pour certains plugins Disallow: /wp-includes/ Disallow: /wp-login.php Disallow: /?s= # Résultats de recherche interne Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Sitemap: https://votresite.com/sitemap.xml

PrestaShop — Robots.txt optimal

User-agent: * Disallow: /admin*/ Disallow: /config/ Disallow: /download/ Disallow: /modules/ Disallow: /themes/ Disallow: /*? # Paramètres URL (pagination, filtres...) Allow: /*?id_product= # Sauf les pages produits avec paramètre Sitemap: https://votresite.com/sitemap.xml

🤖 Votre robots.txt est-il correctement configuré ?

SEO-IA vérifie automatiquement votre robots.txt à chaque analyse et vous alerte si Google risque d'être bloqué sur des pages importantes.

Vérifier mon robots.txt → Créer un compte gratuit

4. Erreurs mortelles à éviter absolument

🚨 Erreur #1 — Le site entier bloqué

L'erreur la plus fréquente et la plus catastrophique. C'est souvent causé par un Disallow: / oublié ou une activation du mode maintenance dans WordPress.

# ❌ MAUVAIS — bloque tout votre site ! User-agent: * Disallow: / # ✅ BON — autorise tout avec des exceptions User-agent: * Disallow: /admin/
🚨 Erreur #2 — Bloquer les CSS et JS

Google a besoin de voir vos CSS et JS pour évaluer le rendu de vos pages. Bloquer /wp-content/themes/ ou /assets/ entièrement empêche Google de rendre votre site correctement, ce qui impacte le score mobile et les CWV.

🚨 Erreur #3 — robots.txt comme protection de sécurité

robots.txt n'est pas un mécanisme de sécurité. N'y mettez pas les chemins de vos pages d'administration pour les "cacher" — vous les exposez au contraire ! Les robots malveillants lisent robots.txt pour trouver précisément les cibles intéressantes.

5. noindex vs Disallow : la confusion fatale

C'est l'une des confusions les plus dangereuses en SEO technique. Beaucoup de webmasters pensent que Disallow dans robots.txt empêche l'indexation. C'est faux.

MéthodeEmpêche le crawl ?Empêche l'indexation ?Quand l'utiliser ?
Disallow (robots.txt)✅ Oui❌ NonÉconomiser le budget de crawl
meta noindex (sur la page)❌ Non✅ OuiExclure une page de l'index Google
Disallow + noindex✅ Oui⚠️ ParadoxalÀ éviter — Google ne peut pas lire le noindex si la page est bloquée
⚠️ Le paradoxe fatal

Si vous bloquez une page avec Disallow ET mettez une balise noindex dessus, Google ne peut pas lire le noindex (il ne crawle pas la page). Résultat : la page peut quand même apparaître dans les résultats si elle reçoit des liens. Pour désindexer, n'utilisez que la balise noindex, sans Disallow.

6. Indiquer votre Sitemap dans robots.txt

C'est une bonne pratique simple qui aide Google à découvrir toutes vos pages plus rapidement. Ajoutez simplement cette ligne à la fin de votre robots.txt :

Sitemap: https://votresite.com/sitemap.xml # Si vous avez plusieurs sitemaps : Sitemap: https://votresite.com/sitemap-pages.xml Sitemap: https://votresite.com/sitemap-blog.xml Sitemap: https://votresite.com/sitemap-produits.xml

7. Comment vérifier votre robots.txt

Outil officiel Google Search Console

Dans la Google Search Console, allez dans Paramètres → Testeur robots.txt. Vous pouvez tester n'importe quelle URL pour savoir si Googlebot est autorisé à la crawler selon votre configuration actuelle.

Vérification manuelle rapide

Tapez simplement votresite.com/robots.txt dans votre navigateur. Si vous obtenez une page 404, votre robots.txt est absent — ce qui n'est pas catastrophique mais sous-optimal.

SEO-IA — Vérification automatique

À chaque analyse, SEO-IA vérifie que :

  • Le fichier robots.txt est présent et répond en 200
  • Il ne bloque pas les pages importantes de votre site
  • Le sitemap est bien référencé dans robots.txt
  • Il n'y a pas de Disallow: / accidentel

8. FAQ robots.txt

❓ Où placer exactement le fichier robots.txt ?
À la racine de votre domaine principal, accessible via https://votresite.com/robots.txt. Sur un sous-domaine blog.votresite.com, le robots.txt serait blog.votresite.com/robots.txt et ne s'applique qu'à ce sous-domaine.
❓ Un Disallow empêche-t-il Google d'indexer une page ?
Non ! Un Disallow empêche Google de crawler la page, pas de l'indexer. Si la page reçoit des liens externes, Google peut toujours l'indexer sans la visiter. Pour bloquer l'indexation, utilisez la balise <meta name="robots" content="noindex"> directement sur la page.
❓ robots.txt est-il sensible à la casse ?
Les directives (User-agent, Disallow...) ne sont pas sensibles à la casse. En revanche, les chemins (URLs) le sont. Disallow: /Admin/ et Disallow: /admin/ sont deux règles différentes sur un serveur Linux.
❓ Que se passe-t-il si robots.txt est absent ?
Google considère que tout le site est crawlable et l'explore intégralement. Ce n'est pas une erreur critique, mais un robots.txt bien configuré optimise le budget de crawl — particulièrement important pour les grands sites.
❓ Les commentaires sont-ils autorisés dans robots.txt ?
Oui ! Les lignes commençant par # sont des commentaires, ignorés par les robots. Utilisez-les pour documenter vos règles — c'est une bonne pratique.