Chaque année, des centaines de sites perdent brutalement leur visibilité dans Google à cause d'un robots.txt mal configuré. Une seule ligne incorrecte peut bloquer le crawl de tout votre site — et vous n'en saurez rien avant que votre trafic s'effondre.
Ce guide vous explique tout ce que vous devez savoir sur robots.txt : ce que c'est, comment le configurer correctement, quelles erreurs éviter absolument, et comment vérifier que Google peut bien crawler votre site.
1. C'est quoi robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine de votre site qui donne des instructions aux robots d'exploration (crawlers) des moteurs de recherche. C'est la première chose que Googlebot lit avant de commencer à explorer votre site.
Il est accessible publiquement à cette adresse : https://votresite.com/robots.txt
robots.txt utilise le Robots Exclusion Protocol — un standard accepté par tous les grands moteurs de recherche (Google, Bing, Yandex, DuckDuckGo). Les robots bien intentionnés le respectent. Les scrapers malveillants, eux, l'ignorent souvent.
Un robots.txt typique ressemble à ceci :
2. Les directives essentielles expliquées
User-agent — À qui s'adresse la règle
La directive User-agent spécifie quel robot est concerné par les règles qui suivent.
Disallow — Ce qu'il ne faut PAS crawler
Allow — Autoriser une exception dans un dossier bloqué
| Directive | Rôle | Exemple |
|---|---|---|
User-agent | Cible le robot concerné | User-agent: Googlebot |
Disallow | Interdit le crawl d'un chemin | Disallow: /admin/ |
Allow | Autorise une exception | Allow: /public/ |
Sitemap | Indique l'URL du sitemap | Sitemap: https://site.com/sitemap.xml |
Crawl-delay | Délai entre 2 requêtes (non supporté par Google) | Crawl-delay: 2 |
3. Exemples concrets par CMS
WordPress — Robots.txt optimal
PrestaShop — Robots.txt optimal
🤖 Votre robots.txt est-il correctement configuré ?
SEO-IA vérifie automatiquement votre robots.txt à chaque analyse et vous alerte si Google risque d'être bloqué sur des pages importantes.
Vérifier mon robots.txt → Créer un compte gratuit4. Erreurs mortelles à éviter absolument
L'erreur la plus fréquente et la plus catastrophique. C'est souvent causé par un Disallow: / oublié ou une activation du mode maintenance dans WordPress.
Google a besoin de voir vos CSS et JS pour évaluer le rendu de vos pages. Bloquer /wp-content/themes/ ou /assets/ entièrement empêche Google de rendre votre site correctement, ce qui impacte le score mobile et les CWV.
robots.txt n'est pas un mécanisme de sécurité. N'y mettez pas les chemins de vos pages d'administration pour les "cacher" — vous les exposez au contraire ! Les robots malveillants lisent robots.txt pour trouver précisément les cibles intéressantes.
5. noindex vs Disallow : la confusion fatale
C'est l'une des confusions les plus dangereuses en SEO technique. Beaucoup de webmasters pensent que Disallow dans robots.txt empêche l'indexation. C'est faux.
| Méthode | Empêche le crawl ? | Empêche l'indexation ? | Quand l'utiliser ? |
|---|---|---|---|
Disallow (robots.txt) | ✅ Oui | ❌ Non | Économiser le budget de crawl |
meta noindex (sur la page) | ❌ Non | ✅ Oui | Exclure une page de l'index Google |
Disallow + noindex | ✅ Oui | ⚠️ Paradoxal | À éviter — Google ne peut pas lire le noindex si la page est bloquée |
Si vous bloquez une page avec Disallow ET mettez une balise noindex dessus, Google ne peut pas lire le noindex (il ne crawle pas la page). Résultat : la page peut quand même apparaître dans les résultats si elle reçoit des liens. Pour désindexer, n'utilisez que la balise noindex, sans Disallow.
6. Indiquer votre Sitemap dans robots.txt
C'est une bonne pratique simple qui aide Google à découvrir toutes vos pages plus rapidement. Ajoutez simplement cette ligne à la fin de votre robots.txt :
7. Comment vérifier votre robots.txt
Outil officiel Google Search Console
Dans la Google Search Console, allez dans Paramètres → Testeur robots.txt. Vous pouvez tester n'importe quelle URL pour savoir si Googlebot est autorisé à la crawler selon votre configuration actuelle.
Vérification manuelle rapide
Tapez simplement votresite.com/robots.txt dans votre navigateur. Si vous obtenez une page 404, votre robots.txt est absent — ce qui n'est pas catastrophique mais sous-optimal.
SEO-IA — Vérification automatique
À chaque analyse, SEO-IA vérifie que :
- Le fichier robots.txt est présent et répond en 200
- Il ne bloque pas les pages importantes de votre site
- Le sitemap est bien référencé dans robots.txt
- Il n'y a pas de
Disallow: /accidentel
8. FAQ robots.txt
https://votresite.com/robots.txt. Sur un sous-domaine blog.votresite.com, le robots.txt serait blog.votresite.com/robots.txt et ne s'applique qu'à ce sous-domaine.<meta name="robots" content="noindex"> directement sur la page.User-agent, Disallow...) ne sont pas sensibles à la casse. En revanche, les chemins (URLs) le sont. Disallow: /Admin/ et Disallow: /admin/ sont deux règles différentes sur un serveur Linux.# sont des commentaires, ignorés par les robots. Utilisez-les pour documenter vos règles — c'est une bonne pratique.