Où se trouve le fichier robots.txt ?

Le fichier robots.txt doit être placé à la racine de votre domaine, accessible via https://votresite.com/robots.txt. Il doit être accessible publiquement sans authentification.

Est-ce qu'un Disallow empêche Google d'indexer une page ?

Non ! Un Disallow dans robots.txt empêche Google de crawler (visiter) la page, mais pas de l'indexer si elle reçoit des liens externes. Pour bloquer l'indexation, il faut utiliser la balise meta noindex sur la page.

robots.txt : le guide complet pour bien configurer Google

Q: Que se passe-t-il si robots.txt est absent ?

Si robots.txt est absent (erreur 404), Google considère que tout le site est accessible et le crawle intégralement. Ce n'est pas catastrophique, mais un robots.txt bien configuré optimise le budget de crawl.

Chaque année, des centaines de sites perdent brutalement leur visibilité dans Google à cause d'un robots.txt mal configuré. Une seule ligne incorrecte peut bloquer le crawl de tout votre site — et vous n'en saurez rien avant que votre trafic s'effondre.

Ce guide vous explique tout ce que vous devez savoir sur robots.txt : ce que c'est, comment le configurer correctement, quelles erreurs éviter absolument, et comment vérifier que Google peut bien crawler votre site.

1. C'est quoi robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site qui donne des instructions aux robots d'exploration (crawlers) des moteurs de recherche. C'est la première chose que Googlebot lit avant de commencer à explorer votre site.

Il est accessible publiquement à cette adresse : https://votresite.com/robots.txt

💡 À retenir

robots.txt utilise le Robots Exclusion Protocol — un standard accepté par tous les grands moteurs de recherche (Google, Bing, Yandex, DuckDuckGo). Les robots bien intentionnés le respectent. Les scrapers malveillants, eux, l'ignorent souvent.

Un robots.txt typique ressemble à ceci :

# Robots.txt de votresite.com

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /

Sitemap: https://votresite.com/sitemap.xml
    

2. Les directives essentielles expliquées

User-agent — À qui s'adresse la règle

La directive User-agent spécifie quel robot est concerné par les règles qui suivent.

User-agent: *          # Toutes les règles s'appliquent à TOUS les robots
User-agent: Googlebot   # Uniquement Googlebot
User-agent: Bingbot     # Uniquement le robot de Bing
    

Disallow — Ce qu'il ne faut PAS crawler

Disallow: /admin/         # Bloque le dossier /admin/ et tout son contenu
Disallow: /page-privee    # Bloque cette URL précise
Disallow: /*.pdf$         # Bloque tous les fichiers .pdf (syntaxe étendue)
Disallow: /               # ⚠️ DANGER : bloque TOUT le site !
    

Allow — Autoriser une exception dans un dossier bloqué

User-agent: *
Disallow: /wp-content/
Allow: /wp-content/uploads/    # On autorise les images même dans wp-content bloqué
    

Directive	Rôle	Exemple
`User-agent`	Cible le robot concerné	`User-agent: Googlebot`
`Disallow`	Interdit le crawl d'un chemin	`Disallow: /admin/`
`Allow`	Autorise une exception	`Allow: /public/`
`Sitemap`	Indique l'URL du sitemap	`Sitemap: https://site.com/sitemap.xml`
`Crawl-delay`	Délai entre 2 requêtes (non supporté par Google)	`Crawl-delay: 2`

3. Exemples concrets par CMS

WordPress — Robots.txt optimal

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php     # Nécessaire pour certains plugins
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /?s=                          # Résultats de recherche interne
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/

Sitemap: https://votresite.com/sitemap.xml
    

PrestaShop — Robots.txt optimal

User-agent: *
Disallow: /admin*/
Disallow: /config/
Disallow: /download/
Disallow: /modules/
Disallow: /themes/
Disallow: /*?                           # Paramètres URL (pagination, filtres...)
Allow: /*?id_product=                 # Sauf les pages produits avec paramètre

Sitemap: https://votresite.com/sitemap.xml
    

🤖 Votre robots.txt est-il correctement configuré ?

SEO-IA vérifie automatiquement votre robots.txt à chaque analyse et vous alerte si Google risque d'être bloqué sur des pages importantes.

Vérifier mon robots.txt → Créer un compte gratuit

4. Erreurs mortelles à éviter absolument

🚨 Erreur #1 — Le site entier bloqué

L'erreur la plus fréquente et la plus catastrophique. C'est souvent causé par un Disallow: / oublié ou une activation du mode maintenance dans WordPress.

# ❌ MAUVAIS — bloque tout votre site !
User-agent: *
Disallow: /

# ✅ BON — autorise tout avec des exceptions
User-agent: *
Disallow: /admin/
    

🚨 Erreur #2 — Bloquer les CSS et JS

Google a besoin de voir vos CSS et JS pour évaluer le rendu de vos pages. Bloquer /wp-content/themes/ ou /assets/ entièrement empêche Google de rendre votre site correctement, ce qui impacte le score mobile et les CWV.

🚨 Erreur #3 — robots.txt comme protection de sécurité

robots.txt n'est pas un mécanisme de sécurité. N'y mettez pas les chemins de vos pages d'administration pour les "cacher" — vous les exposez au contraire ! Les robots malveillants lisent robots.txt pour trouver précisément les cibles intéressantes.

5. noindex vs Disallow : la confusion fatale

C'est l'une des confusions les plus dangereuses en SEO technique. Beaucoup de webmasters pensent que Disallow dans robots.txt empêche l'indexation. C'est faux.

Méthode	Empêche le crawl ?	Empêche l'indexation ?	Quand l'utiliser ?
`Disallow` (robots.txt)	✅ Oui	❌ Non	Économiser le budget de crawl
`meta noindex` (sur la page)	❌ Non	✅ Oui	Exclure une page de l'index Google
`Disallow` + `noindex`	✅ Oui	⚠️ Paradoxal	À éviter — Google ne peut pas lire le noindex si la page est bloquée

⚠️ Le paradoxe fatal

Si vous bloquez une page avec Disallow ET mettez une balise noindex dessus, Google ne peut pas lire le noindex (il ne crawle pas la page). Résultat : la page peut quand même apparaître dans les résultats si elle reçoit des liens. Pour désindexer, n'utilisez que la balise noindex, sans Disallow.

6. Indiquer votre Sitemap dans robots.txt

C'est une bonne pratique simple qui aide Google à découvrir toutes vos pages plus rapidement. Ajoutez simplement cette ligne à la fin de votre robots.txt :

Sitemap: https://votresite.com/sitemap.xml

# Si vous avez plusieurs sitemaps :
Sitemap: https://votresite.com/sitemap-pages.xml
Sitemap: https://votresite.com/sitemap-blog.xml
Sitemap: https://votresite.com/sitemap-produits.xml
    

7. Comment vérifier votre robots.txt

Outil officiel Google Search Console

Dans la Google Search Console, allez dans Paramètres → Testeur robots.txt. Vous pouvez tester n'importe quelle URL pour savoir si Googlebot est autorisé à la crawler selon votre configuration actuelle.

Vérification manuelle rapide

Tapez simplement votresite.com/robots.txt dans votre navigateur. Si vous obtenez une page 404, votre robots.txt est absent — ce qui n'est pas catastrophique mais sous-optimal.

SEO-IA — Vérification automatique

À chaque analyse, SEO-IA vérifie que :

Le fichier robots.txt est présent et répond en 200
Il ne bloque pas les pages importantes de votre site
Le sitemap est bien référencé dans robots.txt
Il n'y a pas de Disallow: / accidentel

8. FAQ robots.txt

❓ Où placer exactement le fichier robots.txt ?

À la racine de votre domaine principal, accessible via https://votresite.com/robots.txt. Sur un sous-domaine blog.votresite.com, le robots.txt serait blog.votresite.com/robots.txt et ne s'applique qu'à ce sous-domaine.

❓ Un Disallow empêche-t-il Google d'indexer une page ?

Non ! Un Disallow empêche Google de crawler la page, pas de l'indexer. Si la page reçoit des liens externes, Google peut toujours l'indexer sans la visiter. Pour bloquer l'indexation, utilisez la balise <meta name="robots" content="noindex"> directement sur la page.

❓ robots.txt est-il sensible à la casse ?

Les directives (User-agent, Disallow...) ne sont pas sensibles à la casse. En revanche, les chemins (URLs) le sont. Disallow: /Admin/ et Disallow: /admin/ sont deux règles différentes sur un serveur Linux.

❓ Que se passe-t-il si robots.txt est absent ?

Google considère que tout le site est crawlable et l'explore intégralement. Ce n'est pas une erreur critique, mais un robots.txt bien configuré optimise le budget de crawl — particulièrement important pour les grands sites.

❓ Les commentaires sont-ils autorisés dans robots.txt ?

Oui ! Les lignes commençant par # sont des commentaires, ignorés par les robots. Utilisez-les pour documenter vos règles — c'est une bonne pratique.

robots.txt : le guide complet pour configurer Google sans se tirer une balle dans le pied

📋 Sommaire

1. C'est quoi robots.txt ?

2. Les directives essentielles expliquées

User-agent — À qui s'adresse la règle

Disallow — Ce qu'il ne faut PAS crawler

Allow — Autoriser une exception dans un dossier bloqué

3. Exemples concrets par CMS

WordPress — Robots.txt optimal

PrestaShop — Robots.txt optimal

🤖 Votre robots.txt est-il correctement configuré ?

4. Erreurs mortelles à éviter absolument

5. noindex vs Disallow : la confusion fatale

6. Indiquer votre Sitemap dans robots.txt

7. Comment vérifier votre robots.txt

Outil officiel Google Search Console

Vérification manuelle rapide

SEO-IA — Vérification automatique

8. FAQ robots.txt

Votre robots.txt est-il correctement configuré ?

📚 Articles liés

robots.txt : le guide complet pour configurer Google sans se tirer une balle dans le pied

📋 Sommaire

1. C'est quoi robots.txt ?

2. Les directives essentielles expliquées

User-agent — À qui s'adresse la règle

Disallow — Ce qu'il ne faut PAS crawler

Allow — Autoriser une exception dans un dossier bloqué

3. Exemples concrets par CMS

WordPress — Robots.txt optimal

PrestaShop — Robots.txt optimal

🤖 Votre robots.txt est-il correctement configuré ?

4. Erreurs mortelles à éviter absolument

5. noindex vs Disallow : la confusion fatale

6. Indiquer votre Sitemap dans robots.txt

7. Comment vérifier votre robots.txt

Outil officiel Google Search Console

Vérification manuelle rapide

SEO-IA — Vérification automatique

8. FAQ robots.txt

Votre robots.txt est-il correctement configuré ?

📚 Articles liés

🔍 Checklist audit SEO 2026

📊 Google Search Console

🔗 Liens cassés & SEO