llms.txt vs robots.txt, sitemap.xml et llms-full.txt
Quatre fichiers, quatre rôles. Exactement ce que chacun fait — et comment les utiliser ensemble.
Dernière mise à jour:
TL;DR
Ils ne sont pas interchangeables.
robots.txt dit aux crawlers ce qu'ils peuvent ou non accéder.
sitemap.xml dit aux moteurs ce qui existe.
llms.txt dit aux assistants IA ce qui vaut la lecture.
llms-full.txt leur fournit le contenu lui-même.
Matrice côte à côte
| Critère | robots.txt | sitemap.xml | llms.txt | llms-full.txt |
|---|---|---|---|---|
| Objectif principal | Contrôle d'accès des crawlers | Découverte de pages pour moteurs | Carte curée pour clients LLM | Corpus inline pour ingestion LLM |
| Audience | Crawlers web (Googlebot, Bingbot, GPTBot…) | Moteurs de recherche | Clients et assistants LLM | Clients LLM voulant le contenu complet |
| Format | Texte brut, grammaire REP custom | XML | Markdown | Markdown (concaténé) |
| Standard ? | Oui — IETF RFC 9309 (2022) | Oui — sitemaps.org | Proposition communautaire — llmstxt.org | Proposition communautaire — llmstxt.org |
| Obligatoire ? | Non, mais recommandé | Non, mais recommandé pour gros sites | Non | Non |
| Contrôle l'indexation ? | Oui (allow / disallow) | Non (simple hint de découverte) | Non | Non |
| Approche | Exclusion | Découverte (exhaustivité) | Curation (sélectif) | Inlining (texte complet) |
| Path | /robots.txt | /sitemap.xml (ou toute URL déclarée dans robots.txt) | /llms.txt | /llms-full.txt |
llms.txt vs robots.txt
robots.txt est un fichier de contrôle d'accès
standardisé dans IETF RFC 9309.
Il utilise la grammaire REP (User-agent,
Disallow, Allow, Sitemap) pour dire
aux crawlers quels paths ils peuvent fetch.
llms.txt a l'intention inverse : une liste
positive de recommandation. Il ne bloque personne, n'accorde aucun accès,
et n'a aucun effet sur le crawl du reste du site. Il dit juste : si vous
êtes un client LLM, voici le sous-ensemble de qualité.
Implication pratique : continuez d'utiliser robots.txt pour
ce qu'il fait bien (bloquer les bots coûteux, déclarer votre sitemap).
Ajoutez llms.txt en complément, pas en remplacement.
llms.txt vs sitemap.xml
sitemap.xml vise la complétude : il liste
chaque URL que vous voulez faire connaître à un moteur, avec ses
métadonnées (lastmod, priority, langues
alternatives). Il est en XML, destiné aux machines, souvent
auto-généré.
llms.txt vise la curation : une petite liste
Markdown des pages qu'un LLM doit lire en priorité. Il ne remplace pas
votre sitemap. Il contient rarement plus de quelques dizaines d'URLs,
alors qu'un sitemap sur un site rich content peut en lister des
centaines de milliers.
Imaginez sitemap.xml comme un répertoire, et
llms.txt comme une étagère curée par un bibliothécaire.
llms.txt vs llms-full.txt
Même famille, rôle différent :
llms.txtest la carte : une liste de liens titrés.llms-full.txtest le territoire : le contenu réel de ces pages (et d'autres), concaténé en Markdown dans un seul fichier.
La convention llms-full.txt a été popularisée par Mintlify en
collaboration avec Anthropic. Elle permet à un dev de coller une URL dans
un chat IA pour charger tout un corpus de documentation en contexte. La
plupart des grosses plateformes de docs publient les deux fichiers côte à
côte.
Règle de pouce : publier llms.txt toujours ; ajouter
llms-full.txt si votre contenu est principalement textuel et
bénéficie d'un chargement en bulk.
llms.txt vs schema.org / JSON-LD
Schema.org est un vocabulaire pour marquer la sémantique de pages individuelles en JSON-LD ou microdata. Moteurs et assistants l'utilisent pour extraire des faits structurés : prix d'un produit, ingrédients d'une recette, questions et réponses d'une FAQ.
llms.txt opère un niveau au-dessus : c'est une
carte de site, pas un enrichissement de page. Les deux
sont complémentaires. Schema.org dit à un LLM ce qu'une page est ;
llms.txt lui dit quelles pages regarder en premier.
Comment les combiner
- Publiez les deux :
robots.txtetsitemap.xmlcomme vous le faites déjà pour le SEO. - Ajoutez
llms.txtà la racine pour les clients IA. - Optionnellement ajoutez
llms-full.txtsi votre site est orienté documentation ou savoir. - Dans
robots.txt, laissez/llms.txtet/llms-full.txtaccessibles (pas deDisallow). - Gardez schema.org sur les pages où ça a du sens (Product, FAQ, Article…).
Continuer
- Comment llms.txt fonctionne — la spec en détail.
- Bonnes pratiques.
- FAQ.