/ llmtxt.info

llms.txt vs robots.txt, sitemap.xml et llms-full.txt

Quatre fichiers, quatre rôles. Exactement ce que chacun fait — et comment les utiliser ensemble.

Dernière mise à jour:

TL;DR

Ils ne sont pas interchangeables. robots.txt dit aux crawlers ce qu'ils peuvent ou non accéder. sitemap.xml dit aux moteurs ce qui existe. llms.txt dit aux assistants IA ce qui vaut la lecture. llms-full.txt leur fournit le contenu lui-même.

Matrice côte à côte

Référence rapide. Voir les sections ci-dessous pour les nuances.
Critèrerobots.txtsitemap.xmlllms.txtllms-full.txt
Objectif principalContrôle d'accès des crawlersDécouverte de pages pour moteursCarte curée pour clients LLMCorpus inline pour ingestion LLM
AudienceCrawlers web (Googlebot, Bingbot, GPTBot…)Moteurs de rechercheClients et assistants LLMClients LLM voulant le contenu complet
FormatTexte brut, grammaire REP customXMLMarkdownMarkdown (concaténé)
Standard ?Oui — IETF RFC 9309 (2022)Oui — sitemaps.orgProposition communautaire — llmstxt.orgProposition communautaire — llmstxt.org
Obligatoire ?Non, mais recommandéNon, mais recommandé pour gros sitesNonNon
Contrôle l'indexation ?Oui (allow / disallow)Non (simple hint de découverte)NonNon
ApprocheExclusionDécouverte (exhaustivité)Curation (sélectif)Inlining (texte complet)
Path/robots.txt/sitemap.xml (ou toute URL déclarée dans robots.txt)/llms.txt/llms-full.txt

llms.txt vs robots.txt

robots.txt est un fichier de contrôle d'accès standardisé dans IETF RFC 9309. Il utilise la grammaire REP (User-agent, Disallow, Allow, Sitemap) pour dire aux crawlers quels paths ils peuvent fetch.

llms.txt a l'intention inverse : une liste positive de recommandation. Il ne bloque personne, n'accorde aucun accès, et n'a aucun effet sur le crawl du reste du site. Il dit juste : si vous êtes un client LLM, voici le sous-ensemble de qualité.

Implication pratique : continuez d'utiliser robots.txt pour ce qu'il fait bien (bloquer les bots coûteux, déclarer votre sitemap). Ajoutez llms.txt en complément, pas en remplacement.

llms.txt vs sitemap.xml

sitemap.xml vise la complétude : il liste chaque URL que vous voulez faire connaître à un moteur, avec ses métadonnées (lastmod, priority, langues alternatives). Il est en XML, destiné aux machines, souvent auto-généré.

llms.txt vise la curation : une petite liste Markdown des pages qu'un LLM doit lire en priorité. Il ne remplace pas votre sitemap. Il contient rarement plus de quelques dizaines d'URLs, alors qu'un sitemap sur un site rich content peut en lister des centaines de milliers.

Imaginez sitemap.xml comme un répertoire, et llms.txt comme une étagère curée par un bibliothécaire.

llms.txt vs llms-full.txt

Même famille, rôle différent :

  • llms.txt est la carte : une liste de liens titrés.
  • llms-full.txt est le territoire : le contenu réel de ces pages (et d'autres), concaténé en Markdown dans un seul fichier.

La convention llms-full.txt a été popularisée par Mintlify en collaboration avec Anthropic. Elle permet à un dev de coller une URL dans un chat IA pour charger tout un corpus de documentation en contexte. La plupart des grosses plateformes de docs publient les deux fichiers côte à côte.

Règle de pouce : publier llms.txt toujours ; ajouter llms-full.txt si votre contenu est principalement textuel et bénéficie d'un chargement en bulk.

llms.txt vs schema.org / JSON-LD

Schema.org est un vocabulaire pour marquer la sémantique de pages individuelles en JSON-LD ou microdata. Moteurs et assistants l'utilisent pour extraire des faits structurés : prix d'un produit, ingrédients d'une recette, questions et réponses d'une FAQ.

llms.txt opère un niveau au-dessus : c'est une carte de site, pas un enrichissement de page. Les deux sont complémentaires. Schema.org dit à un LLM ce qu'une page est ; llms.txt lui dit quelles pages regarder en premier.

Comment les combiner

  1. Publiez les deux : robots.txt et sitemap.xml comme vous le faites déjà pour le SEO.
  2. Ajoutez llms.txt à la racine pour les clients IA.
  3. Optionnellement ajoutez llms-full.txt si votre site est orienté documentation ou savoir.
  4. Dans robots.txt, laissez /llms.txt et /llms-full.txt accessibles (pas de Disallow).
  5. Gardez schema.org sur les pages où ça a du sens (Product, FAQ, Article…).

Continuer

Sources