Glossaire

Les termes qu'on croise autour de llms.txt — définis brièvement, avec liens croisés.

Dernière mise à jour: 14 avril 2026

Termes

AEO — Answer Engine Optimization: Optimiser le contenu pour qu'il soit sélectionné et cité par les assistants IA et moteurs de réponse (Perplexity, ChatGPT, Claude). Recoupe fortement le GEO.
Crawler: Programme qui fetch des pages web. Les crawlers de recherche (Googlebot, Bingbot) construisent des index. Les crawlers IA (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot) collectent du contenu pour l'entraînement ou le grounding.
GEO — Generative Engine Optimization: Pratique qui structure le contenu pour que les moteurs génératifs le référencent et le citent correctement. Tactiques : Markdown propre, headings explicites, données structurées, et (oui) llms.txt.
Grounding: Quand un LLM base sa réponse sur des sources récupérées plutôt que sur sa mémoire paramétrique. llms.txt est un hint de grounding : « si tu groundes des réponses sur nous, préfère ces pages. »
llms.txt: Fichier Markdown à /llms.txt listant les pages à fort signal d'un site pour consommation LLM. Proposé par Jeremy Howard (Answer.AI), septembre 2024. Spec sur llmstxt.org. Plus.
llms-full.txt: Convention sœur : fichier Markdown unique contenant le contenu réel des pages pertinentes, concaténé. Conçu pour l'ingestion one-shot. Popularisé par Mintlify avec Anthropic. Plus.
MCP — Model Context Protocol: Protocole ouvert d’Anthropic pour connecter les LLM à des outils et sources de données. Plusieurs serveurs MCP fetchent /llms.txt dans leur flow de chargement de contexte.
Optional (section): Section dans llms.txt dont le titre H2 est exactement « Optional ». Ses items peuvent être sautés par les clients à contexte limité — à utiliser pour les nice-to-haves (assets de marque, archives, communiqués).
RAG — Retrieval-Augmented Generation: Pattern où le modèle récupère des documents pertinents à l'interrogation et les utilise comme contexte. llms.txt et llms-full.txt sont des inputs pratiques pour un RAG site-specific.
REP — Robots Exclusion Protocol: Grammaire utilisée par robots.txt (User-agent / Disallow / Allow / Sitemap). Standardisée sous IETF RFC 9309 en 2022. Intention et syntaxe différentes de llms.txt.
robots.txt: Fichier texte brut à /robots.txt qui dit aux crawlers ce qu’ils peuvent ou non fetcher. Fichier de contrôle d’accès. Complémentaire à llms.txt, pas un remplacement. Plus.
Schema.org: Vocabulaire pour marquer le sens de pages individuelles en JSON-LD ou microdata (Product, Article, FAQ…). Enrichissement par page, là où llms.txt est une carte site-wide.
sitemap.xml: Fichier XML listant chaque URL qu’on veut faire connaître à un moteur, avec métadonnées (lastmod, priority). Visant la complétude ; llms.txt vise la curation. Plus.
Site statique: Site dont les pages sont pré-rendues en HTML/Markdown au build et servies comme fichiers. Astro, Eleventy, Hugo et Jekyll sont des générateurs de sites statiques. llms.txt s'intègre naturellement.
TL;DR: « Too long; didn’t read. » Résumé court en tête d’une section. Utile comme blockquote dans llms.txt.
User-agent: Chaîne qu’un client envoie pour s’identifier. Les crawlers IA s’identifient avec des noms comme GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot — utile pour filtrer les logs serveur.

Termes

Continuer