Glossaire
Les termes qu'on croise autour de llms.txt — définis brièvement, avec liens croisés.
Dernière mise à jour:
Termes
- AEO — Answer Engine Optimization
- Optimiser le contenu pour qu'il soit sélectionné et cité par les assistants IA et moteurs de réponse (Perplexity, ChatGPT, Claude). Recoupe fortement le GEO.
- Crawler
- Programme qui fetch des pages web. Les crawlers de recherche (Googlebot, Bingbot) construisent des index. Les crawlers IA (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot) collectent du contenu pour l'entraînement ou le grounding.
- GEO — Generative Engine Optimization
- Pratique qui structure le contenu pour que les moteurs génératifs le référencent et le citent correctement. Tactiques : Markdown propre, headings explicites, données structurées, et (oui) llms.txt.
- Grounding
- Quand un LLM base sa réponse sur des sources récupérées plutôt que sur sa mémoire paramétrique. llms.txt est un hint de grounding : « si tu groundes des réponses sur nous, préfère ces pages. »
- llms.txt
- Fichier Markdown à /llms.txt listant les pages à fort signal d'un site pour consommation LLM. Proposé par Jeremy Howard (Answer.AI), septembre 2024. Spec sur llmstxt.org. Plus.
- llms-full.txt
- Convention sœur : fichier Markdown unique contenant le contenu réel des pages pertinentes, concaténé. Conçu pour l'ingestion one-shot. Popularisé par Mintlify avec Anthropic. Plus.
- MCP — Model Context Protocol
- Protocole ouvert d’Anthropic pour connecter les LLM à des outils et sources de données. Plusieurs serveurs MCP fetchent /llms.txt dans leur flow de chargement de contexte.
- Optional (section)
- Section dans llms.txt dont le titre H2 est exactement « Optional ». Ses items peuvent être sautés par les clients à contexte limité — à utiliser pour les nice-to-haves (assets de marque, archives, communiqués).
- RAG — Retrieval-Augmented Generation
- Pattern où le modèle récupère des documents pertinents à l'interrogation et les utilise comme contexte. llms.txt et llms-full.txt sont des inputs pratiques pour un RAG site-specific.
- REP — Robots Exclusion Protocol
- Grammaire utilisée par robots.txt (User-agent / Disallow / Allow / Sitemap). Standardisée sous IETF RFC 9309 en 2022. Intention et syntaxe différentes de llms.txt.
- robots.txt
- Fichier texte brut à /robots.txt qui dit aux crawlers ce qu’ils peuvent ou non fetcher. Fichier de contrôle d’accès. Complémentaire à llms.txt, pas un remplacement. Plus.
- Schema.org
- Vocabulaire pour marquer le sens de pages individuelles en JSON-LD ou microdata (Product, Article, FAQ…). Enrichissement par page, là où llms.txt est une carte site-wide.
- sitemap.xml
- Fichier XML listant chaque URL qu’on veut faire connaître à un moteur, avec métadonnées (lastmod, priority). Visant la complétude ; llms.txt vise la curation. Plus.
- Site statique
- Site dont les pages sont pré-rendues en HTML/Markdown au build et servies comme fichiers. Astro, Eleventy, Hugo et Jekyll sont des générateurs de sites statiques. llms.txt s'intègre naturellement.
- TL;DR
- « Too long; didn’t read. » Résumé court en tête d’une section. Utile comme blockquote dans llms.txt.
- User-agent
- Chaîne qu’un client envoie pour s’identifier. Les crawlers IA s’identifient avec des noms comme GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot — utile pour filtrer les logs serveur.