/ llmtxt.info

Glossaire

Les termes qu'on croise autour de llms.txt — définis brièvement, avec liens croisés.

Dernière mise à jour:

Termes

AEO — Answer Engine Optimization
Optimiser le contenu pour qu'il soit sélectionné et cité par les assistants IA et moteurs de réponse (Perplexity, ChatGPT, Claude). Recoupe fortement le GEO.
Crawler
Programme qui fetch des pages web. Les crawlers de recherche (Googlebot, Bingbot) construisent des index. Les crawlers IA (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot) collectent du contenu pour l'entraînement ou le grounding.
GEO — Generative Engine Optimization
Pratique qui structure le contenu pour que les moteurs génératifs le référencent et le citent correctement. Tactiques : Markdown propre, headings explicites, données structurées, et (oui) llms.txt.
Grounding
Quand un LLM base sa réponse sur des sources récupérées plutôt que sur sa mémoire paramétrique. llms.txt est un hint de grounding : « si tu groundes des réponses sur nous, préfère ces pages. »
llms.txt
Fichier Markdown à /llms.txt listant les pages à fort signal d'un site pour consommation LLM. Proposé par Jeremy Howard (Answer.AI), septembre 2024. Spec sur llmstxt.org. Plus.
llms-full.txt
Convention sœur : fichier Markdown unique contenant le contenu réel des pages pertinentes, concaténé. Conçu pour l'ingestion one-shot. Popularisé par Mintlify avec Anthropic. Plus.
MCP — Model Context Protocol
Protocole ouvert d’Anthropic pour connecter les LLM à des outils et sources de données. Plusieurs serveurs MCP fetchent /llms.txt dans leur flow de chargement de contexte.
Optional (section)
Section dans llms.txt dont le titre H2 est exactement « Optional ». Ses items peuvent être sautés par les clients à contexte limité — à utiliser pour les nice-to-haves (assets de marque, archives, communiqués).
RAG — Retrieval-Augmented Generation
Pattern où le modèle récupère des documents pertinents à l'interrogation et les utilise comme contexte. llms.txt et llms-full.txt sont des inputs pratiques pour un RAG site-specific.
REP — Robots Exclusion Protocol
Grammaire utilisée par robots.txt (User-agent / Disallow / Allow / Sitemap). Standardisée sous IETF RFC 9309 en 2022. Intention et syntaxe différentes de llms.txt.
robots.txt
Fichier texte brut à /robots.txt qui dit aux crawlers ce qu’ils peuvent ou non fetcher. Fichier de contrôle d’accès. Complémentaire à llms.txt, pas un remplacement. Plus.
Schema.org
Vocabulaire pour marquer le sens de pages individuelles en JSON-LD ou microdata (Product, Article, FAQ…). Enrichissement par page, là où llms.txt est une carte site-wide.
sitemap.xml
Fichier XML listant chaque URL qu’on veut faire connaître à un moteur, avec métadonnées (lastmod, priority). Visant la complétude ; llms.txt vise la curation. Plus.
Site statique
Site dont les pages sont pré-rendues en HTML/Markdown au build et servies comme fichiers. Astro, Eleventy, Hugo et Jekyll sont des générateurs de sites statiques. llms.txt s'intègre naturellement.
TL;DR
« Too long; didn’t read. » Résumé court en tête d’une section. Utile comme blockquote dans llms.txt.
User-agent
Chaîne qu’un client envoie pour s’identifier. Les crawlers IA s’identifient avec des noms comme GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot — utile pour filtrer les logs serveur.

Continuer