IA & LLM
Tokenisation
La tokenisation est le processus de découpage d'un texte en "tokens", les unités de base traitées par une IA. Un token peut être un mot entier, une partie de mot ou un signe de ponctuation. Les modèles ont une limite maximale de tokens (fenêtre de contexte) : 128K pour GPT-4o, 200K pour Claude, ce qui détermine la quantité de texte que l'IA peut traiter.
La tokenisation est l'étape fondamentale par laquelle un texte humain est converti en unités numériques compréhensibles par un modèle d'IA. Un token ne correspond pas toujours à un mot : le terme "jurisprudence" peut être découpé en "juris" + "prudence", soit deux tokens. En moyenne, un token représente environ 3/4 d'un mot en français. Cette granularité permet au modèle de gérer un vocabulaire virtuellement illimité à partir d'un ensemble fini de tokens.
Pour les professionnels du droit, la notion de tokenisation est importante car elle détermine la fenêtre de contexte — c'est-à-dire la quantité maximale de texte que le modèle peut traiter en une seule requête. GPT-4o offre 128 000 tokens (environ 96 000 mots), Claude monte à 200 000 tokens (environ 150 000 mots). C'est cette capacité qui permet d'analyser des contrats longs ou des décisions de justice volumineuses en une seule passe.
Comprendre la tokenisation aide aussi à optimiser ses coûts : les API d'IA facturent souvent à l'usage en tokens (entrée + sortie). Un prompt bien structuré qui évite les répétitions et va droit au but sera non seulement plus efficace mais aussi moins coûteux. Les outils legaltech gèrent cette optimisation de manière transparente pour l'utilisateur final.
Pour aller plus loin