La tokenisation est l'étape fondamentale par laquelle un texte humain est converti en unités numériques compréhensibles par un modèle d'IA. Un token ne correspond pas toujours à un mot : le terme "jurisprudence" peut être découpé en "juris" + "prudence", soit deux tokens. En moyenne, un token représente environ 3/4 d'un mot en français. Cette granularité permet au modèle de gérer un vocabulaire virtuellement illimité à partir d'un ensemble fini de tokens.
Pour les professionnels du droit, la notion de tokenisation est importante car elle détermine la fenêtre de contexte — c'est-à-dire la quantité maximale de texte que le modèle peut traiter en une seule requête. GPT-4o offre 128 000 tokens (environ 96 000 mots), Claude monte à 200 000 tokens (environ 150 000 mots). C'est cette capacité qui permet d'analyser des contrats longs ou des décisions de justice volumineuses en une seule passe.
Comprendre la tokenisation aide aussi à optimiser ses coûts : les API d'IA facturent souvent à l'usage en tokens (entrée + sortie). Un prompt bien structuré qui évite les répétitions et va droit au but sera non seulement plus efficace mais aussi moins coûteux. Les outils legaltech gèrent cette optimisation de manière transparente pour l'utilisateur final.