J'ai un projet tech !
IA & LLM

Tokenisation

La tokenisation est le processus de decoupage d'un texte en "tokens", les unites de base traitees par une IA. Un token peut etre un mot entier, une partie de mot ou un signe de ponctuation. Les modeles ont une limite maximale de tokens (fenetre de contexte) : 128K pour GPT-4o, 200K pour Claude, ce qui determine la quantite de texte que l'IA peut traiter.

La tokenisation est l'etape fondamentale par laquelle un texte humain est converti en unites numeriques comprehensibles par un modele d'IA. Un token ne correspond pas toujours a un mot : le terme "jurisprudence" peut etre decoupe en "juris" + "prudence", soit deux tokens. En moyenne, un token represente environ 3/4 d'un mot en francais. Cette granularite permet au modele de gerer un vocabulaire virtuellement illimite a partir d'un ensemble fini de tokens. Pour les professionnels du droit, la notion de tokenisation est importante car elle determine la fenetre de contexte — c'est-a-dire la quantite maximale de texte que le modele peut traiter en une seule requete. GPT-4o offre 128 000 tokens (environ 96 000 mots), Claude monte a 200 000 tokens (environ 150 000 mots). C'est cette capacite qui permet d'analyser des contrats longs ou des decisions de justice volumineuses en une seule passe. Comprendre la tokenisation aide aussi a optimiser ses couts : les API d'IA facturent souvent a l'usage en tokens (entree + sortie). Un prompt bien structure qui evite les repetitions et va droit au but sera non seulement plus efficace mais aussi moins couteux. Les outils legaltech gerent cette optimisation de maniere transparente pour l'utilisateur final.