La tokenización es la etapa fundamental mediante la cual un texto humano se convierte en unidades numéricas comprensibles para un modelo de IA. Un token no siempre se corresponde con una palabra: el término "jurisprudencia" puede dividirse en "juris" + "prudencia", es decir, dos tokens. De media, un token representa aproximadamente 3/4 de una palabra en español. Esta granularidad permite al modelo gestionar un vocabulario virtualmente ilimitado a partir de un conjunto finito de tokens.
Para los profesionales del derecho, la noción de tokenización es importante porque determina la ventana de contexto: es decir, la cantidad máxima de texto que el modelo puede procesar en una sola consulta. GPT-4o ofrece 128 000 tokens (alrededor de 96 000 palabras), Claude llega hasta 200 000 tokens (alrededor de 150 000 palabras). Es esta capacidad la que permite analizar contratos extensos o resoluciones judiciales voluminosas en una sola pasada.
Comprender la tokenización ayuda también a optimizar los costes: las API de IA facturan a menudo por uso en tokens (entrada + salida). Un prompt bien estructurado que evite las repeticiones y vaya directo al grano no solo será más eficaz, sino también menos costoso. Las herramientas legaltech gestionan esta optimización de forma transparente para el usuario final.