Tokenización: definición e IA jurídica

Tokenización

La tokenización es el proceso de división de un texto en "tokens", las unidades básicas que procesa una IA. Un token puede ser una palabra entera, una parte de una palabra o un signo de puntuación. Los modelos tienen un límite máximo de tokens (ventana de contexto): 128K para GPT-4o, 200K para Claude, lo que determina la cantidad de texto que la IA puede procesar.

La tokenización es la etapa fundamental mediante la cual un texto humano se convierte en unidades numéricas comprensibles para un modelo de IA. Un token no siempre se corresponde con una palabra: el término "jurisprudencia" puede dividirse en "juris" + "prudencia", es decir, dos tokens. De media, un token representa aproximadamente 3/4 de una palabra en español. Esta granularidad permite al modelo gestionar un vocabulario virtualmente ilimitado a partir de un conjunto finito de tokens.

Para los profesionales del derecho, la noción de tokenización es importante porque determina la ventana de contexto: es decir, la cantidad máxima de texto que el modelo puede procesar en una sola consulta. GPT-4o ofrece 128 000 tokens (alrededor de 96 000 palabras), Claude llega hasta 200 000 tokens (alrededor de 150 000 palabras). Es esta capacidad la que permite analizar contratos extensos o resoluciones judiciales voluminosas en una sola pasada.

Comprender la tokenización ayuda también a optimizar los costes: las API de IA facturan a menudo por uso en tokens (entrada + salida). Un prompt bien estructurado que evite las repeticiones y vaya directo al grano no solo será más eficaz, sino también menos costoso. Las herramientas legaltech gestionan esta optimización de forma transparente para el usuario final.

Términos relacionados