Corpus de entrenamiento IA: definición y derecho

Corpus de entrenamiento

Un corpus de entrenamiento designa el conjunto de datos utilizados para entrenar un modelo de IA. En el caso de los LLM, se trata de miles de millones de textos procedentes de internet, libros y artículos. La cuestión de los derechos de autor es central: el caso Thomson Reuters v. ROSS Intelligence (febrero de 2025) sienta jurisprudencia. La AI Act exige registros detallados de los datos de entrenamiento.

El corpus de entrenamiento es el combustible de los modelos de IA. En el caso de los grandes modelos de lenguaje, comprende miles de millones de textos procedentes de internet, libros digitalizados, artículos científicos, foros y documentos públicos. La calidad, la diversidad y la representatividad de este corpus determinan directamente las capacidades y los límites del modelo. Un corpus pobre en textos jurídicos franceses producirá un modelo poco eficaz en derecho francés.

La cuestión del derecho de autor sobre los corpus de entrenamiento se ha convertido en un asunto jurídico de primer orden. El caso Thomson Reuters v. ROSS Intelligence (resuelto en febrero de 2025) sienta jurisprudencia sobre el uso de contenidos protegidos para el entrenamiento de IA. La AI Act impone ahora a los proveedores de modelos llevar registros detallados de los datos de entrenamiento, incluyendo su procedencia y los eventuales derechos asociados.

En Francia, el proyecto de Legal Data Space pretende constituir un corpus soberano de datos jurídicos franceses de calidad para el entrenamiento de modelos adaptados al derecho nacional. Esta iniciativa responde a un doble objetivo: garantizar la calidad de los modelos jurídicos entrenados con datos franceses fiables, y asegurar la soberanía digital reduciendo la dependencia de los corpus en lengua inglesa que dominan el entrenamiento de los grandes LLM.

Términos relacionados