El corpus de entrenamiento es el combustible de los modelos de IA. En el caso de los grandes modelos de lenguaje, comprende miles de millones de textos procedentes de internet, libros digitalizados, artículos científicos, foros y documentos públicos. La calidad, la diversidad y la representatividad de este corpus determinan directamente las capacidades y los límites del modelo. Un corpus pobre en textos jurídicos franceses producirá un modelo poco eficaz en derecho francés.

La cuestión del derecho de autor sobre los corpus de entrenamiento se ha convertido en un asunto jurídico de primer orden. El caso Thomson Reuters v. ROSS Intelligence (resuelto en febrero de 2025) sienta jurisprudencia sobre el uso de contenidos protegidos para el entrenamiento de IA. La AI Act impone ahora a los proveedores de modelos llevar registros detallados de los datos de entrenamiento, incluyendo su procedencia y los eventuales derechos asociados.

En Francia, el proyecto de Legal Data Space pretende constituir un corpus soberano de datos jurídicos franceses de calidad para el entrenamiento de modelos adaptados al derecho nacional. Esta iniciativa responde a un doble objetivo: garantizar la calidad de los modelos jurídicos entrenados con datos franceses fiables, y asegurar la soberanía digital reduciendo la dependencia de los corpus en lengua inglesa que dominan el entrenamiento de los grandes LLM.