Corpus d'entraînement IA : définition et droit

Corpus d'entraînement

Un corpus d'entraînement désigne l'ensemble des données utilisées pour entraîner un modèle d'IA. Pour les LLM, il s'agit de milliards de textes provenant d'internet, de livres et d'articles. La question des droits d'auteur est centrale : l'affaire Thomson Reuters v. ROSS Intelligence (février 2025) fait jurisprudence. L'AI Act exige des registres détaillés des données d'entraînement.

Le corpus d'entraînement est le carburant des modèles d'IA. Pour les grands modèles de langage, il comprend des milliards de textes provenant d'internet, de livres numérisés, d'articles scientifiques, de forums et de documents publics. La qualité, la diversité et la représentativité de ce corpus déterminent directement les capacités et les limites du modèle. Un corpus pauvre en textes juridiques français produira un modèle peu performant sur le droit français.

La question du droit d'auteur sur les corpus d'entraînement est devenue un enjeu juridique majeur. L'affaire Thomson Reuters v. ROSS Intelligence (jugée en février 2025) fait jurisprudence sur l'utilisation de contenus protégés pour l'entraînement d'IA. L'AI Act impose désormais aux fournisseurs de modèles de tenir des registres détaillés des données d'entraînement, incluant leur provenance et les éventuels droits qui y sont attachés.

En France, le projet de Legal Data Space vise à constituer un corpus souverain de données juridiques françaises de qualité pour l'entraînement de modèles adaptés au droit national. Cette initiative répond à un double enjeu : garantir la qualité des modèles juridiques entraînés sur des données françaises fiables, et assurer la souveraineté numérique en réduisant la dépendance aux corpus anglophones qui dominent l'entraînement des grands LLM.

Termes liés