IA & LLM

Corpus d'entrainement

Un corpus d'entrainement designe l'ensemble des donnees utilisees pour entrainer un modele d'IA. Pour les LLM, il s'agit de milliards de textes provenant d'internet, de livres et d'articles. La question des droits d'auteur est centrale : l'affaire Thomson Reuters v. ROSS Intelligence (fevrier 2025) fait jurisprudence. L'AI Act exige des registres detailles des donnees d'entrainement.

Le corpus d'entrainement est le carburant des modeles d'IA. Pour les grands modeles de langage, il comprend des milliards de textes provenant d'internet, de livres numerises, d'articles scientifiques, de forums et de documents publics. La qualite, la diversite et la representativite de ce corpus determinent directement les capacites et les limites du modele. Un corpus pauvre en textes juridiques francais produira un modele peu performant sur le droit francais. La question du droit d'auteur sur les corpus d'entrainement est devenue un enjeu juridique majeur. L'affaire Thomson Reuters v. ROSS Intelligence (jugee en fevrier 2025) fait jurisprudence sur l'utilisation de contenus proteges pour l'entrainement d'IA. L'AI Act impose desormais aux fournisseurs de modeles de tenir des registres detailles des donnees d'entrainement, incluant leur provenance et les eventuels droits qui y sont attaches. En France, le projet de Legal Data Space vise a constituer un corpus souverain de donnees juridiques francaises de qualite pour l'entrainement de modeles adaptes au droit national. Cette initiative repond a un double enjeu : garantir la qualite des modeles juridiques entraines sur des donnees francaises fiables, et assurer la souverainete numerique en reduisant la dependance aux corpus anglophones qui dominent l'entrainement des grands LLM.

Pour aller plus loin

Qu'est-ce que la legaltech ? Guide complet de la legaltech en 2026

Voir les 50 definitions