IA & LLM
Embeddings (Plongements vectoriels)
Les embeddings sont des representations numeriques de mots, phrases ou documents sous forme de vecteurs dans un espace mathematique de haute dimension (768 a 8192 dimensions). Les textes semantiquement proches sont representes par des vecteurs proches. Stockes dans des bases vectorielles, ils permettent la recherche juridique semantique : comprendre le sens, pas seulement les mots-cles.
Les embeddings (ou plongements vectoriels) sont la technologie qui permet a l'IA de "comprendre" la proximite semantique entre des textes. Concretement, chaque mot, phrase ou document est transforme en un vecteur numerique — une liste de coordonnees dans un espace mathematique de haute dimension (typiquement 768 a 8 192 dimensions). Dans cet espace, les textes qui parlent du meme sujet se retrouvent proches les uns des autres, independamment des mots exacts utilises.
Pour le droit, cette technologie est revolutionnaire. La recherche juridique classique repose sur des mots-cles : si vous cherchez "licenciement abusif" mais que la decision utilise "rupture injustifiee du contrat de travail", la recherche traditionnelle echoue. Avec les embeddings, la recherche semantique comprend que ces deux formulations designent le meme concept et retourne les resultats pertinents. C'est la base des systemes RAG utilises par les solutions legaltech modernes.
Les embeddings sont stockes dans des bases de donnees vectorielles specialisees (Qdrant, Pinecone, Weaviate) optimisees pour la recherche par similarite a grande echelle. L'indexation de millions de decisions de justice, d'articles de doctrine ou de textes legislatifs sous forme d'embeddings permet une recherche juridique plus intelligente, plus rapide et plus exhaustive que les approches traditionnelles.
Pour aller plus loin