FORMATION

23 mai 2024

4'800 questions juridiques : Comment nous avons rigoureusement testé l'IA

Pour la première fois, LEXam évalue de manière réaliste les performances de l'IA juridique – avec des données tirées de vrais examens suisses.

Avant de déléguer des analyses juridiques à l’IA, vous méritez plus que des promesses – vous méritez des chiffres fiables.

Au cours des derniers mois, nous avons travaillé avec des institutions et des experts de premier plan pour rendre mesurable la performance des modèles d’IA dans les tâches juridiques. Notre objectif : créer une norme scientifiquement fondée qui montre quels systèmes sont réellement capables aujourd'hui de répondre à des questions juridiques complexes.

Un projet avec des partenaires solides

Pour ce faire, nous avons collaboré avec le Tribunal fédéral, l’EPFZ, l’Université de Zurich, Omnilex et d'autres partenaires de recherche. Au sein de ce consortium, 340 feuilles d'examen de formation juridique ont été recueillies, complétées par des milliers de réponses rédigées et de questions à choix multiples.

Le résultat de cette collaboration est le document – un benchmark open-source qui couvre divers domaines juridiques et formats de tâches. LEXam permet d'évaluer les modèles d’IA non seulement en fonction de leur capacité linguistique générale, mais aussi spécifiquement dans la discipline qui exige le plus de précision : le raisonnement juridique.

Ce qui rend LEXam unique

Alors que de nombreuses études sur l’IA reposent sur des données en anglais, LEXam traite principalement du droit suisse en langue allemande – un domaine encore inexploré pour les modèles globaux comme GPT ou Gemini.

Les données de référence comprennent :

  • 1’660 questions à choix multiples

  • 2’867 questions ouvertes d’examen juridique

  • Des matériaux couvrant divers domaines juridiques (droit civil, droit pénal, droit public, etc.)

  • Des énoncés originaux d’examens d’État juridiques réels

Ainsi, LEXam offre un degré de réalisme unique à ce jour pour l'utilisation de l’IA dans le conseil juridique.

Comment les modèles actuels se sont comportés

Nous avons testé 12 modèles linguistiques de premier plan sur LEXam. Les résultats sont clairement parlants :

✅ De nouveaux modèles comme Gemini-2.5-Pro surpassent nettement les générations précédentes en ce qui concerne le raisonnement juridique et l'argumentation structurée.

❌ Cependant, les modèles d’IA généraux perdent sensiblement en précision dès qu'il s'agit de questions juridiques spécifiques au-delà de leur champ d'entraînement.

Il ne suffit donc pas de se fier à des benchmarks généraux ou à des promesses marketing. Quiconque souhaite utiliser l’IA sérieusement dans un cabinet doit vérifier régulièrement les performances de manière empirique.

Ce que cela signifie pour votre cabinet

Pour nous chez Omnilex, ce travail n’est pas un exercice académique. C’est la base sur laquelle nous construisons notre technologie pour vous.

Nous avons développé Omnilex dès le début pour qu'il fonctionne spécifiquement avec les systèmes juridiques, avec pour ambitieux objectif de surpasser tout modèle général dans le droit suisse et allemand. Parallèlement, nous testons continuellement de nouvelles versions de modèles linguistiques afin de garantir que vous travaillez toujours sur la base la plus précise et la plus efficace.

En résumé : nous nous assurons que votre solution d’IA est supportée par la recherche. Pour que vous ayez toujours une longueur d’avance lors de discussions avec des clients, dans des processus de conformité ou lors de la rédaction de documents.

Un grand merci

Nous adressons un remerciement particulier à notre CTO Etienne Salimbeni, notre conseiller d’entreprise Elliott Ash, ainsi qu’à Joel Niklaus, qui a dirigé le projet. Nous tenons également à remercier les contributeurs responsables :

Yu Fan, Jingwei Ni, Yoan Hermstrüwer, Yinya Huang, Mubashara Akhtar, Oliver Dreyer, Daniel Brunner, Markus Leippold, Mrinmaya Sachan, Alexander Stremitzer, Yang Tian, Jakob Merane, Florian Geering et Christoph Engel.