4’800 juristische Prüfungsfragen: Wie wir KI auf Herz und Nieren getestet haben

Zurück zum Journal

EDUCATION

May 23, 2024

4’800 juristische Prüfungsfragen: Wie wir KI auf Herz und Nieren getestet haben

LEXam misst juristische KI-Leistung erstmals realitätsnah – mit Daten aus echten Schweizer Examina.

Bevor Sie juristische Analysen an KI delegieren, verdienen Sie mehr als Versprechen – Sie verdienen belastbare Zahlen.

In den letzten Monaten haben wir gemeinsam mit führenden Institutionen und Expert:innen daran gearbeitet, die Leistungsfähigkeit von KI-Modellen für juristische Aufgaben messbar zu machen. Unser Ziel: einen wissenschaftlich fundierten Standard zu schaffen, der zeigt, welche Systeme heute tatsächlich in der Lage sind, anspruchsvolle Rechtsfragen zu beantworten.

Ein Projekt mit starken Partnern

Dazu haben wir mit dem Bundesgericht, der ETH Zürich, der Universität Zürich, Omnilex und weiteren Forschungspartnern zusammengearbeitet. In diesem Konsortium wurden insgesamt 340 Examensbögen aus der juristischen Ausbildung gesammelt – ergänzt um tausende Essay-Antworten und Multiple-Choice-Fragen.

Das Ergebnis dieser Zusammenarbeit ist das Paper – ein Open-Source-Benchmark, der verschiedene Rechtsgebiete und Aufgabenformate abdeckt. LEXam ermöglicht es, KI-Modelle nicht nur anhand allgemeiner Sprachfähigkeit zu bewerten, sondern spezifisch in der Disziplin, die am meisten Präzision verlangt: juristisches Denken.

Was LEXam einzigartig macht

Während viele KI-Studien auf englischsprachigen Datensätzen basieren, deckt LEXam in erster Linie Schweizer Recht in deutscher Sprache ab – ein Gebiet, das für globale Modelle wie GPT oder Gemini Neuland ist.

Die Benchmark-Daten umfassen:

1’660 Multiple-Choice-Fragen
2’867 offene juristische Prüfungsfragen
Materialien aus verschiedenen Rechtsgebieten (Zivilrecht, Strafrecht, öffentliches Recht usw.)
Originale Aufgabenstellungen aus echten juristischen Staatsexamina

Damit bietet LEXam einen bisher einzigartigen Grad an Realitätsnähe für den Einsatz von KI in der Rechtsberatung.

So schnitten aktuelle Modelle ab

Wir haben 12 führende Sprachmodelle auf LEXam getestet. Die Ergebnisse zeigen deutlich:

✅ Neue Modelle wie Gemini-2.5-Pro übertreffen frühere Generationen beim juristischen Schlussfolgern und der strukturierten Argumentation deutlich.

❌ Generelle KI-Modelle verlieren jedoch spürbar an Genauigkeit, sobald es um spezifische Rechtsfragen jenseits ihres Trainingsfokus geht.

Deshalb genügt es nicht, auf allgemeine Benchmarks oder Marketingversprechen zu vertrauen. Wer KI seriös in der Kanzlei einsetzen will, muss die Leistungsfähigkeit regelmässig empirisch überprüfen.

Was das für Ihre Kanzlei bedeutet

Für uns bei Omnilex ist diese Arbeit keine akademische Fingerübung. Sie ist die Grundlage, auf der wir unsere Technologie für Sie bauen.

Wir haben Omnilex von Anfang an so entwickelt, dass es rechtsordnungsspezifisch arbeitet – mit dem Anspruch, in Schweizer und deutschem Recht besser zu sein als jedes generelle Modell. Gleichzeitig testen wir neue Versionen von Sprachmodellen kontinuierlich, um sicherzustellen, dass Sie immer auf der präzisesten und effizientesten Basis arbeiten.

Kurz gesagt: Wir kümmern uns darum, dass Ihre KI-Lösung durch Forschung abgesichert ist. Damit Sie in Mandantengesprächen, Compliance-Prozessen oder Schriftsätzen einen entscheidenden Schritt voraus bleiben.

Ein grosses Dankeschön

Ein besonderer Dank gilt unserem CTO Etienne Salimbeni, unserem Company Advisor Elliott Ash sowie Joel Niklaus, der das Projekt geleitet hat. Ebenso möchten wir den verantwortlichen Mitwirkenden danken:

Yu Fan, Jingwei Ni, Yoan Hermstrüwer, Yinya Huang, Mubashara Akhtar, Oliver Dreyer, Daniel Brunner, Markus Leippold, Mrinmaya Sachan, Alexander Stremitzer, Yang Tian, Jakob Merane, Florian Geering und Christoph Engel.

EDUCATION

EDUCATION

Feb 20, 2024

Warum allgemeine KI-Modelle bei juristischen Fragen oft scheitern

Generische KI scheitert an Rechtssystemen – Omnilex denkt von Anfang an rechtsordnungsspezifisch.

EDUCATION

Feb 20, 2024

Warum allgemeine KI-Modelle bei juristischen Fragen oft scheitern

Generische KI scheitert an Rechtssystemen – Omnilex denkt von Anfang an rechtsordnungsspezifisch.