Wie ein lokales Sprachmodell Ihre Akten liest, den Sachverhalt extrahiert und ein fertiges Briefing samt anonymisiertem Cloud-Prompt liefert – ohne dass ein einziges Byte Ihren Rechner verlässt.
Wer in weiser Voraussicht noch vor dem vorherrschenden Chip-Engpass die Kanzlei-Hardware etwas aufgerüstet hat, sitzt heute auf einer Maschine, die weit mehr kann als Schriftsätze formatieren. Ein aktueller Rechner etwa mit 64 GB Arbeitsspeicher (vorzugsweise als Grafikspeicher) reicht aus, um ein Sprachmodell mit 31 Milliarden Parametern lokal zu betreiben – völlig offline, ohne Cloud, ohne API-Anbindung, ohne dass Mandantendaten den Rechner verlassen.
Genau das tut Newcase LM: eine Open-Source-Pipeline, die aus einem Stapel Akten-Dokumenten – Verträge, Bescheide, E-Mails mit Anhängen, eingescannte PDFs – automatisch ein strukturiertes Sachverhaltsbriefing erstellt. Zusätzlich liefert die Pipeline eine vollständig anonymisierte Version desselben Sachverhalts, die man in den allermeisten Fällen standesrechtlich bedenkenlos als Prompt an Claude, ChatGPT oder Gemini übergeben kann.
Vom Dokumentenstapel zum Briefing in vier Stufen
Die Pipeline arbeitet in klar getrennten Stufen. Zunächst werden alle Dokumente im Eingangsordner ausgepackt und der Text extrahiert – auch aus eingescannten PDFs mittels OCR und aus Outlook-E-Mails samt Anhängen. Anschließend fasst ein lokal laufendes Sprachmodell jedes Dokument einzeln zusammen, wobei bewusst alle Namen und Details erhalten bleiben.
In der dritten Stufe verdichtet die Pipeline die Einzelzusammenfassungen zu einer chronologischen Gesamtübersicht mit Beteiligtenübersicht, Sachverhalt und Betragsübersicht – im Klartext, als vertrauliches Inhouse-Dokument im Word-Format. Erst im letzten Schritt wird dieser fertige Text anonymisiert: Namen werden durch Rollen ersetzt, Adressen durch Platzhalter, Aktenzeichen durch Kennzeichnungen. Das Ergebnis ist ein sauberer, kontextreicher Output, der keinerlei personenbezogene Daten mehr enthält und den Sie als Basis für einen Cloud-Prompt verwenden können. Im Klartext-Briefing wird zusätzlich eine Zuordnungstabelle für die anonymisierten Daten (Firma A = XY GmbH, etc) ausgegeben.
In der Praxis
Der typische Anwendungsfall: Ein neuer Akt kommt herein. Die Dokumente werden in einen Ordner gelegt, ein Befehl im Terminal gestartet, und je nach Rechenleistung Ihres Systems liegen nach etwa 20–30 Minuten zwei Word-Dokumente im Ausgabeordner – das Klartext-Briefing für die Kanzlei und die anonymisierte Version für die Cloud-KI. Kommt später ein weiteres Dokument dazu, etwa ein neuer Schriftsatz oder ein Gutachten, wird nur das Neue verarbeitet und das Briefing mit dem zusätzlichen Kontext aktualisiert.
Die Qualität der Zusammenfassungen ist bemerkenswert: In meinen bisherigen Testläufen mit etwa einem Mietrechtsakt erkannte das Modell selbstständig Widersprüche zwischen Dokumenten, ordnete die Beteiligten korrekt ihren Rollen zu und hielt sich strikt an die Anweisung, nur wiederzugeben was in den Dokumenten steht – keine Rechtsanalyse, keine Spekulation, keine Handlungsempfehlungen. Genau das, was man von einem Sachverhaltsbriefing erwartet.
Hardware-Orientierung
| Arbeitsspeicher | Modell / Quantisierung | Kontextfenster | Dokumente pro Akt | Geschwindigkeit |
| 32 GB MacBook Pro, Mac Mini | Gemma 4 31B · Q4 ~18 GB Modell | 16k Tokens | ca. 5–8 | ~8–10 tok/s Apple Silicon |
| 64 GB Mac Studio, MacBook Pro | Gemma 4 31B · Q8 ~32 GB Modell | 32k Tokens | ca. 20–25 | ~12–13 tok/s Apple Silicon |
| 64 GB Windows / Linux | Gemma 4 31B · Q4/Q8 GPU: RTX 4090 (24 GB) | 32k Tokens | ca. 20–25 | ~5–10 tok/s je nach GPU/CPU |
| 96–128 GB Mac Studio M Ultra | Gemma 4 31B · Q8 ~32 GB Modell | 65k Tokens | ca. 40–50 | ~12–13 tok/s Apple Silicon |
| 2× 64 GB Cluster (exo) | Gemma 4 31B · BF16 ~61 GB unkomprimiert | 65k+ Tokens | 50+ | ~8–10 tok/s Thunderbolt |
Getestet mit Mac Studio M4 Max, 64 GB Unified Memory. 11 Dokumente = 41,5 % Kontextauslastung bei 32k. Alle Angaben sind Richtwerte – die tatsächliche Kapazität hängt von der Dokumentlänge ab. Ollama ist kostenlos verfügbar: ollama.com
Vertraulichkeit und Open Source als Architekturprinzip
Newcase LM nutzt Ollama als lokale Laufzeitumgebung für das Sprachmodell Google Gemma 4. Es gibt keine API-Aufrufe, keine Telemetrie, keinen Cloud-Dienst. Die gesamte Verarbeitung – Textextraktion, Zusammenfassung, Anonymisierung – findet auf dem eigenen Rechner statt. Anwaltliche Verschwiegenheit und DSGVO-Konformität bleiben gewahrt.
Das Werkzeug ist unter MIT-Lizenz auf GitHub frei verfügbar und richtet sich nicht nur an Anwaltskanzleien, sondern an alle, die mit vertraulichen Rechtsdokumenten arbeiten – Unternehmensjuristen, Behörden, Gerichte, Compliance-Abteilungen. Wer einen Rechner mit ausreichend Arbeitsspeicher hat, kann heute schon loslegen.
Mag. Heinz Templ, LL.M.
Rechtsanwalt in Wien
