Wie man 150 Millionen Tokens übersetzt

Ein ambitioniertes Vorhaben unter hohem Zeitdruck: Das Bundesamt für Gesundheit (BAG) beauftragte uns im Rahmen des Projektes «Humanforschung Schweiz» damit, rund 70'000 klinische Studien in vier Sprachen zu übersetzen – präzise, termingerecht und kosteneffizient. Eine Herausforderung, bei der klassische Lösungen schnell an ihre Grenzen stiessen.

Drei Faktoren machten dieses Projekt besonders anspruchsvoll:

Umfang und Komplexität: Die zu übersetzenden Texte umfassten medizinische Fachbegriffe und komplexe Beschreibungen klinischer Studien, die in ihrer Bedeutung präzise wiedergegeben werden mussten.
Mehrere Zielsprachen: Alle Inhalte mussten auf Deutsch, Englisch, Französisch und Italienisch verfügbar sein – einige Studien lagen bereits in einer oder mehreren Sprachen vor.
Budgetbeschränkungen: Die Übersetzung musste möglichst kostengünstig sein, ohne dass die Qualität darunter leidet – bei dieser Datenmenge eine echte Herausforderung.

Welche Optionen haben wir evaluiert?

Option 1: DeepL API

Unser erster Ansatz war die Evaluation der DeepL API, die für ihre ausgezeichneten Übersetzungen bekannt ist. Wir führten einen umfassenden Proof of Concept durch und waren mit der Qualität der Übersetzungen sehr zufrieden:

Die medizinischen Fachbegriffe wurden präzise und kontextbezogen übersetzt
Alle benötigten Sprachen wurden unterstützt
Die Glossarfunktion erlaubte die Definition spezifischer Fachterminologie

Allerdings zeigte unsere Kostenanalyse schnell, dass diese Lösung wirtschaftlich nicht tragbar war:

DeepL API Pro: €4.99 Grundgebühr pro Monat plus €20 pro 1'000'000 Zeichen
Unser Volumen: Der initiale Import aller verfügbaren Studien umfasst ca. 482 Millionen Zeichen
Kostenprojektion: Allein für den Initialimport wären ca. 9'000 CHF angefallen

Option 2: Open-Source-Übersetzungslösungen

Wir prüften Open-Source-Alternativen wie:

LibreTranslate: Diese selbst-hostbare Lösung war zwar kostenfrei, lieferte jedoch bei medizinischen Texten qualitativ unzureichende Ergebnisse.
NLLB (No Language Left Behind): Dieses von Meta AI entwickelte Modell unterstützte zwar alle benötigten Sprachen, erreichte aber nicht die erforderliche Präzision bei medizinischem Fachvokabular.

Gerade im medizinischen Bereich ist Zuverlässigkeit zentral – fehlerhafte Übersetzungen können gravierende Folgen haben. Deshalb kamen diese Varianten nicht in Frage.

Option 3: OpenAI Batch API und DeepL– Der goldene Mittelweg

Die Lösung fanden wir schliesslich in der OpenAI Batch API. Dieses bot den idealen Kompromiss zwischen Kosten und Qualität:

Sehr gute Übersetzungsqualität, besonders bei medizinischer Terminologie
Deutlich niedrigere Kosten im Vergleich zu spezialisierten Übersetzungsdiensten
Effiziente Verarbeitung grosser Datenmengen durch die Batch-Funktionalität

Schnell war klar, dass wir eine Kombination aus OpenAI Batch API und DeepL anstreben sollten: Der Grossteil wurde mit OpenAI, der kleinere Teil mit DeepL übersetzt. Nachfolgend gehen wir nur auf den OpenAI-Ansatz ein.

So haben wir’s umgesetzt

Um das Projekt reibungslos umzusetzen, entwickelten wir einen einfachen, aber effektiven Workflow – bestehend aus vier aufeinander abgestimmten Schritten:

1. Automatisierte Batch-Erstellung

Ein Skript sorgte dafür, dass regelmässig neue Pakete mit 500–1000 Studien für die Übersetzung vorbereitet wurden. Dabei gaben wir der Künstlichen Intelligenz (KI) ganz genaue Anweisungen, wie sie die Texte übersetzen soll – etwa in welche Sprachen, welche Felder im Text wichtig sind und wie das Ergebnis aussehen muss:

Der Code oben erzeugt eine detaillierte Anweisung für das KI-Modell, wie die Übersetzung strukturiert sein soll. In einfachen Worten:

1. Die Liste der gewünschten Zielsprachen (z.B. "DE, FR, IT") wird mit Kommas verbunden eingefügt

2. Die zu übersetzenden Felder werden übersichtlich dargestellt,

3. Eine genaue Vorlage gibt vor, wie die Übersetzung aussehen soll.

Man kann sich das vorstellen wie ein mehrsprachiges Formular: Die KI bekommt eine leere Tabelle mit klar definierten Feldern – und füllt diese pro Sprache präzise aus. Diese klare Vorgabe erleichterte die spätere Verarbeitung erheblich.

Ein ganz entscheidender Punkt war die Anleitung, die wir der KI mitgegeben haben – der sogenannte System-Prompt. Damit legten wir fest, wie die KI "denken" und arbeiten sollte.

Das war besonders wichtig, weil es bei medizinischen Texten auf jedes Detail ankommt. Unsere Anweisungen halfen der KI dabei, sich wie ein übersetzungssicheres medizinisches Fachsystem zu verhalten – und nicht wie ein kreatives Sprachmodell, das Dinge frei interpretiert oder dazuerfindet.

Wir sagten der KI zum Beispiel:

„Du bist ein medizinisches Übersetzungssystem. Arbeite präzise.“
„Erfinde keine Inhalte.“
„Behalte genau die Struktur bei, die wir dir vorgeben.“

Diese klare Ausrichtung verhinderte, dass das Modell Inhalte erfand oder unnötig umstrukturierte – typische Fehler, die gerade im Fachkontext problematisch wären.

Zusätzlich zur Anleitung passten wir einige Parameter an, um die Übersetzungsqualität weiter zu verbessern:

Weniger Kreativität: Eine geringe „Temperatur“ (0.3) sorgte dafür, dass die KI nicht zu kreativ wurde, sondern eher sachlich und konstant arbeitete.
Feste Struktur: Wir gaben vor, dass die Antworten immer im gleichen Format (JSON) geliefert werden sollen. Das half bei der automatischen Weiterverarbeitung.
Optimale Aufteilung: Wir fanden die ideale Menge an Übersetzungen pro Auftrag, damit alles zügig und sauber durchlief.

2. Status-Überwachung

Ein zweites Skript überprüfte regelmässig, wie weit die Übersetzungen fortgeschritten waren. Es schaute bei OpenAI nach, welche Übersetzungsaufträge bereits fertig waren, und aktualisierte den Status in unserer Datenbank. So behielten wir jederzeit den Überblick.

3. Verarbeitung der Ergebnisse

Sobald ein Auftrag abgeschlossen war, kümmerte sich ein weiteres Skript darum, die fertigen Übersetzungen abzuholen. Dabei prüfte es genau, ob die Antworten korrekt aufgebaut waren und speicherte sie dann in unserer Datenbank. Falls etwas nicht stimmte – etwa wegen eines fehlerhaften Formats – wurde der betroffene Datensatz automatisch zur erneuten Übersetzung vorgemerkt.

4. Qualitätssicherung

Zum Schluss überprüften wir nochmals, ob wirklich alle Studien in allen vier Sprachen vollständig übersetzt wurden – und ob alle relevanten Felder vorhanden waren. Auch das geschah automatisch: Unser System erstellte Berichte und kennzeichnete fehlende Inhalte für eine Nachbearbeitung.

Das Ergebnis: 98% günstiger – und pünktlich

Die Ergebnisse unserer Lösung übertrafen alle Erwartungen:

Volumen: Wir verarbeiteten erfolgreich über 150 Millionen Tokens
Kosten: Die gesamten API-Kosten beliefen sich auf weniger als 120 CHF
Qualität: Die Übersetzungen erfüllten alle qualitativen Anforderungen unseres Kunden
Zeitrahmen: Alle Übersetzungen konnten rechtzeitig zum Stichtag fertiggestellt werden

Im Vergleich dazu hätten wir mit DeepL etwa 9'000 CHF bezahlt – eine Einsparung von 98,67%.

Unser gestaffelter Übersetzungsansatz ermöglichte es zudem, den Fortschritt genau zu verfolgen und den festgelegten Stichtag einzuhalten.

Fazit

Gerade bei grossen Herausforderungen zahlt es sich aus, neue Wege zu gehen – und moderne Technologien mit einem durchdachten Ansatz zu kombinieren. Statt auf etablierte, aber teure Speziallösungen zu setzen, haben wir durch den Einsatz von KI-Technologie eine Lösung geschaffen, die sowohl kosteneffizient als auch qualitativ überzeugend war.

Die Kombination aus:

durchdachtem Prompt-Engineering,
einer automatisierten Verarbeitungspipeline,
robuster Qualitätssicherung und
dem strategischen Einsatz generativer KI

ermöglichte es uns, die scheinbar widersprüchlichen Anforderungen an Kosten, Qualität und Zeitrahmen unter einen Hut zu bringen.

Für Organisationen mit ähnlichen Herausforderungen lohnt es sich, neue Wege zu denken – und vorhandene Technologien kreativ und effizient zu nutzen.

Quellen und weiterführende Informationen

Über den Autoren:

Jeremy Püringer ist Webentwickler bei der snowflake productions GmbH. Er begeistert sich für Frameworks aus dem modernen JavaScript-Ökosystem und interessiert sich besonders für neue Entwicklungen im Bereich Künstliche Intelligenz.

Wie man 150 Millionen Tokens übersetzt

Wie übersetzt man 70'000 komplexe klinische Studien in vier Sprachen – kostengünstig, präzise und termingerecht? Mit einem durchdachten KI-Workflow, welcher nicht nur Zeit, sondern auch 98% der Kosten einspart.

Option 1: DeepL API

Option 2: Open-Source-Übersetzungslösungen

Option 3: OpenAI Batch API und DeepL– Der goldene Mittelweg

So haben wir’s umgesetzt

1. Automatisierte Batch-Erstellung

2. Status-Überwachung

3. Verarbeitung der Ergebnisse

4. Qualitätssicherung

Fazit

Quellen und weiterführende Informationen

Über den Autoren:

Unser Newsletter

Gemeinsam mehr erreichen.

Diese Webseite nutzt Cookies

Wie man 150 Millionen Tokens übersetzt

Wie übersetzt man 70'000 komplexe klinische Studien in vier Sprachen – kostengünstig, präzise und termingerecht? Mit einem durchdachten KI-Workflow, welcher nicht nur Zeit, sondern auch 98% der Kosten einspart.

Option 1: DeepL API

Option 2: Open-Source-Übersetzungslösungen

Option 3: OpenAI Batch API und DeepL– Der goldene Mittelweg

So haben wir’s umgesetzt

1. Automatisierte Batch-Erstellung

2. Status-Überwachung

3. Verarbeitung der Ergebnisse

4. Qualitätssicherung

Fazit

Quellen und weiterführende Informationen

Über den Autoren:

Artikel teilen

Unser Newsletter

Gemeinsam mehr erreichen.