📢 Pressemitteilung

Künstliche Daten für schnelle Spracherkennung

23. April 2026·Quelle: Hugging Face Blog

Forscher haben mit synthetischen Trainingsdaten ein multilinguales OCR-Modell entwickelt, das Text in Dokumenten schneller und genauer erkennt. Das System namens Nemotron OCR v2 wurde mit 12 Millionen künstlich generierten Bildern trainiert und erreicht dabei Verarbeitungsgeschwindigkeiten von über 30 Seiten pro Sekunde. Der Ansatz könnte die Datenbeschaffung für KI-Modelle grundlegend vereinfachen.

Das Hauptproblem bei herkömmlichen OCR-Modellen (optische Zeichenerkennung) ist die Datenbeschaffung: Bestehende Benchmark-Datensätze wie ICDAR sind zwar präzise beschriftet, aber klein und stark auf Englisch und Chinesisch fokussiert. Manuelle Annotation ist teuer und zeitintensiv, während aus dem Web geschöpfte PDFs zwar große Mengen bieten, aber häufig fehlerhafte oder unzuverlässige Textlayer haben. Das Team von Nvidia nutzte stattdessen ein innovatives Rendering-Verfahren (Modified SynthDoG), um Millionen von Trainingsbildern künstlich zu generieren. Dabei wurde Text programmatisch auf verschiedene Hintergründe platziert – mit vollständiger Kontrolle über Schriftarten, Farben, Layouts und Störeffekte. Dies vereint die Skalierbarkeit der Web-Scraping-Methode mit der Label-Reinheit manueller Annotation.

Die Ergebnisse sprechen für sich: Auf sechs Sprachen reduzierte sich die Fehlerrate (NED-Score) von 0,56–0,92 auf 0,035–0,069. Die Architektur ermöglicht zudem extreme Geschwindigkeit durch gemeinsame Verarbeitungspfade. Sowohl Datensatz als auch Modell sind öffentlich verfügbar, was anderen Forschern schnelle Iteration ermöglicht.

Unsere Einordnung

Der Durchbruch liegt nicht in der Architektur, sondern in der Einsicht, dass Datensynthese traditionelle Datensammelkampagnen obsolet machen kann – ein Muster, das KI-Entwicklung grundlegend verändern dürfte. Dass Nvidia die Ressourcen öffentlich macht, beschleunigt die multilingual-KI-Forschung erheblich.

Schlüsselfakten

  • Nemotron OCR v2 verarbeitet 34,7 Seiten pro Sekunde auf einer A100-GPU
  • Training mit 12 Millionen synthetisch generierten Bildern über sechs Sprachen
  • Fehlerrate um 93% reduziert durch künstlich generierte Trainingsdaten
  • Datensatz und Modell sind öffentlich verfügbar (nvidia/OCR-Synthetic-Multilingual-v1)
  • Rendering-Pipeline (Modified SynthDoG) kontrolliert Schriftarten, Farben, Layouts und realistische Störeffekte

Artikel teilen