Forscher haben mit synthetischen Trainingsdaten ein multilinguales OCR-Modell entwickelt, das Text in Dokumenten schneller und genauer erkennt. Das System namens Nemotron OCR v2 wurde mit 12 Millionen künstlich generierten Bildern trainiert und erreicht dabei Verarbeitungsgeschwindigkeiten von über 30 Seiten pro Sekunde. Der Ansatz könnte die Datenbeschaffung für KI-Modelle grundlegend vereinfachen.
Das Hauptproblem bei herkömmlichen OCR-Modellen (optische Zeichenerkennung) ist die Datenbeschaffung: Bestehende Benchmark-Datensätze wie ICDAR sind zwar präzise beschriftet, aber klein und stark auf Englisch und Chinesisch fokussiert. Manuelle Annotation ist teuer und zeitintensiv, während aus dem Web geschöpfte PDFs zwar große Mengen bieten, aber häufig fehlerhafte oder unzuverlässige Textlayer haben. Das Team von Nvidia nutzte stattdessen ein innovatives Rendering-Verfahren (Modified SynthDoG), um Millionen von Trainingsbildern künstlich zu generieren. Dabei wurde Text programmatisch auf verschiedene Hintergründe platziert – mit vollständiger Kontrolle über Schriftarten, Farben, Layouts und Störeffekte. Dies vereint die Skalierbarkeit der Web-Scraping-Methode mit der Label-Reinheit manueller Annotation.
Die Ergebnisse sprechen für sich: Auf sechs Sprachen reduzierte sich die Fehlerrate (NED-Score) von 0,56–0,92 auf 0,035–0,069. Die Architektur ermöglicht zudem extreme Geschwindigkeit durch gemeinsame Verarbeitungspfade. Sowohl Datensatz als auch Modell sind öffentlich verfügbar, was anderen Forschern schnelle Iteration ermöglicht.