Forschende haben ein Verfahren entwickelt, um OpenAI Whispers Spracherkennungsmodell für indische Sprachen wie Hindi und Malayalam zu verbessern. Das Hauptproblem: Bestehende Modelle sind auf Studio-Aufnahmen trainiert und scheitern bei alltäglichen, spontanen Gesprächen. Mit einer gezielten Feinabstimmung und einem speziellen Trainings-Ansatz gelang es, ein 244-Millionen-Parameter-Modell zu schaffen, das deutlich größere Konkurrenzmodelle übertrifft – etwa bei der Erkennung von Gerichtsverhandlungen, wo Richter und Anwälte spontan sprechen.
Indische Sprachen: Whisper-Modell wird sprachrobuster
Unsere Einordnung
Ein wichtiger Schritt für Sprachtechnologie außerhalb der englischsprachigen Welt: Die Forschung zeigt, dass nicht immer größere Modelle nötig sind, sondern intelligentere Trainingsmethoden. Das ist relevant für alle Märkte mit unterrepräsentierten Sprachen – und beweist, dass Open-Source-Ansätze wie Whisper durch spezialisierte Fine-Tuning-Strategien hochoptimiert werden können.
Schlüsselfakten
- Bestehende ASR-Modelle (Automatic Speech Recognition) für indische Sprachen sind auf Studio-Aufnahmen optimiert und scheitern bei echter Alltagssprache
- Mit erhöhter Lernrate (2e-4) beim Feintuning erzielt Whisper konsistent bessere Ergebnisse als bestehende öffentliche Hindi- und Malayalam-Modelle
- Ein 244-Millionen-Parameter-Modell übertrifft öffentlich verfügbare Modelle bis zur sechsfachen Größe ohne architektonische Änderungen
- Das Reverse-Multi-Stage-Finetuning (schwierige Beispiele zuerst trainieren) verbessert Robustheit bei spontaner und lauter Sprache besonders für Malayalam