Nvidia hat eine detaillierte Anleitung veröffentlicht, wie sich das Spracherkennungsmodell Nemotron 3.5 ASR auf eigene Sprachen, Fachbereiche und Akzente anpassen lässt. Das 600-Millionen-Parameter-Modell transkribiert in Echtzeit über 40 Sprachen aus einem einzigen Checkpoint und steht als Open-Weight-Variante zur Verfügung. Damit adressiert Nvidia ein Kernproblem der bisherigen Spracherkennungs-Landschaft: Unternehmen mussten bislang 40 verschiedene Modelle oder API-Aufrufe verwalten, um mehrsprachige Systeme zu betreiben.
Die neue Anleitung zeigt fünf konkrete Schritte: Datenaufbereitung, Training, Evaluierung, Skalierung und Deployment. Besonders interessant ist die Cache-Aware FastConformer-RNNT-Architektur, die echtes Streaming ohne verzögerte Neuberechnung ermöglicht. Das Modell liefert eine Latenz von nur 0,07 Sekunden bis zur finalen Transkription und soll unabhängigen Benchmarks zufolge beim Latenzbild führend sein. Weil Nemotron 3.5 als Open Weight verfügbar ist, können Nutzer es ohne API-Abhängigkeiten oder Pay-per-Call-Modelle einsetzen und trainieren – die Daten verlassen die eigene Infrastruktur nicht.
Die Initiative zeigt, wie der Trend zur Dezentralisierung von KI-Modellen voranschreitet: Statt monolithische Cloud-APIs zu nutzen, können Entwickler spezialisierte Modelle lokal anpassen. Das reduziert Kosten, erhöht Privatsphäre und ermöglicht Optimierungen für Nischenfälle wie regionale Dialekte oder Fachterminologie – Szenarien, die zentrale Anbieter oft vernachlässigen.