Forscher von Apple haben ein neues Verfahren entwickelt, das das historische Trainings-Problem von Rekurrenten Neuronalen Netzen (RNNs) löst. Mit der ParaRNN-Methode können diese Netzwerk-Architektur erstmals parallel trainiert werden – mit dramatischen Geschwindigkeitsgewinnen. Das ermöglicht große RNN-Modelle mit bis zu 7 Milliarden Parametern, die in ihrer Sprachmodellierungs-Leistung mit modernen Transformern konkurrieren. Die Forschungsergebnisse wurden zur ICLR 2026 als Oral-Presentation akzeptiert, und Apple veröffentlicht die ParaRNN-Software als Open-Source-Framework.
Apple knackt RNN-Skalierungsproblem mit 665x schnellerem Training
Unsere Einordnung
Apple durchbricht mit ParaRNN eine grundlegende Limitation der KI-Effizienz: Während Transformer bei großen Kontextfenstern zum Energiefresser werden, versprechen RNNs konstante Inference-Kosten. Dass Apple diesen Kompromiss nun auch beim Training aufgelöst hat, könnte Edge-AI und On-Device-Modelle fundamental verändern – besonders für iPhones und andere ressourcenbegrenzte Geräte. Die Open-Source-Freigabe signalisiert: Apple sieht hier eine Branchentrend-Verschiebung.
Schlüsselfakten
- 665× schneller: ParaRNN ermöglicht paralleles Training von RNNs gegenüber traditioneller sequenzieller Verarbeitung
- 7-Milliarden-Parameter-RNNs sind nun trainierbar und erreichen Transformer-ähnliche Sprachmodellierungs-Performance
- Konstante Inference-Zeit: RNNs benötigen bei der Vorhersage unabhängig von Kontextlänge gleich viele Rechenoperationen
- Open-Source-Release: Apple stellt ParaRNN-Framework kostenlos zur Verfügung für weitere Forschung
- ICLR 2026 Oral: Forschungsergebnis wird auf Top-Konferenz als Highlight-Paper präsentiert