Das Pariser KI-Infrastruktur-Startup Kog hat ein neues Sprachmodell entwickelt, das von Grund auf für maximale Dekodiergeschwindigkeit optimiert wurde. Das 2,3-Milliarden-Parameter-Modell Laneformer 2B erreicht bei Code-Aufgaben Benchmark-Ergebnisse von 45,1% bei HumanEval+ und 51,6% bei MBPP+. Kog bricht dabei mit der klassischen Herangehensweise der LLM-Forschung, die üblicherweise erst die Modellqualität optimiert und Geschwindigkeit später als Serving-Problem betrachtet. Stattdessen war Latenz das primäre Designziel. Das Unternehmen setzt auf eine neuartige Lane-strukturierte Transformer-Architektur, die speziell für die hauseigene Kog Inference Engine entwickelt wurde und bis zu 3.000 Token pro Sekunde auf Standard-Datacenter-GPUs verarbeitet. Gewichte, Implementierung und Dokumentation sind nun auf Hugging Face verfügbar.
Kog präsentiert Laneformer 2B: KI-Modell für ultraschnelle Inferenz
Unsere Einordnung
Kog zeigt einen interessanten Paradigmenwechsel in der LLM-Entwicklung: Statt Benchmark-Performance zu maximieren und Geschwindigkeit später zu erzwingen, wird Latenz zur primären Designkonstante. Das ist pragmatisch für die wachsende Zahl von Echtzeit-KI-Agenten – doch die Frage bleibt, ob diese spezialisierte Architektur auf breitere Anwendungen übertragbar ist oder ob sie ein Nischenlösung für spezifische Inference-Hardware bleibt.
Schlüsselfakten
- Laneformer 2B mit 2,3 Milliarden Parametern wurde von Grund auf für Geschwindigkeit statt nur Genauigkeit optimiert
- Erreicht 45,1% bei HumanEval+ und 51,6% bei MBPP+ – wettbewerbsfähig für seine Größenklasse
- Kog Inference Engine dekodiert bis zu 3.000 Token pro Sekunde auf Standard-Datacenter-GPUs
- Modell wurde auf 4 Billionen Pre-Training-Tokens und 2 Billionen Code/Reasoning-Tokens trainiert
- Vollständige Gewichte und Code sind als Open Source auf Hugging Face Hub verfügbar