✍️ Blog

Kog präsentiert Laneformer 2B: KI-Modell für ultraschnelle Inferenz

1. Juli 2026·Quelle: Hugging Face Blog

Das Pariser KI-Infrastruktur-Startup Kog hat ein neues Sprachmodell entwickelt, das von Grund auf für maximale Dekodiergeschwindigkeit optimiert wurde. Das 2,3-Milliarden-Parameter-Modell Laneformer 2B erreicht bei Code-Aufgaben Benchmark-Ergebnisse von 45,1% bei HumanEval+ und 51,6% bei MBPP+. Kog bricht dabei mit der klassischen Herangehensweise der LLM-Forschung, die üblicherweise erst die Modellqualität optimiert und Geschwindigkeit später als Serving-Problem betrachtet. Stattdessen war Latenz das primäre Designziel. Das Unternehmen setzt auf eine neuartige Lane-strukturierte Transformer-Architektur, die speziell für die hauseigene Kog Inference Engine entwickelt wurde und bis zu 3.000 Token pro Sekunde auf Standard-Datacenter-GPUs verarbeitet. Gewichte, Implementierung und Dokumentation sind nun auf Hugging Face verfügbar.

Unsere Einordnung

Kog zeigt einen interessanten Paradigmenwechsel in der LLM-Entwicklung: Statt Benchmark-Performance zu maximieren und Geschwindigkeit später zu erzwingen, wird Latenz zur primären Designkonstante. Das ist pragmatisch für die wachsende Zahl von Echtzeit-KI-Agenten – doch die Frage bleibt, ob diese spezialisierte Architektur auf breitere Anwendungen übertragbar ist oder ob sie ein Nischenlösung für spezifische Inference-Hardware bleibt.

Schlüsselfakten

  • Laneformer 2B mit 2,3 Milliarden Parametern wurde von Grund auf für Geschwindigkeit statt nur Genauigkeit optimiert
  • Erreicht 45,1% bei HumanEval+ und 51,6% bei MBPP+ – wettbewerbsfähig für seine Größenklasse
  • Kog Inference Engine dekodiert bis zu 3.000 Token pro Sekunde auf Standard-Datacenter-GPUs
  • Modell wurde auf 4 Billionen Pre-Training-Tokens und 2 Billionen Code/Reasoning-Tokens trainiert
  • Vollständige Gewichte und Code sind als Open Source auf Hugging Face Hub verfügbar

Artikel teilen