✍️ Blog

Reasoning ohne Training: 88,89% auf GPQA mit Model Merging

17. Mai 2026·Quelle: Hugging Face Blog

Forscher haben ein Verfahren entwickelt, das hochperformante Sprachmodelle durch intelligente Rekombination bestehender Gewichte erschafft – ohne einen einzigen Trainingschritt. Das Ergebnis: Frontier-Level-Reasoning bei minimalem Rechenaufwand.

Das Darwin-Family-Verfahren nutzt ein innovatives 14-dimensionales "Genome" für Model Merging, das es erlaubt, Fähigkeiten einzelner Schichten und Komponenten (Attention, FFN, LayerNorm) gezielt zu kombinieren. Das Kernstück ist die sogenannte MRI-Trust Fusion: Ein Diagnose-Signal misst, wie sehr jede Schicht zu bestimmten Reasoning-Fähigkeiten beiträgt, und eine gelernte Trust-Variable balanciert zwischen striktem Festhalten an dieser Diagnose und freier evolutionärer Suche.

Das Flagship-Modell Darwin-28B-Opus erreicht 88,89% auf dem anspruchsvollen GPQA-Diamond-Benchmark – ein Frontier-Score für Reasoning – ohne dass ein GPU-Node monatelang rechnen musste. Stattdessen werden existierende Open-Source-Modelle wie Bausteine nach evolutionären Prinzipien neu kombiniert.

Das hat direkte praktische Konsequenzen: Während traditionelles Post-Training (RLHF, DPO, Synthetic Data) hunderte Milliarden Token und enorme Rechenressourcen verschlingt, könnte Model Merging solche Capabilities demokratisieren. Die Frage ist nicht mehr: "Haben wir genug Compute?" sondern "Wie kombinieren wir das Beste aus bestehenden Checkpoints?"

Unsere Einordnung

Dies ist ein Paradigmenwechsel: Statt immer größere Modelle mit mehr Compute zu trainieren, werden künftig Entwickler bestehende Checkpoints intelligent kombinieren. Darwin beweist, dass Frontier-Performance ohne die astronomischen Kosten von RLHF erreichbar ist – ein Signal, dass die KI-Entwicklung demokratisiert werden könnte, wenn diese Techniken reifen.

Schlüsselfakten

Darwin-28B-Opus erreicht 88,89% auf GPQA Diamond – Frontier-Performance ohne Gradient-basiertes Training
14-dimensionales adaptives Merge-Genome ermöglicht Rekombination auf Ebene einzelner Komponenten (Attention, FFN, LayerNorm)
MRI-Trust Fusion diagnostiziert die Wichtigkeit jeder Schicht für Reasoning und balanciert diese Diagnose mit evolutionärer Suche
Model Merging spart Milliarden an Trainings-Token und enorme Rechenressourcen gegenüber traditionellem Post-Training
Methode nutzt existierende Open-Source-Modelle als Bausteine – kein neues Pretraining nötig

Artikel teilen

Weitere News

📊Analyse

Enterprise-KI: Zwei Drittel haben längst Modell-Hedging

4. Juli 2026

💰Funding

Scribe erhält 25 Mio. für Gen-Therapien gegen Herzerkrankungen

4. Juli 2026

🎪Event

Robotik-Wochenrückblick: Von Greifarmen bis Walforschung

4. Juli 2026

Alle News