✍️ Blog

Reasoning ohne Training: 88,89% auf GPQA mit Model Merging

17. Mai 2026·Quelle: Hugging Face Blog

Forscher haben ein Verfahren entwickelt, das hochperformante Sprachmodelle durch intelligente Rekombination bestehender Gewichte erschafft – ohne einen einzigen Trainingschritt. Das Ergebnis: Frontier-Level-Reasoning bei minimalem Rechenaufwand.

Das Darwin-Family-Verfahren nutzt ein innovatives 14-dimensionales "Genome" für Model Merging, das es erlaubt, Fähigkeiten einzelner Schichten und Komponenten (Attention, FFN, LayerNorm) gezielt zu kombinieren. Das Kernstück ist die sogenannte MRI-Trust Fusion: Ein Diagnose-Signal misst, wie sehr jede Schicht zu bestimmten Reasoning-Fähigkeiten beiträgt, und eine gelernte Trust-Variable balanciert zwischen striktem Festhalten an dieser Diagnose und freier evolutionärer Suche.

Das Flagship-Modell Darwin-28B-Opus erreicht 88,89% auf dem anspruchsvollen GPQA-Diamond-Benchmark – ein Frontier-Score für Reasoning – ohne dass ein GPU-Node monatelang rechnen musste. Stattdessen werden existierende Open-Source-Modelle wie Bausteine nach evolutionären Prinzipien neu kombiniert.

Das hat direkte praktische Konsequenzen: Während traditionelles Post-Training (RLHF, DPO, Synthetic Data) hunderte Milliarden Token und enorme Rechenressourcen verschlingt, könnte Model Merging solche Capabilities demokratisieren. Die Frage ist nicht mehr: "Haben wir genug Compute?" sondern "Wie kombinieren wir das Beste aus bestehenden Checkpoints?"

Unsere Einordnung

Dies ist ein Paradigmenwechsel: Statt immer größere Modelle mit mehr Compute zu trainieren, werden künftig Entwickler bestehende Checkpoints intelligent kombinieren. Darwin beweist, dass Frontier-Performance ohne die astronomischen Kosten von RLHF erreichbar ist – ein Signal, dass die KI-Entwicklung demokratisiert werden könnte, wenn diese Techniken reifen.

Schlüsselfakten

  • Darwin-28B-Opus erreicht 88,89% auf GPQA Diamond – Frontier-Performance ohne Gradient-basiertes Training
  • 14-dimensionales adaptives Merge-Genome ermöglicht Rekombination auf Ebene einzelner Komponenten (Attention, FFN, LayerNorm)
  • MRI-Trust Fusion diagnostiziert die Wichtigkeit jeder Schicht für Reasoning und balanciert diese Diagnose mit evolutionärer Suche
  • Model Merging spart Milliarden an Trainings-Token und enorme Rechenressourcen gegenüber traditionellem Post-Training
  • Methode nutzt existierende Open-Source-Modelle als Bausteine – kein neues Pretraining nötig

Artikel teilen