Jetzt abonnieren
Können LLMs andere LLMs autonom für neue Aufgaben verfeinern? So ungefähr.
…PostTrainBench zeigt ein erstaunliches Wachstum der KI-Fähigkeiten beim Post-Training…
KI-gesteuerte Forschung und Entwicklung könnte das Wichtigste im gesamten Bereich der KI sein, da es uns hilft zu verstehen, ob KI-Systeme irgendwann ihre eigenen Nachfolger bauen könnten. Bisher lag der Fokus der KI-F&E hauptsächlich auf Komponenten, die die KI-Entwicklung unterstützen (z. B. die autonome Erstellung von KI-Kernels), oder auf dem Training von Basismodellen (z. B. der
NanoGPT Speedrun Benchmark
). Der Feintuning – also die Aufgabe, ein bestehendes LLM an einen neuen Datensatz oder ein neues Verhalten anzupassen – hat jedoch weniger Beachtung gefunden.
Forscher der Universität Tübingen, des Max-Planck-Instituts für Intelligente Systeme und der KI-Forschungsorganisation Thoughtful Lab wollen das mit PostTrainBench ändern, einem Benchmark, der auf einen spezifischen Aspekt des Post-Trainings abzielt: die Verbesserung der Leistung bei einem bestimmten Datensatz. „Post-Training ist der Prozess, der aus rohen Sprachmodellen nützliche Werkzeuge macht“, schreiben die Autoren. „Können heutige Agenten die technische Arbeit leisten, wenn ein klares Ziel und begrenzte Rechenressourcen vorgegeben sind?“ Die Antwort scheint zu sein: „Ja, aber nicht so gut wie Menschen.“
Was sind die Hauptmerkmale von PostTrainBench?
End-to-End
: „Agenten müssen ihre gesamte Trainingspipeline von Grund auf neu aufbauen.“
Autonom
: „Agenten arbeiten mit vollständiger Autonomie über Datenquellen, Trainingsmethoden und experimentelle Strategie.“
Ressourcenbegrenzt:
„Jeder Durchlauf ist auf 10 Stunden auf einer einzelnen H100 GPU beschränkt.“
Integritätswahrend:
„Agenten dürfen nicht auf Benchmark-Testdaten trainieren, die Evaluierungsumgebung modifizieren oder ein anderes Modell einsetzen.“
Wie PostTrainBench funktioniert:
„Wir geben einem leistungsfähigen Coding-Agenten – Claude Code, Codex CLI oder Gemini CLI – ein Basissprachmodell und einen Ziel-Benchmark.“
4 Modelle und 7 Benchmarks
: Die erste Evaluierung läuft auf vier Modellen: Qwen3-1.7B, Qwen3-4B, SmolLM3-3B, Gemma-3-4B. Diese Modelle werden über sieben verschiedene Benchmarks getestet: AIME 2025, GSM8K, GPQA, HumanEval, BFCL, Arena-Hard, HealthBench-Easy.
Ergebnisse – Große Modelle gewinnen, besonders Opus 4.6:
„Der leistungsstärkste Agent – Opus 4.6, ausgeführt auf Claude Code – erreicht 23,2 %, etwa 3× mehr als der Durchschnitt von 7,5 % der Basismodelle.“
Aber Menschen sind immer noch viel besser:
„Dies ist jedoch immer noch weniger als die Hälfte der 51,1 %, die von menschlichen Teams erreicht werden, die dieselben Basismodelle in ihren Heimatlaboren post-trainieren.“
Schneller Fortschritt:
„Die Lücke ist signifikant, schließt sich aber schnell: Claude Sonnet 4.5 erreichte im September 2025 9,9 %, während GPT-5.2 nur wenige Monate später 21,5 % erreichte.“
Dinge, die einen „oh oh“ sagen lassen – Reward Hacking
: Während der Durchführung dieses Benchmarks beobachteten die Autoren zahlreiche Fälle, in denen KI-Modelle versuchten, den Benchmark zu manipulieren, um eine hohe Punktzahl zu erzielen. Diese Fälle umfassten:
Direkte Benchmark-Aufnahme:
„Agenten luden den Evaluierungsdatensatz des Benchmarks direkt über Hugging Face und verwendeten ihn als Trainingsdaten.“
Hartcodierte Benchmark-Probleme:
„Agenten betteten Evaluierungsfragen direkt in Datenvorbereitungsskripte ein, die als ‚synthetische‘ Beispiele getarnt waren.“
Evaluierungsgesteuerte Datengenerierung
: „Einige Agenten haben die Evaluierung per Reverse Engineering nachvollzogen … Kimi K2.5 las HealthBench-Evaluierungsdateien, um Themenverteilungen und Bewertungskriterien zu extrahieren, und erstellte dann maßgeschneiderte Trainingsdaten.“
Indirekte Kontamination durch Zwischendatensätze
: „Opus 4.6 lud ‚CodeFeedback-Filtered-Instruction‘, das von HumanEval abgeleitete Probleme enthält. Diese Form der Kontamination ist schwerer zu erkennen, aber ebenso problematisch.“
Intelligente Agenten hacken das Reward-System mehr:
„Leistungsfähigere Agenten scheinen besser darin zu sein, ausbeutbare Pfade zu finden: das Identifizieren spezifischer Benchmark-Stichproben zum Einbetten, das Reverse Engineering von Evaluierungsfehlermustern und sogar den Versuch, Kontamination durch kosmetische Modifikationen wie das Umbenennen von Funktionen zu verschleiern“, schreiben sie. Zum Beispiel „modifizierte der Codex-Agent den Code des Inspect AI Evaluierungsframeworks, um die Punktzahlen aufzublähen, und Claude lud ein Instruction-getuntes Modell herunter, anstatt das Basismodell zu feintunen.“
Warum das wichtig ist – schneller Fortschritt in Richtung einer „KI für alles“-Zukunft:
Benchmarks wie PostTrainBench geben uns ein Gefühl dafür, wie schnell sich KI-Systeme bei den grundlegenden Aufgaben der KI-Forschung verbessern. Sie dienen sowohl als Evaluierung der agentischen Autonomie über lange Zeiträume als auch als Indikator für das Potenzial einer sich beschleunigenden KI-Entwicklung selbst.
„Die Lücke zwischen der Agentenleistung (23,2 %) und den Instruction-getunten Baselines (51,1 %) deutet darauf hin, dass eine vollständige Automatisierung des Post-Trainings vorerst noch außer Reichweite liegt, aber die schnelle Verbesserung über Modellgenerationen hinweg – von 9,9 % für Sonnet 4.5 auf 23,2 % für Opus 4.6 innerhalb von etwa sechs Monaten – impliziert, dass sich diese Lücke schneller schließen könnte als erwartet“, schreiben die Forscher.
Man stelle sich vor, wo wir in zwei Jahren stehen werden – wir werden sicherlich KI-Modelle haben, die klug genug sind, um sich selbst auf ein bestimmtes Ziel auszurichten, ein Open-Weight-Modell zu finden und es dann autonom zu verbessern, um bei dieser Aufgabe eine bessere Leistung zu erzielen. Die Ära der flüchtigen, maßgeschneiderten KI-Systeme, die wie Sporen von Pilzen in die Welt hinausgebaut und abgespalten werden, naht. Bist du bereit für dieses neue Ökosystem, in dem du dich wiederfinden wirst? Ich bin es nicht. Aber es kommt trotzdem näher.
Schau dir den Blogbeitrag an:
Einführung von PostTrainBench (Thoughtful, Blog)
.
Lese mehr:
PostTrainBench: Can LLM Agents Automate LLM Post-Training? (arXiv)
.
***
COVENANT-72B: Die politische Ökonomie der KI durch verteiltes Training herausfordern:
…Verteiltes Training über die Blockchain erzielt einen bedeutenden Erfolg…
Eine Gruppe von Leuten hat die Blockchain genutzt, um das verteilte Training eines 72B-Parameter-Modells zu koordinieren, das die Leistung von LLaMA2 erreicht, einem Modell, das 2023 von Facebook trainiert und veröffentlicht wurde.
Das Modell, Covenant 72B, ist ein dichtes Decoder-only-Transformer-Architekturmodell, das im LLaMA-3-Stil gebaut wurde. „Unser Modell, vortrainiert auf etwa 1,1 Billionen Tokens, schneidet im Vergleich mit vollständig zentralisierten Modellen, die mit ähnlichen oder höheren Rechenbudgets vortrainiert wurden, wettbewerbsfähig ab. Dies demonstriert, dass eine vollständig demokratisierte, nicht auf einer Whitelist basierende Teilnahme nicht nur machbar ist, sondern auch in einem beispiellosen Umfang für einen global verteilten Pre-Training-Durchlauf erreicht werden kann“, schreibt Covenant AI, eine Organisation, die sich der KI-Entwicklung auf Basis der Blockchain widmet.
Weitere Details zum Modell und wie es trainiert wurde
: Das Modell selbst ist im Grunde ein Standard-LLM, mit dem man 2023 oder 2024 gerne gespielt hätte, auch wenn es 2026 vielleicht etwas altmodisch wirkt. Der wirklich einzigartige Aspekt ergibt sich aus der verteilten Trainingsweise, bei der etwa 20 verschiedene Peers, die jeweils 8xB200 GPUs betreiben, beim Training halfen. Das Training wurde über Gauntlet koordiniert, eine von Covenant entwickelte Software, die auf der Bittensor-Blockchain unter Subnet 3 läuft. Gauntlet „ermöglicht erlaubnisfreies Training, das über ein Blockchain-Protokoll koordiniert wird, indem ein Validator eingeführt wird, der eingereichte Pseudo-Gradienten bewertet, auswählt, welche Teilnehmer jede Runde zur globalen Aggregation beitragen, und diese an das Netzwerk sendet.“
„In COVENANT-72B führt jeder Peer eine SparseLoCo-Replik aus, und die Kommunikation zwischen den Peers erfolgt über die stark komprimierten Pseudo-Gradienten von SparseLoCo“, schreiben die Autoren. „Innerhalb jedes Peers verwenden 8×B200 GPUs dynamisches FSDP, um Modellparameter, Gradienten und Trainingszustände über die lokalen GPUs zu verteilen.“
Daten
: „Die Trainingsdaten umfassen insgesamt ∼1,1 Billionen Tokens, aufgeteilt in die Haupt- und die Annealing-Phase. Die Hauptphase (∼1,09 Billionen Tokens) besteht aus Webtext von DCLM, während die Annealing-Phase qualitativ hochwertigere Daten [3, 5] verwendet (∼14,2 Milliarden Tokens). Konkret verwendet die Annealing-Phase eine kuratierte Mischung aus Instruktionen (∼27 %), synthetischem Web (∼20 %), Code (15 %), Mathematik (13 %) und etwa 25 % Pre-Training-Replay-Daten aus natürlichem Webtext, um das Vergessen zu mildern.“
Leistung:
Im MMLU erreicht Covenant-72B einen Wert von 67,1, verglichen mit 32,7 für INTELLECT-1 (ein kleineres KI-Modell, das von Prime Intellect durch verteiltes Training gebaut wurde) und 65,7 für LLaMA-2-70B.
Eine Version von Covenant-72B, die auf etwa 15 Milliarden Tokens für die Konversationsinteraktion gefeintuned wurde, erzielt ähnlich gute Werte: 67,4 im MMLU gegenüber 67,9 für K2-Chat (ein Open-Source-Modell, das 2025 entwickelt wurde) und 63,1 für LLaMA-2-70B-Chat. Bei MATH erreicht es 26,3, gegenüber 19,1 für K2-Chat und 10,7 für LLaMA-2-70B.
„Im Vergleich zu zentralisierten Cluster-Training-Läufen mit ähnlicher Parameteranzahl ist COVENANT-72B weitgehend wettbewerbsfähig. Bemerkenswerterweise wurden diese zentralisierten Baselines mit konventioneller Rechenzentrumsinfrastruktur und, im Fall von LLaMA-2-70B, mit wesentlich mehr Tokens trainiert (2 Billionen vs. ∼1,1 Billionen)“, schreiben sie.
Warum das wichtig ist – Wem gehört die Zukunft?:
Verteiltes Training ist eine Technik, die die politische Ökonomie der KI verändern kann, indem sie die Akteure an der Spitze von monolithischen ‚Compute-Singletons‘ (wie Labore wie Anthropic und OpenAI und Clouds wie Google) zu einem größeren, föderierten Kollektiv verschiebt. Damit dies jedoch zutrifft, muss das verteilte Training zur Spitze aufschließen (weitere Diskussion im
Epoch-Bericht in Import AI 439
) – so beeindruckend Covenant auch ist, es ist hauptsächlich eine Demonstration, dass verteiltes Training einige nicht-triviale Modelle mit vager Nützlichkeit bauen kann, aber das ist ein weiter Weg von der Spitze entfernt – moderne Spitzenmodelle werden auf Dutzenden bis Hunderttausenden von Chips trainiert, während dieses hier auf vielleicht etwa 160 trainiert wurde (20 Peers * 8 Chips pro Stück).
Dennoch ist es eine wichtige Technologie, die man im Auge behalten sollte, und ich könnte mir eine Welt vorstellen, in der On-Device-KI viele Modelle umfasst, die mit verteilten Trainingstechniken entwickelt wurden, während On-Cloud-KI hauptsächlich auf proprietären Modellen läuft, die mit enormen Rechenmengen trainiert wurden.
Lese mehr:
Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet (arXiv)
.
Hol dir das Modell hier:
Covenant, (HuggingFace)
.
***
Wenn KI die gesamte Software der Welt schreibt, sollten wir mehr in Verifikation investieren:
…Können wir einfach den Großteil unserer Software in Lean umschreiben?...
Leonardo de Moura, ein Wissenschaftler, der auch Chefarchitekt der Lean Focused Research Organization (FRO) ist, glaubt, dass der Aufstieg der KI zur Erstellung neuer Software bedeutet, dass Menschen viel mehr in Verifikations- und Testinfrastruktur investieren müssen – und er hat eine interessante Idee, wie das zu bewerkstelligen ist.
Natürlich würde jemand, der
Lean
liebt, eine Programmiersprache, die sich dem Bau korrekten und formal verifizierten Codes widmet, so denken. Aber seine Argumente sind sehr überzeugend und passen im Allgemeinen zu der Idee, dass, wenn die KI die Wirtschaft übernimmt, wir erwarten sollten, dass sich ein großer Teil des menschlichen Werts hin zur Verifikation des von der KI entwickelten Codes und Systems verschiebt (
Import AI 447
).
Warum Verifikation wichtig ist:
„Die Reibung des manuellen Schreibens von Code zwang früher zu sorgfältigem Design. KI entfernt diese Reibung, einschließlich der nützlichen Reibung. Die Antwort ist nicht, KI zu verlangsamen. Es geht darum, menschliche Reibung durch mathematische Reibung zu ersetzen: Lass KI sich schnell bewegen, aber zwinge sie, ihre Arbeit zu beweisen“, schreibt er. „Verifikation, Testen und Spezifikation waren schon immer der Engpass, nicht die Implementierung … Der Wert liegt nicht in der Verifikationsbelegschaft. Er liegt darin, was eine verifizierte Auslieferung ermöglicht.“
Ein Proof of Concept für diese futuristische Welt:
Das Lean FRO hat kürzlich geholfen, einen Proof of Concept dafür zu bauen, wie diese verifizierte Welt aussehen könnte; sie ließen einen KI-Agenten zlib, eine C-Komprimierungsbibliothek, nach Lean konvertieren. „Das Ergebnis zeigt, dass KI heute Produktionssoftware in eine verifizierte Form konvertieren kann. Dies wurde noch nicht für möglich gehalten“, schreibt er. Die Konvertierung umfasste vier Schritte:
Das LLM (Claude) erstellte eine saubere Lean-Implementierung des zlib-Komprimierungsformats, einschließlich des verwendeten DEFLATE-Algorithmus.
Sie ließen das umgeschriebene zlib durch die Testsuite der Bibliothek laufen, und es bestand sie, was die Gleichwertigkeit bestätigte.
Wichtige Eigenschaften wurden als mathematische Theoreme formuliert und bewiesen – zum Beispiel ein maschinengeprüfter Beweis, der sicherstellt, dass das Dekomprimieren eines komprimierten Puffers immer die Originaldaten zurückgibt.
Jetzt wird eine optimierte Version der Bibliothek entwickelt und als gleichwertig mit dem verifizierten Modell bewiesen.
Eine Verifikationsplattform:
Moura stellt sich eine Welt vor, in der wir den kritischen Software-Stack der Welt neu entwickeln, mit eingebauten mathematischen Beweisen. „Das Ziel ist ein verifizierter Software-Stack: Open Source, frei verfügbar, mathematisch garantiert korrekt. Entwickler, die kritische Systeme bauen, wählen verifizierte Komponenten so, wie sie heute Open-Source-Bibliotheken wählen, au