Ab wann preisen die Finanzmärkte die Singularität ein?
Willkommen zu Import AI, einem Newsletter über KI-Forschung. Import AI läuft auf arXiv und dem Feedback der Leser. Wenn Sie dies unterstützen möchten, abonnieren Sie bitte.
**Huaweis HiFloat4-Trainingsformat schlägt westlich entwickeltes MXFP4 im Ascend-Chip-Wettbewerb:**
…Könnte dies auch ein Symptom für die Auswirkungen von Exportkontrollen sein, die das chinesische Interesse an der Maximierung von Trainings- und Inferenzeffizienz treiben? Vielleicht…
Huawei-Forscher haben HiFloat4, ein 4-Bit-Präzisionsformat für KI-Training und Inferenz, gegen MXFP4, ein 4-Bit-Format des Open Compute Project, getestet und festgestellt, dass HiFloat4 überlegen ist. Dies ist interessant, da es mit einem breiteren Interesse chinesischer Unternehmen korreliert, eigene Niedrigpräzisions-Datenformate zu entwickeln, die explizit an ihre eigenen Hardwareplattformen gekoppelt sind.
„Unser Ziel ist es, effizientes FP4-LLM-Pretraining auf spezialisierten KI-Beschleunigern mit strengen Leistungsbeschränkungen zu ermöglichen. Wir konzentrieren uns auf Huaweis Ascend-NPUs, die domänenspezifische Beschleuniger für Deep-Learning-Workloads sind“, schreiben sie.
**Was sie getestet haben:** In diesem Paper trainieren die Autoren 3 Modelltypen auf Huawei-Ascend-Chips – OpenPangu-1B, Llama3-8B und Qwen3-MoE-30B. In Tests gilt: Je größer die Modelle, desto besser reduziert HiFloat4 seinen Verlustfehler bei diesen Modellen im Vergleich zu einer BF16-Baseline – und in allen Fällen schneidet es besser ab als MXFP4.
**Was sie fanden:** „Wir führen eine systematische Bewertung des HiFloat4 (HiF4)-Formats durch und zeigen, dass es im Vergleich zu einer Vollpräzisions-Baseline einen geringeren relativen Verlust (≈ 1,0 %) im Vergleich zu MXFP4 (≈ 1,5 %) erzielt“, schreiben sie. „HiF4 erzielt durchweg einen signifikant geringeren relativen Fehler als MXFP4. Für Llama und Qwen erreicht HiF4 eine Fehlerlücke von weniger als 1 % im Vergleich zur Baseline … HiF4 kommt mit nur RHT als Stabilisierungstrick auf etwa 1 % des BF16-Verlusts, während MXFP4 RHT + stochastisches Runden + truncation-free Scaling benötigt, um auf etwa 1,5 % zu kommen.“
**Warum dies wichtig ist – Symptom der Hardware-Reife und möglicher Einfluss von Exportkontrollen:** HiFloat4 ist eine noch niedrigere Präzisionsversion von HiFloat8 (#386) und spiegelt allgemein die Tatsache wider, dass Huawei (und chinesische Chiphersteller im Allgemeinen) kontinuierlich versuchen, so viel Effizienz wie möglich aus ihren Chips herauszuholen. Dies geschieht vor dem Hintergrund von Exportkontrollen, bei denen China aufgrund des fehlenden Zugangs zu H100s etc. in großen Stückzahlen von Frontier-Computing abgeschnitten wird, was es noch wertvoller macht, die Effizienz seiner einheimischen Chips durch die sorgfältige Entwicklung von Niedrigpräzisionsformaten für die eigene Hardware zu verbessern.
**Weiterlesen:** HiFloat4 Format for Language Model Pre-training on Ascend NPUs (arXiv).
***
**Anthropic zeigt, wie man KI-Sicherheitsforschung automatisiert:**
…Sehr frühe und vorläufige Anzeichen, dass es möglich ist, KI-Forschung zu automatisieren…
Für viele Menschen, die im Bereich KI arbeiten, ist das ultimative Ziel, die Kunst der KI-Forschung selbst zu automatisieren. Nun haben Forscher des Anthropic Fellows Program und von Anthropic einige frühe Warnzeichen veröffentlicht, dass die Automatisierung von KI-Forschung heute möglich ist – wenn auch mit vielen Einschränkungen.
„Wir fragen: Kann Claude eigene Alignment-Ideen entwickeln, testen und analysieren?“, schreiben die Forscher. Sie sind erfolgreich und können „autonome KI-Agenten bauen, die Ideen vorschlagen, Experimente durchführen und an einem offenen Forschungsproblem iterieren: wie man ein starkes Modell nur mit der Aufsicht eines schwächeren Modells trainiert. Diese Agenten übertreffen menschliche Forscher, was darauf hindeutet, dass die Automatisierung dieser Art von Forschung bereits praktikabel ist.“
**Weak-to-Strong Supervision:** Die Domäne, die die Forscher testen, ist Weak-to-Strong Supervision, also grob die Idee zu sehen, ob ein dümmeres Ding ein größeres Ding effektiv bei einer schwierigen Aufgabe beaufsichtigen kann.
**Gesamtergebnisse – automatisierte Forschung schlägt Menschen:** Sie nutzten Menschen, um eine Weak-to-Strong-Baseline zu erstellen, indem sie sahen, wie gut sie einen guten ‚Performance Gap Recovered‘ (PGR)-Score bei einer Generalisierungsaufgabe erzielen konnten. Je höher die Zahl, desto besser.
„Zwei unserer Forscher verbrachten sieben Tage damit, an vier der vielversprechendsten Generalisierungsmethoden aus früherer Forschung zu iterieren. Bei den von uns getesteten Open-Weights-Modellen (Qwen 3-4B-Base als starkes Modell, Qwen 1.5-0.5B-Chat als schwacher Lehrer) erholten die Menschen 23 % der gesamten Leistungslücke (d. h. erreichten einen PGR von 0,23)“, schreiben sie. „Claude verbesserte dieses Ergebnis dramatisch. Nach weiteren fünf Tagen (und 800 kumulativen Forschungsstunden) schlossen die AARs fast die gesamte verbleibende Leistungslücke und erreichten einen endgültigen PGR von 0,97. Dies kostete etwa 18.000 $ an Token- und Modelltrainingskosten, oder 22 $ pro AAR-Stunde.“
Zusätzlich „verallgemeinerte sich die effektivste Methode der AARs erfolgreich auf beide neuen Datensätze, mit PGRs von 0,94 bei Mathematik und 0,47 bei Programmierung (was immer noch das Doppelte der menschlichen Baseline war).“
**Wie sie es gemacht haben:** „Wir starten ein Team paralleler automatisierter Alignment-Forscher [AARs] (Claude Opus 4.6-Agenten) über ein Dashboard. Jeder AAR arbeitet in einer unabhängigen Sandbox, aber sie können miteinander sprechen und voneinander lernen: Sie teilen Ergebnisse in einem Forum und laden Codebase-Snapshots in ein Speichersystem hoch“, schreiben sie. „Wir geben AARs Zugang zu gemeinsamen Hilfsfunktionen für Modelltraining und Inferenz, unseren Baseline-Implementierungen und einigen MCP-Tools: 1) Ergebnisse einreichen und erhalten, 2) Ergebnisse über AARs hinweg teilen und lesen, und 3) Codebasen hoch- und herunterladen. Wir geben kein detailliertes Scaffolding vor; AARs laufen autonom. Sie können Hypothesen vorschlagen, De-Risking-Experimente entwerfen, Datenanalysen durchführen und Modelle in jedem Schritt trainieren.“
**Einige Einschränkungen – der Mensch schuf etwas Vielfalt:** „Ein Fehlermodus bei der Exploration ist der Entropiekollaps: Alle parallelen AARs konvergieren zu nur wenigen Richtungen, ohne verschiedene Ideen zu erkunden“, schreiben sie. Um dem entgegenzuwirken, ist ihr erfolgreichster Ansatz einer der „gerichteten“ Forschung, bei dem ein Mensch „jedem AAR eine andere Forschungsrichtung zuweist. Jede Richtung ist sehr vage und kurz (z. B. Kombination von Weak-to-Strong Supervision und unüberwachter Elicitation).“
**Verallgemeinert sich nicht:** Die Forscher nahmen die effektivste Methode aus dem AAR-Projekt und wandten sie auf „Claude Sonnet 4 mit unserer Produktionstrainingsinfrastruktur“ an – dieser Eingriff „führte zu keiner statistisch signifikanten Verbesserung.“ Sie erklären dies damit, dass „AARs dazu neigen, Chancen zu nutzen, die nur für die Modelle und Datensätze gelten, die ihnen gegeben werden, was bedeutet, dass ihre Methoden woanders möglicherweise nicht funktionieren.“
**Warum dies wichtig ist – ein sehr frühes Zeichen, dass KI-Forschung selbst automatisiert werden könnte:** Diese Forschung deutet darauf hin, dass „automatisierte Forschung zu ergebnisbewertbaren Problemen bereits praktikabel ist“, so die Autoren. „Der entscheidende Engpass für die Alignment-Forschung ist der Übergang vom Vorschlagen und Ausführen von Ideen zum Entwerfen von Evaluierungen: Wir sollten die richtigen Metriken (Daten, Modelle) finden, die AARs zuverlässig erklimmen können, ohne zu overfitten. Wir sind begeistert, die Automatisierung heute auf ambitionierte Alignment-Forschung anzuwenden.“
Anders ausgedrückt: Wir haben jetzt ein frühes Zeichen dafür, dass KI-Systeme bei einer kleinen Menge menschlicher Expertenkalibrierung autonom Forschung von Anfang bis Ende durchführen können und etwas hervorbringen, das die Leistung eines Modells bei einem Problem verbessert. Die Implikationen deuten auf die Expansion einer Maschinenökonomie hin, die stetig herausfindet, wie sie ihre eigene Leistung bei einer ständig wachsenden Aufgabensammlung automatisch verbessern kann.
Die wahre Frage ist, ab wann die Maschinen effektiv eigene Forschungsrichtungen vorschlagen können – was die einzige sinnvolle Rolle eliminieren würde, die ein Mensch in dieser Forschung spielte. An diesem Punkt könnte es nicht nur die Expansion einer Maschinenökonomie sein, sondern die Expansion einer gesamten Maschinenzivilisation.
**Lies den Blog:** Automated Alignment Researchers: Using large language models to scale scalable oversight (Anthropic Blog).
**Lies das Paper:** Automated Weak-to-Strong Researcher (Alignment Science Blog).
***
**Wie unterscheiden sich chinesische Modelle von amerikanischen?**
…Weniger Ablehnungen bei einigen CBRN-Aufgaben, weniger Sicherheitstraining und mehr chinesische Ideologie…
Eine Gruppe von Forschern hat Kimi K2.5, wahrscheinlich das beste verfügbare Open-Weight-Modell in großem Maßstab, getestet und mit DeepSeek V3.2 sowie Claude Opus 4.5 und GPT 5.2 verglichen. Ihre Ergebnisse zeigen, dass das Modell „ähnliche Dual-Use-Fähigkeiten wie GPT 5.2 und Claude Opus 4.5 hat, aber mit signifikant weniger Ablehnungen bei CBRNE-bezogenen Anfragen“.
**Wer hat es gemacht:** Die Forschung wurde von Personen durchgeführt, die mit Constellation, Anthropic Fellows Program, Brown University, University of Wisconsin-Madison, Imperial College London, University of Maryland, Georgia Institute of Technology, Bar Ilan University, University of Toronto und der University of Oxford verbunden sind.
**Hauptergebnisse von Interesse:**
**CBRN:** K2.5 ist bei Bio-Aufgaben etwas gefährlicher mit einer geringeren Ablehnungsrate bei Anfragen, die Dinge wie gefährliche Virologie betreffen.
**Cyber:** K2.5 scheint meist ein anständiges, aber kein Experten-Cyber-Modell zu sein, mit einer Leistung, die hinter den westlichen Frontier-Modellen zurückbleibt, aber deutlich vor DeepSeek liegt.
**Alignment:** „Im automatisierten Verhaltensaudit erzielt es deutlich höhere Werte als GPT-5.2 und Claude Opus 4.5 bei Fehlverhalten, Sykophantie, schädlicher System-Prompt-Compliance und Kooperation mit menschlichem Missbrauch“.
**Zensur:** Das Modell hat eine deutlich höhere Ablehnungsrate bei sensiblen chinesischen politischen Themen im Vergleich zu Claude Opus 4.5 und GPT-5.2 Pro, wenn auch weniger als DeepSeek V3.2. Andererseits habe ich den umgekehrten Test nicht gesehen – das Modell mit sensiblen westlichen politischen Themen zu testen und zu vergleichen, daher ist es etwas schwer zu sagen, ob diese Evaluierung etwas über kulturelle Geläufigkeit oder etwas über tatsächliche Unterdrückung misst.
**Fine-Tuning:** Die Forscher zeigen auch, wie sie mit einem kleinen Rechenaufwand die (relativ geringen, aber nicht Null) Sicherheitsvorkehrungen in Kimi K2.5 weiter abbauen können: „Mit weniger als 500 $ Rechenleistung und etwa 10 Stunden reduzierte ein erfahrener Red-Teamer die Ablehnungen auf HarmBench von 100 % auf 5 %. Das endgültige Modell war bereit, detaillierte Anleitungen zum Bau von Bomben, zur Auswahl von Zielen für Terroranschläge und zur Synthese chemischer Waffen zu geben. Kritischerweise scheint das finetuned Modell fast alle seine Fähigkeiten behalten zu haben.“
**Warum dies wichtig ist – hauptsächlich dient diese Forschung als Beweis, dass Moonshot ein sehr gutes Modell gemacht hat!** Ja, es hat einige Sicherheitsprobleme, aber das Interessante ist, dass sie weniger schwerwiegend sind als bei DeepSeek V3.2. Ich denke, dies verleiht der Idee mehr Glaubwürdigkeit, dass ‚dümmere Modelle weniger sicher sind‘ und dass ‚intelligentere Modelle natürlicherweise zu oberflächlicherer Sicherheit tendieren‘.
Am auffälligsten für mich ist wahrscheinlich, dass der Bereich der größten Divergenz im Alignment liegt, wo es eine sehr reale Ost-West-Trennung zu geben scheint, die mit radikal unterschiedlichen Werten korreliert. Aber bei Dingen, die eher wie typische Fähigkeiten aussehen (Biologie, Cyber – besonders die schwierigen Programmiertelle) deutet alles meist darauf hin, dass chinesische Modelle etwas hinter der westlichen Frontier zurückliegen, aber nicht weit.
**Weiterlesen:** An Independent Safety Evaluation of Kimi K2.5 (arXiv).
***
**Ukraine feiert ersten vollständig robotischen Sieg:**
…Roboter-Kriege sind da…
Der ukrainische Führer Wolodymyr Selenskyj feierte kürzlich, dass „zum ersten Mal in der Geschichte dieses Krieges eine feindliche Stellung ausschließlich von unbemannten Plattformen eingenommen wurde – Bodensysteme und Drohnen“.
**Warum dies wichtig ist:** Die Ukraine ist die Petrischale, aus der sich die meisten zukünftigen Kriege entwickeln werden. Sie ist geprägt von massivem Einsatz von Drohnen sowie der kreativen Robotisierung vieler anderer Teile des Unternehmens, von unbemannten Booten bis zu unbemannten Bodenrobotern. „Ratel, TerMIT, Ardal, Rys, Zmiy, Protector, Volia und unsere anderen Bodenrobotersysteme haben in nur drei Monaten mehr als 22.000 Missionen an der Front durchgeführt“, schreibt Selenskyj.
Bald werden diese ferngesteuerten Plattformen von KIs statt von Menschen gesteuert.
**Weiterlesen in Selenskyjs Beitrag auf X (Twitter).**
***
**Chinesische Forscher nutzen ein Boot, um einen riesigen Schiffsdetektionsdatensatz zu erstellen:**
…WUTDet…
Forscher der Wuhan University of Technology, der Huazhong University of Science and Technology und der Tianjin University haben WUTDet konstruiert, einen „groß angelegten Schiffsdetektionsdatensatz mit verschiedenen Szenarien und Zielskalen“.
**WUTDet-Details:** 100.576 Bilder mit 381.378 Schiffsinstanzen. „Der Datensatz bietet feinkörnige Annotationen von Schiffsziele in verschiedenen Betriebsszenarien, Bildgebungsbedingungen und Zielskalen“. Die Bilder haben Größen zwischen 1920 x 1080 und 2560 x 1440.
**Gesammelt von einem Boot:** Dieser Datensatz wurde über ein Boot vom Typ Furui 688 gesammelt, das mit einem „DN20 marinen photoelektrischen Beweissystem“ und einem Hikvision-Netzwerkvideorekorder ausgestattet war. Die Daten wurden über einen Zeitraum von drei Monaten über das Boot gesammelt, das in und um Zhoushan in China segelte.
Die Daten enthalten Bilder von Schiffen in Häfen, vor Anker liegenden Schiffen, navigierenden Schiffen und anlegenden Schiffen. Die Bilder enthalten auch all die Umweltvielfalt, die man erwarten würde – Nebel, Blendung, geringe Helligkeit, Regen usw.
**Warum dies wichtig ist:** Der Datensatz