
Quelle: Öffentliches Konto „Xin Zhiyuan“
Wenn Sie jedem der Topmodels 10.000 US-Dollar echtes Geld geben und sie am Ende „Aktienhandel“ betreiben, wer wird dann Buffett in der KI-Welt?
Alpha Arena, ein neues Experiment, das von nof1.ai gestartet wurde, ist kürzlich ein solcher „Kampf der Götter“.
Dieser Wettbewerb bringt die derzeit leistungsstärksten Großmodelle auf den gleichen realen Handelsmarkt.
Darunter OpenAIs GPT-5, Googles Gemini 2.5 Pro, Anthropics Claude 4.5 Sonnet sowie xAIs Grok 4, Alibabas Qwen3 Max und DeepSeek V3.1 Chat.
Jedes Modell erhielt ein Anfangskapital von 10.000 US-Dollar und erhielt genau die gleichen Marktdaten und Handelsanweisungen.
Die Eingabeaufforderungen für den Wettbewerb sind nicht kompliziert, es gleicht eher einer „Open-Book-Prüfung“.
-
Zuerst teilt das System der KI die aktuelle Uhrzeit, Kontoinformationen und den Positionsstatus mit und fügt dann viele Echtzeitpreise, Indikatoren (wie MACD/RSI) und andere Daten hinzu.
-
Dann wird das Modell gebeten, eine Entscheidung zu treffen: Wenn die Position gehalten wird, ob die Position weiterhin gehalten oder geschlossen werden soll;Wenn die Position kurz ist, ob man kauft oder weiter abwartet.
Man muss sagen, dass sich der Finanzmarkt sehr schnell verändert.
DeepSeek ist auch wirklich gut im Trading und verdient einen quantitativen Hintergrund.
Am 20. Oktober um 7:30 Uhr morgens sah es auf der linken Seite des Bildes unten immer noch so aus –
DeepSeek V3.1 belegte mit einem Gewinn von 2.264 US-Dollar den ersten Platz, Grok 4 mit einem Gewinn von 2.071 US-Dollar den zweiten Platz, Claude Sonnet 4.5 erzielte einen kleinen Gewinn von 649 US-Dollar und Qwen3 Max machte einen kleinen Verlust von 416 US-Dollar.
Gemini 2.5 Pro verlor 3.542 US-Dollar und belegte den ersten Platz von unten, während GPT-5 2.419 US-Dollar verlor und den zweiten Platz belegte.
Dann, anderthalb Stunden später um 10:00 Uhr, sah es aus wie auf der rechten Seite des Bildes unten –
DeepSeek V3.1 und Grok-4 sind völlig eingebrochen, und Sonnet 4.5 ist dabei, das zu verlieren, was es verdient hat.
Qwen3 Max und GPT-5 weisen beide einen Aufwärtstrend auf
Die Leistung von Gemini 2.5 Pro ist stabil und es kostet fast 800 US-Dollar mehr als zuvor.
So sah es übrigens um 13:30 Uhr aus:
DeepSeek V3.1 erreicht die SpitzeGoogle OpenAI belegt den letzten Platz
Modellpositionen
Um 11:15 Uhr schauten wir uns die Positionen der einzelnen Modelle an.
Zu diesem Zeitpunkt haben DeepSeek und Grok ihren Rückgang beendet und beginnen wieder zu steigen.
Sowohl Sonnet 4.5 als auch Qwen3 Max erzielten ebenfalls Gewinne.
Das Gemini 2.5 Pro hat etwas zugelegt, aber nicht viel.GPT-5 ist seit dem 20. relativ stabil, ohne Gewinn oder Verlust.
Um 11:45 Uhr erlebten alle Aktien außer GPT-5 einen Anstieg.
Ja, mit dem Gemini 2.5 Pro verdient man endlich Geld!(im Vergleich zu vor ein paar Minuten)
Trendrückblick
Die Kurven von DeepSeek V3.1 Chat und Grok-4 sind ähnlich und sollten ähnliche Positionen haben.Nachdem sie in den ersten Stunden ein Vermögen verloren hatten, erholten sie sich schnell wieder und stiegen weiter an.
Claude Sonnet 4.5 war in den ersten beiden Tagen sehr stabil und erzielte einen kleinen Gewinn, aber nicht viel.Am Abend des 19. erreichte es einen kleinen Höhepunkt, fiel jedoch am frühen Morgen des 20. wieder ab.
Qwen3 Max verlor zunächst am meisten, stabilisierte sich dann aber. Selbst am Nachmittag des 19. gab es keine Schwankungen.
Auch die Kurven von GPT-5 und Gemini 2.5 Pro sind in der Anfangsphase sehr ähnlich.Aber im Gegensatz zu DeepSeek und den anderen stiegen diese beiden Aktien zu Beginn stark an und fielen dann bis zu dem Punkt, an dem sie ständig zwischen Verlust und Geldverdienen schwankten.
Am Nachmittag des 19. kam es zu einem Wendepunkt.Zu diesem Zeitpunkt begannen DeepSeek und Grok-4 stark zu steigen, während GPT-5 und Gemini 2.5 Pro zu fallen begannen.
Am frühen Morgen des 20. nahm GPT-5 rechtzeitig Anpassungen vor und stabilisierte den Trend, während Gemini 2.5 Pro weiter abstürzte.
Es ist erwähnenswert, dass ab Mittag des 20. alle Modelle außer GPT-5 einen Anstieg erlebten.
Unter ihnen erreichten DeepSeek V3.1 Chat und Grok-4 bald Rekordhöhen. Qwen3 Max nutzte diese Dynamik, um erstmals nachhaltige Gewinne zu erzielen, und auch Gemini 2.5 Pro begann sich zu erholen.
Transaktionsverlauf
Am 20., 12:20 Uhr betrug die Anzahl der Transaktionen für jedes Modell: Gemini 45 Mal, GPT 10 Mal, Qwen 6 Mal, DeepSeek 5 Mal, Claude 3 Mal und Grok 1 Mal.
Die Anzahl der Transaktionen von DeepSeek ist nicht allzu groß, aber es ist seinem Hintergrund im quantitativen Handel würdig und sein Einkommen steht an erster Stelle.
Grok-4 hat mit nur 1 die geringste Anzahl an Transaktionen, liegt aber dicht hinter DeepSeek auf dem zweiten Platz.
Und mit einem Rekord von 45 Transaktionen ist Gemini 2.5 Pro, der zum „Mikromanager-Meister“ geworden ist, auch derjenige, der am meisten Geld verliert.
Keine Spiele, keine Rezensionen, einfach starten!
KI wird seit Jahren anhand statischer Benchmarks gemessen.
ImageNet, MMLU und unzählige Rankings verraten uns, welches Modell Bilder, Logik oder Sprache besser „verstehen“ kann.
Doch alle diese Tests haben einen gemeinsamen Fehler: Sie finden alle in einer sterilen, vorhersehbaren Umgebung statt.
Der Markt ist genau das Gegenteil.
Finanzmärkte sind die ultimative Weltmodellierungsmaschine und der einzige Maßstab, der mit zunehmender Intelligenz der KI immer schwieriger wird.
Sie schwanken, reagieren, bestrafen, belohnen.
Sie sind ein lebendiges System aus Informationen und Emotionen.
Vor 10 Jahren brachte DeepMind revolutionäre Durchbrüche in der Forschung im Bereich der künstlichen Intelligenz.
Ihre Kerneinsicht ist, dass „Spiele“ zur Umgebung werden, die die schnelle Entwicklung modernster KI vorantreibt.
Wie oben erwähnt ist Nof1 davon überzeugt, dass die Finanzmärkte die beste Trainingsumgebung für die nächste KI-Ära sind.
Denn wenn KI in der realen Welt funktionieren soll, muss sie in Umgebungen funktionieren, die keine Pause für „Backpropagation“ einlegen.
Hier können Modelle Technologien wie Open Learning und groß angelegtes Reinforcement Learning nutzen, um nahezu unbegrenzte Daten zu erhalten, um sich selbst auf die Komplexität des Marktes vorzubereiten – der „ultimative BOSS“ in diesem Bereich.
In Alpha Arena gibt es keine korrekten Bezeichnungen, sondern nur wechselnde Wahrscheinlichkeiten.
Der Erfolg eines Modells hängt davon ab, wie schnell es Schwankungen interpretiert, wie genau es Risiken abwägt und wie demütig es zugibt, dass es falsch liegt.
Dadurch wird die Transaktion zu einer neuen Art von Turing-Test:
Der Test lautet nicht mehr: „Kann die Maschine denken?“ aber „kann es die Ungewissheit überleben?“
Anhang: Auszüge aus Modellgesprächen
DeepSeek Chat V3.1
11:15:31
Ich halte weiterhin alle Positionen in ETH, SOL, Da ich bereits alle handelbaren Währungen besitze, besteht derzeit keine Notwendigkeit, neue Positionen zu eröffnen.
Qwen3 Max
11:14:42
Mit einer leicht profitablen Gesamtrendite von 0,12 % und einem verbleibenden Bargeldbestand von 116,99 $ bleibe ich bei meiner aktuellen 5-fach gehebelten BTC-Long-Position.Mein Gewinnziel liegt bei 110.800, der Stop-Loss bei 105.500 und ich werde die Position schließen, wenn der Preis auf dem 4-Stunden-Chart unter 10.000 schließt.
Grok 4
11:14:39
Mein Konto ist insgesamt um 15,98 % gestiegen und ich habe 3.180 $ in bar.Ich halte weiterhin meine aktuellen ETH-, SOL-, XRP-, BTC-, DOGE- und BNB-Positionen, da die Daten darauf hindeuten, dass ich sie vorerst behalten sollte.
GPT-5
11:14:24
Mit einem Verlust von 23,59 % und 3061 $ in bar bestätige ich meinen Ausstiegsplan, sichere mir das DOGE-Engagement bei 91,76 $ Float und überprüfe den BTC-Stop-Loss bei 106.493,55 $ und das Gewinnziel von 114.129,91 $.
Gemini 2.5 Pro
11:14:01
Trotz eines Gesamtverlusts von 43,15 % und eines verbliebenen Bargeldbestands von 3072,48 $ hielt ich gemäß meiner Strategie weiterhin alle meine aktuellen BTC-, ETH-, SOL-, XRP- und DOGE-Positionen, auch wenn sich DOGE gegen mich bewegte.Ich würde nur auf der Grundlage vordefinierter Bedingungen aussteigen und dem Plan und nicht meinem Bauchgefühl vertrauen.
Claude Sonett 4.5
11:14:00
Sowohl meine XRP- als auch meine BTC-Positionen sind derzeit profitabel, was mir eine Gesamtrendite von 5,2 % mit 10.520,34 $ auf meinem Konto und 4.957,78 $ in bar beschert, aber der Markt zeigt nur sehr wenig Dynamik, also entscheide ich mich dazu, untätig zu bleiben und auf einen klareren Trend zu warten, bevor ich neue Schritte unternehme.