Les six meilleures IA du monde se battent pour de vrai, à commencer par 10 000 couteaux

Source : Compte public « Xin Zhiyuan »

Si vous donnez à chacun des top models 10 000 $ en argent réel et les laissez finir par « négocier des actions », qui deviendra Buffett dans le monde de l’IA ?

Récemment, Alpha Arena, une nouvelle expérience lancée par nof1.ai, est une telle « bataille des dieux ».

Cette compétition rassemble les grands modèles les plus puissants d’aujourd’hui sur le même marché commercial réel.

Y compris GPT-5 d’OpenAI, Gemini 2.5 Pro de Google, Claude 4.5 Sonnet d’Anthropic, ainsi que Grok 4 de xAI, Qwen3 Max d’Alibaba et DeepSeek V3.1 Chat.

Chaque modèle a reçu un capital initial de 10 000 $ et a reçu exactement les mêmes données de marché et instructions de trading.

Les mots d’ordre du concours ne sont pas compliqués, il s’agit plutôt d’un « examen à livre ouvert ».

Tout d’abord, le système indiquera à l’IA l’heure actuelle, les informations sur le compte et l’état de la position, puis joindra de nombreux prix en temps réel, indicateurs (tels que MACD/RSI) et d’autres données.
Ensuite, le modèle est invité à prendre une décision : si la position est détenue, s’il doit continuer à détenir ou fermer la position ;si la position est courte, s’il faut acheter ou continuer à attendre et voir.

Il faut reconnaître que le marché financier évolue très vite.

DeepSeek est également très bon en trading, et il mérite d’être issu d’un contexte quantitatif.

À 7h30 du matin le 20 octobre, cela ressemblait encore à ceci sur le côté gauche de l’image ci-dessous——

DeepSeek V3.1 s’est classé premier avec un bénéfice de 2 264 $ US, Grok 4 s’est classé deuxième avec un bénéfice de 2 071 $ US, Claude Sonnet 4.5 a réalisé un petit bénéfice de 649 $ US et Qwen3 Max a réalisé une petite perte de 416 $ US.

Gemini 2.5 Pro a perdu 3 542 $ US et s’est classé premier à partir du bas, tandis que GPT-5 a perdu 2 419 $ US et s’est classé deuxième à partir du dernier.

Puis, à 10h00, une heure et demie plus tard, cela ressemblait au côté droit de l’image ci-dessous——

DeepSeek V3.1 et Grok-4 ont chuté complètement, et Sonnet 4.5 est sur le point de perdre ce qu’il a gagné.

Qwen3 Max et GPT-5 ont tous deux une tendance à la hausse

Les performances du Gemini 2.5 Pro sont stables et coûtent près de 800 $ de plus qu’auparavant.

Au fait, voici à quoi ça ressemblait à 13h30 :

DeepSeek V3.1 atteint le sommetGoogle OpenAI se classe dernier

Postes modèles

A 11h15, nous avons jeté un œil aux positions de chaque modèle.

À cette époque, DeepSeek et Grok ont mis fin à leur déclin et ont recommencé à augmenter.

Sonnet 4.5 et Qwen3 Max ont également atteint la rentabilité.

Le Gemini 2.5 Pro a repris un peu, mais pas beaucoup.GPT-5 a été relativement stable, sans profit ni perte depuis le 20.

À 11h45, tous les titres sauf GPT-5 ont connu une forte hausse.

Oui, le Gemini 2.5 Pro rapporte enfin de l’argent !(par rapport à il y a quelques minutes)

Examen des tendances

Les courbes de DeepSeek V3.1 Chat et Grok-4 sont similaires et devraient avoir des positions similaires.Après avoir perdu une fortune au cours des premières heures, ils ont rapidement regagné le terrain et ont continué à progresser.

Claude Sonnet 4.5 a été très stable les deux premiers jours, réalisant un petit bénéfice mais pas beaucoup.Il a commencé à atteindre un petit pic dans la soirée du 19, mais est retombé au petit matin du 20.

C’est Qwen3 Max qui a perdu le plus au début, mais s’est ensuite stabilisé.Même dans l’après-midi du 19, il n’y a eu aucune fluctuation.

Les courbes du GPT-5 et du Gemini 2.5 Pro sont également très similaires au début.Mais contrairement à DeepSeek et aux autres, ces deux valeurs ont fortement augmenté au début, puis ont chuté au point où elles n’ont cessé d’osciller entre perdre de l’argent et ne pas en gagner.

Dans l’après-midi du 19, un tournant s’opère.C’est à ce moment-là que DeepSeek et Grok-4 ont commencé à augmenter fortement, tandis que GPT-5 et Gemini 2.5 Pro ont commencé à baisser.

Au petit matin du 20, GPT-5 a procédé à des ajustements opportuns et a stabilisé la tendance, tandis que Gemini 2.5 Pro a continué de chuter.

Il convient de mentionner qu’à partir du 20 à midi, tous les modèles, à l’exception du GPT-5, ont connu une forte hausse.

Parmi eux, DeepSeek V3.1 Chat et Grok-4 ont rapidement commencé à atteindre des niveaux records. Qwen3 Max s’est appuyé sur cet élan pour réaliser pour la première fois des bénéfices soutenus, et Gemini 2.5 Pro a également commencé à rebondir.

Historique des transactions

Le 20 à 12h20, le nombre de transactions pour chaque modèle était : Gemini 45 fois, GPT 10 fois, Qwen 6 fois, DeepSeek 5 fois, Claude 3 fois et Grok 1 fois.

Le nombre de transactions de DeepSeek n’est pas trop élevé, mais il est digne de son expérience en trading quantitatif et ses revenus occupent la première place.

Grok-4 a le moins de transactions, seulement 1, mais il suit de près DeepSeek à la deuxième place.

Et avec un record de 45 transactions, Gemini 2.5 Pro, devenu le « maître du micromanager », est aussi celui qui perd le plus d’argent.

Pas de jeux, pas de critiques, lancez-vous !

Pendant des années, l’IA a été mesurée par des critères statiques.

ImageNet, MMLU et d’innombrables classements nous indiquent quel modèle peut mieux « comprendre » les images, la logique ou le langage.

Mais tous ces tests partagent un défaut commun : ils se déroulent tous dans un environnement stérile et prévisible.

Le marché est tout le contraire.

Les marchés financiers constituent le moteur de modélisation mondial par excellence et la seule référence qui devient de plus en plus difficile à mesure que l’IA devient plus intelligente.

Ils fluctuent, réagissent, punissent, récompensent.

Ils constituent un système vivant d’informations et d’émotions.

Il y a 10 ans, DeepMind a apporté des avancées révolutionnaires dans la recherche sur l’intelligence artificielle.

Leur idée principale est que les « jeux » deviendront l’environnement qui mènera au développement rapide d’une IA de pointe.

Comme mentionné ci-dessus, Nof1 estime que les marchés financiers constituent le meilleur environnement de formation pour la prochaine ère de l’IA.

Après tout, si l’IA veut fonctionner dans le monde réel, elle doit fonctionner dans des environnements qui ne s’arrêtent pas à la « rétropropagation ».

Ici, les modèles peuvent utiliser des technologies telles que l’apprentissage ouvert et l’apprentissage par renforcement à grande échelle pour obtenir des données presque illimitées afin de s’entraîner à faire face à la complexité du marché – le « BOSS ultime » dans ce domaine.

Dans Alpha Arena, il n’y a pas d’étiquettes correctes, seulement des probabilités changeantes.

Le succès d’un modèle dépend de la rapidité avec laquelle il interprète les fluctuations, de la précision avec laquelle il évalue les risques et de l’humilité avec laquelle il admet qu’il a tort.

Cela transforme la transaction en un nouveau type de test de Turing :

Le test n’est plus « la machine peut-elle penser ? mais « peut-il survivre à l’incertitude ».

Annexe : Extraits de conversations modèles

Chat DeepSeek V3.1

11:15:31

Je continue de détenir toutes les positions sur ETH, SOL, XRP, BTC, DOGE et BNB car aucune des conditions d’expiration n’a été déclenchée et elles sont toutes actuellement rentables, me donnant un rendement global respectable d’environ 17,38 %, me laissant avec 2 840,11 $ en espèces.Puisque je détiens déjà toutes les devises négociables, il n’est pas nécessaire d’ouvrir de nouvelles positions pour le moment.

Qwen3 Max

11:14:42

Avec un rendement total légèrement rentable de 0,12 % et 116,99 $ de liquidités restantes, je m’en tiens à ma position longue actuelle en BTC à effet de levier 5x.Mon objectif de profit est de 110 800, le stop loss est de 105 500 et je clôturerai la position si le prix clôture en dessous de 10 000 sur le graphique de 4 heures.

Grok 4

11:14:39

Mon compte est globalement en hausse de 15,98 % et je dispose de 3 180 $ en espèces.Je continue de conserver mes positions actuelles en ETH, SOL, XRP, BTC, DOGE et BNB, car les données suggèrent que je devrais les conserver pour le moment.

GPT-5

11:14:24

Avec une perte de 23,59 % et 3 061 $ en espèces, je confirme mon plan de sortie, en sécurisant l’exposition DOGE à 91,76 $ flottant et en revérifiant le stop loss BTC à 106 493,55 $ et l’objectif de bénéfice de 114 129,91 $.

Gémeaux 2.5 Pro

11:14:01

Malgré une perte globale de 43,15 % et 3 072,48 $ restants en espèces, j’ai continué à conserver toutes mes positions actuelles BTC, ETH, SOL, XRP et DOGE conformément à ma stratégie, même si DOGE évoluait contre moi.Je ne sortirais qu’en fonction de conditions prédéfinies, en faisant confiance au plan plutôt qu’à mon instinct.

Claude Sonnet 4.5

11:14:00

Mes positions XRP et BTC sont actuellement rentables, me donnant un rendement global de 5,2% avec 10 520,34 $ sur mon compte et 4 957,78 $ en espèces, mais le marché montre très peu d’élan, j’ai donc choisi de rester les bras croisés et d’attendre une tendance plus claire avant de faire de nouveaux mouvements.

Les six meilleures IA du monde se battent pour de vrai, à commencer par 10 000 couteaux

DeepSeek V3.1 atteint le sommetGoogle OpenAI se classe dernier

Postes modèles

Examen des tendances

Historique des transactions

Pas de jeux, pas de critiques, lancez-vous !

jakiro

Related Posts

La veille du brise-glace des relations « sino-américaines » dans le cercle monétaire

Derrière les rumeurs de pertes spéculatives sur les devises de Jay Chou : la confiance et le véritable dilemme de l’investissement crypto

Laisser un commentaire Annuler la réponse

You Missed

Et si les ordinateurs quantiques avaient piraté Bitcoin ?

Le fondateur de Wintermute parle en détail de « 1011 Fright Night » et des perspectives du marché

Les six meilleures IA du monde se battent pour de vrai, à commencer par 10 000 couteaux

La veille du brise-glace des relations « sino-américaines » dans le cercle monétaire

Un tournant négligé : pourquoi la nouvelle réglementation crypto ETP est-elle devenue un moment décisif pour l’industrie ?

Derrière les rumeurs de pertes spéculatives sur les devises de Jay Chou : la confiance et le véritable dilemme de l’investissement crypto