La compétition commerciale d’IA se termine, le modèle national remporte le championnat GPT-5 perd 60%

Auteur : Sleepy.txt

Tôt le matin du 4 novembre, le très attendu concours de trading d’IA Alpha Arena a pris fin.

Les résultats ont surpris tout le monde, le Qwen 3 Max d’Alibaba prenant la première place avec un rendement de 22,32 %, et une autre société chinoise, DeepSeek, en deuxième position avec un rendement de 4,89 %.

Les quatre joueurs vedettes de la Silicon Valley ont été battus sur tous les fronts. Le GPT-5 d’OpenAI a perdu 62,66 %, le Gemini 2.5 Pro de Google a perdu 56,71 %, le Grok 4 de Musk a perdu 45,3 % et le Claude 4.5 Sonnet d’Anthropic a également perdu 30,81 %.

Courbes de trading de tous les modèles|Source : nof1

Ce jeu est en fait une expérience spéciale.Le 17 octobre, la société de recherche américaine Nof1.ai a introduit six des meilleurs grands modèles de langage au monde sur le marché réel des cryptomonnaies. Chaque modèle a reçu un capital initial de 10 000 $ US pour effectuer des transactions contractuelles perpétuelles de 17 jours sur la plateforme de trading décentralisée Hyperliquid. Les contrats perpétuels sont des dérivés sans date d’expiration qui permettent aux traders d’amplifier les rendements grâce à l’effet de levier, mais en même temps, ils augmentent également les risques.

Ces IA partent du même point de départ, disposent des mêmes données de marché, mais aboutissent à des résultats complètement différents.

Il ne s’agit pas d’un test de référence dans un environnement virtuel, mais d’un jeu de survie avec de l’argent réel.Lorsque l’IA quittera l’environnement « stérile » du laboratoire et sera confrontée pour la première fois à un marché réel dynamique, conflictuel et incertain, ses choix ne seront plus déterminés par les paramètres du modèle, mais par sa compréhension du risque, de l’avidité et de la peur.

Cette expérience a permis aux gens de voir pour la première fois que lorsque la soi-disant « intelligence » est confrontée à la complexité du monde réel, les performances élégantes du modèle sont souvent insoutenables, révélant des défauts au-delà de la formation.

Du questionneur au trader

Pendant longtemps, les gens ont utilisé divers critères statiques pour mesurer les capacités de l’IA.

De MMLU à HumanEval, l’IA obtient des scores de plus en plus élevés sur ces tests standardisés, dépassant même les humains.Mais l’essence de ces tests revient à poser des questions dans une pièce calme, et les questions et réponses sont fixes. L’IA n’a qu’à trouver la solution optimale dans des données massives. Il peut mémoriser les réponses aux problèmes mathématiques les plus complexes.

Le monde réel, notamment les marchés financiers, est complètement différent.

Il ne s’agit pas d’une banque de questions statique, mais d’une arène en constante évolution pleine de bruit et de tromperie.Il s’agit d’un jeu à somme nulle, et le gain d’une personne doit nécessairement entraîner une perte pour l’autre. Les fluctuations des prix ne sont pas seulement le résultat de calculs rationnels, mais sont également influencées par les émotions humaines.L’avidité, la peur, la chance et l’hésitation sont clairement visibles dans chaque hausse de prix.

Pour rendre les choses encore plus compliquées, le marché lui-même réagit au comportement humain. Lorsque tout le monde croit que les prix vont augmenter, les prix ont souvent atteint leur maximum.

Ce mécanisme de rétroaction corrige, se retourne contre vous et punit constamment la certitude, rendant tout test statique pâle en comparaison.

L’Alpha Arena lancée par Nof1.ai veut plonger l’IA dans un véritable creuset social. Chaque modèle reçoit de l’argent réel, les pertes sont des pertes réelles et les bénéfices sont des bénéfices réels.

Le modèle doit effectuer de manière indépendante l’analyse, la prise de décision, la passation de commandes et le contrôle des risques.Cela équivaut à donner à chaque IA une salle des marchés indépendante, la transformant du statut de « poseur de questions » à celui de « trader ».Il doit décider non seulement de la direction dans laquelle ouvrir une position, mais également de la taille de la position, du moment où l’on prendra l’action et s’il faut arrêter les pertes ou prendre des bénéfices.

Registres d’opération de différents modèles|Source : nof1

Plus important encore, chaque décision qu’ils prendront modifiera l’environnement expérimental. L’achat fera monter le prix, la vente fera baisser le prix.Le stop loss peut vous sauver la vie ou vous risquez de rater le rebond.Le marché est fluide et chaque étape façonne l’étape suivante.

Cette expérience cherche à répondre à une question plus fondamentale : celle de savoir si l’IA comprend réellement le risque.

Dans les tests statiques, il peut s’appuyer sur la mémoire et la correspondance de modèles pour se rapprocher infiniment de la « bonne réponse » ;mais dans un marché réel où il n’y a pas de réponse standard et où il est plein de bruit et de feedback, combien de temps son « intelligence » peut-elle durer lorsqu’elle doit agir dans l’incertitude ?

Le marché donne une leçon à l’IA

La progression du jeu a été plus spectaculaire qu’on ne l’imaginait.

À la mi-octobre, le marché des cryptomonnaies était extrêmement volatil, le prix du Bitcoin augmentant et baissant presque quotidiennement.C’est dans cet environnement que six modèles d’IA ont commencé leurs premières véritables transactions.

Tendance des prix du Bitcoin pendant la compétition|Source : TradingView

Le 28 octobre, à mi-parcours du tournoi, le classement à mi-parcours a été annoncé. La valeur du compte DeepSeek a grimpé à 22 500 $, avec un rendement de 125 %. En d’autres termes, elle a plus que doublé son argent en seulement 11 jours.

Qwen d’Alibaba a emboîté le pas, avec des rendements supérieurs à 100 %.Même Claude et Grok, qui furent ensuite vaincus, conservaient à l’époque des bénéfices de 24% et 13%.

Les réseaux sociaux sont rapidement devenus viraux.Certaines personnes ont commencé à se demander s’ils devaient confier leurs portefeuilles d’investissement à la direction d’IA, et d’autres ont dit en plaisantant à moitié que peut-être qu’IA avait vraiment trouvé un code commercial qui est sûr de gagner de l’argent sans en perdre.

Cependant, la cruauté du marché est vite devenue apparente.

Début novembre, Bitcoin oscillait autour de 110 000 $, avec une volatilité qui s’amplifiait fortement.Les modèles qui ont augmenté leurs mises tout au long de la tendance haussière ont subi de lourdes pertes lorsque le marché s’est retourné.

Au final, seuls deux modèles chinois ont réussi à maintenir leurs bénéfices, et la performance du camp américain a été une déroute.Ce jeu de montagnes russes nous a permis de voir clairement pour la première fois que les IA que nous pensions très en avance n’étaient pas aussi intelligentes qu’on l’imaginait sur le marché réel.

Division des stratégies de trading

À partir des données de transaction, la « personnalité » de chaque IA peut être vue.

Qwen n’a échangé que 43 fois en 17 jours, soit une moyenne de moins de trois fois par jour, et était le joueur le plus retenu de tous.Son taux de gain n’est pas exceptionnel, mais son ratio profits/pertes par coup est extrêmement élevé, le profit maximum en une seule transaction atteignant 8 176 $.

En d’autres termes, Qwen n’est pas « le plus précis en matière de pronostics », mais « le plus discipliné en matière de paris ». Il n’agit que lorsqu’il est certain et choisit de rester immobile lorsqu’il est incertain.Cette stratégie de haute qualité de signal lui a permis d’avoir des retracements limités lors des corrections de marché et a finalement préservé les fruits de la victoire.

DeepSeek a enregistré un nombre similaire de mouvements que Qwen, avec seulement 41 en 17 jours, mais il s’est comporté davantage comme un gestionnaire de fonds prudent.Il présente le ratio de Sharpe le plus élevé parmi tous les acteurs, atteignant 0,359, un chiffre déjà assez rare sur le marché très volatil des cryptomonnaies.

Sur les marchés financiers traditionnels, le ratio de Sharpe est généralement utilisé pour mesurer les rendements ajustés au risque. Plus la valeur est élevée, plus la stratégie est robuste.Mais dans un cycle aussi court et un marché aussi violent, tout modèle capable de maintenir une valeur positive n’est pas simple.Les résultats de DeepSeek montrent qu’il ne cherche pas à maximiser les rendements, mais s’efforce de maintenir l’équilibre dans un environnement très bruyant.

Pendant tout le match, il a toujours maintenu le rythme et n’a pas poursuivi l’augmentation ni bougé aveuglément.Plutôt un trader doté d’un système strict, il préfère renoncer aux opportunités plutôt que de laisser les émotions dominer la prise de décision.

En revanche, les performances du camp américain de l’IA révèlent des problèmes évidents de contrôle des risques.

Gemini de Google a passé un total de 238 commandes en 17 jours, soit une moyenne de plus de 13 fois par jour, la plus fréquente parmi tous les acteurs.De telles transactions à haute fréquence entraînent également des coûts énormes, les frais de traitement coûtant à eux seuls 1 331 dollars, soit 13 % du principal initial.Dans un tournoi avec un bankroll de départ de seulement 10 000 $, cela représente une énorme perte pour vous-même.

Le pire, c’est que ces échanges fréquents n’apportent pas de revenus supplémentaires.Les Gémeaux continuent d’essayer et de faire des erreurs, d’arrêter les pertes et d’essayer encore et encore, comme un investisseur de détail obsédé par l’observation du marché, guidé par le bruit du marché.Chaque légère fluctuation des prix déclenchera son ordre de négociation.Elle réagit trop vite aux fluctuations et perçoit le risque trop lentement.

En finance comportementale, ce déséquilibre porte un nom : l’excès de confiance.Les traders surestiment leurs capacités de prévision mais ignorent l’accumulation d’incertitudes et de coûts.L’échec des Gémeaux est une conséquence typique de cette confiance aveugle.

Les performances de GPT-5 sont des plus décevantes.Il n’a pas fallu beaucoup de tirs, 116 en 17 jours, mais il y avait peu de contrôle des risques.La perte la plus importante a atteint 622 dollars américains, tandis que le bénéfice le plus important n’a été que de 271 dollars américains.Le rapport profits-pertes était sérieusement déséquilibré. C’est comme un joueur motivé par la confiance.Il peut occasionnellement gagner lorsque le marché se porte bien, mais une fois le marché inversé, les pertes seront multipliées.

Il a un ratio de Sharpe de -0,525, ce qui signifie qu’il n’a pris aucun risque en échange d’une récompense.Dans le domaine de l’investissement, ce résultat équivaut presque à « il vaut mieux ne pas opérer ».

Cette expérience prouve une fois de plus que ce qui détermine réellement la victoire ou la défaite n’est pas l’exactitude des prédictions du modèle, mais la manière dont il gère l’incertitude.La victoire de Qwen et DeepSeek est essentiellement une victoire du contrôle des risques.Ils semblent mieux comprendre que sur le marché, ce n’est qu’en survivant d’abord qu’on peut être considéré comme intelligent.

Le vrai marché est le miroir de l’IA

Les résultats d’Alpha Arena sont une grave moquerie du système actuel d’évaluation de l’IA. Les « modèles intelligents » qui se classent parmi les meilleurs dans les tests de référence tels que MMLU perdent du terrain lorsqu’ils arrivent sur le marché réel.

Ces modèles sont des maîtres linguistiques issus d’innombrables textes.Ils peuvent générer des réponses avec une logique stricte et une grammaire parfaite, mais ils peuvent ne pas comprendre la réalité à laquelle ces textes font réellement référence.

Une IA peut rédiger un article sur la gestion des risques en quelques secondes, avec des citations décentes et un raisonnement complet ; il peut également expliquer avec précision ce que sont le ratio de Sharpe, le prélèvement maximum et la valeur à risque.Mais lorsqu’elle détient réellement l’argent, elle peut prendre les décisions les plus risquées. Parce qu’il ne fait que « savoir » et ne « comprend pas ».

Savoir et comprendre sont deux choses différentes.

Il y a une énorme différence entre pouvoir le dire et pouvoir le faire.

Cet écart est appelé problème épistémologique en philosophie.Platon faisait autrefois la distinction entre la connaissance et la véritable croyance. La connaissance n’est pas seulement une information correcte, mais aussi une compréhension de pourquoi elle est correcte.

Les grands modèles de langage actuels contiennent peut-être des tonnes d’« informations correctes », mais ils n’ont pas ce genre de compréhension.Il peut vous expliquer l’importance de la gestion des risques, mais il ne sait pas comment les humains apprennent cette importance à partir de la peur et de la perte.

Le marché réel est l’endroit ultime pour tester votre compréhension. Ce ne sera pas indulgent simplement parce que vous êtes GPT-5.Toute mauvaise décision sera immédiatement répercutée sur le compte sous la forme d’une perte de fonds.

En laboratoire, l’IA peut être répétée un nombre incalculable de fois, en ajustant constamment les paramètres et en effectuant des backtests jusqu’à ce qu’elle trouve la « bonne réponse ».Mais sur le marché, chaque erreur entraîne une perte d’argent réel, et il n’y a pas de retour en arrière pour cette perte.

La logique du marché est également bien plus complexe que ne l’imagine le modèle. Lorsque le capital est perdu de 50 %, un rendement de 100 % est requis pour revenir au point de départ ;lorsque la perte atteint 62,66 %, le rendement requis pour restituer le principal grimpera à 168 %.Ce risque non linéaire multiplie le coût des erreurs. L’IA peut minimiser les pertes grâce à des algorithmes pendant la formation, mais elle ne peut pas vraiment comprendre le mécanisme de punition du marché façonné par la peur, l’hésitation et la cupidité.

De ce fait, le marché est devenu un miroir permettant de tester l’authenticité des renseignements.Cela permet aux gens et aux machines de voir clairement ce qu’ils savent vraiment et ce dont ils ont vraiment peur.

Ce jeu amène également les gens à repenser les différences dans les idées de R&D en IA entre la Chine et les États-Unis.

Plusieurs grandes entreprises aux États-Unis adhèrent toujours à la voie du modèle commun, dans l’espoir de construire des systèmes capables de démontrer des capacités stables dans un large éventail de tâches.Les modèles d’OpenAI, de Google et d’Anthropic appartiennent tous à ce type. Leur objectif est de rechercher l’étendue et la cohérence, afin que le modèle ait des capacités de compréhension et de raisonnement inter-domaines.

L’équipe chinoise préfère considérer la mise en œuvre et le mécanisme de retour d’information de scénarios spécifiques dès les premières étapes du développement du modèle.Bien que Qwen d’Alibaba soit également un grand modèle à usage général, son environnement de formation et de test a déjà été connecté au système commercial réel.Cette redistribution des données à partir de scénarios réels peut rendre invisiblement le modèle plus sensible aux risques et aux contraintes. Les performances de DeepSeek présentent des caractéristiques similaires, car il semble être capable de corriger les décisions plus rapidement dans des environnements dynamiques.

Il ne s’agit pas de savoir « qui gagne et qui perd ». Cette expérience ouvre une fenêtre sur la façon dont les différentes philosophies de formation fonctionnent dans le monde réel.Les modèles à usage général mettent l’accent sur l’universalité, mais sont sujets à ne pas répondre dans des environnements extrêmes ;tandis que les modèles qui sont exposés plus tôt à un retour réel peuvent apparaître plus flexibles et plus stables dans des systèmes complexes.

Bien entendu, les résultats d’un jeu peuvent ne pas représenter la force globale de l’IA chinoise et américaine.Le cycle commercial de dix-sept jours est trop court et l’influence de la chance est difficile à exclure ; si le délai est prolongé, la tendance pourrait être complètement différente.De plus, ce test ne concerne que le trading de contrats perpétuels de cryptomonnaies, ce qui ne peut ni être extrapolé à tous les marchés financiers, ni suffire à généraliser les performances de l’IA dans d’autres domaines.

Mais c’est suffisant pour nous faire repenser ce qui constitue la véritable capacité.Lorsque l’IA est placée dans un environnement réel et doit prendre des décisions dans un contexte de risques et d’incertitudes, ce que nous voyons n’est pas seulement le succès ou l’échec de l’algorithme, mais aussi la différence des chemins.Sur la voie de la transformation de la technologie de l’IA en productivité réelle, le modèle chinois a déjà pris les devants dans certains domaines spécifiques.

Au moment où le jeu s’est terminé, la dernière position Bitcoin de Qwen était fermée, laissant le solde de son compte à 12 232 $.Il a gagné, mais il ne savait pas qu’il avait gagné.Ce gain de 22,32 % ne signifie rien, c’est juste un autre ordre d’exécution.

Dans la Silicon Valley, les ingénieurs célèbrent peut-être encore une amélioration de 0,1 % du score MMLU de GPT-5.A l’autre bout du monde, l’IA venue de Chine vient de prouver de la manière la plus simple dans un casino en argent réel que seule une bonne IA peut rapporter de l’argent.

Nof1.ai a annoncé que la prochaine saison de compétition est sur le point de commencer. Le cycle sera plus long, il y aura plus de participants et l’environnement du marché sera plus complexe.Les modèles qui ont échoué lors de la première saison apprendront-ils quelque chose de leurs défaites ?Ou le même sort va-t-il se répéter avec de plus grandes fluctuations ?

Personne ne connaît la réponse.Mais ce qui est sûr, c’est que lorsque l’IA commencera à sortir de sa tour d’ivoire et à faire ses preuves avec de l’argent réel, tout sera différent.

  • Related Posts

    Piste x402 : Crypto réécrit l’histoire de Pay

    Auteur : Haotian ; Source : X, @tmel0211 J’ai lu les discussions sur la piste x402 ces jours-ci.J’ai découvert que la plupart des gens utilisent la logique du paiement traditionnel…

    L’ETF Solana a récolté 200 millions de dollars en une semaine après son lancement, menant à une bataille sanglante à Wall Street

    Auteur : Cathy Il ne s’agit pas simplement d’une « autre nouvelle ennuyeuse approuvée par l’ETF ».Son processus d’approbation a été plein de drames, la conception de ses produits cachait…

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

    You Missed

    Partenaire Pantera : Le crypto-as-a-service est le moment SaaS de la blockchain

    • By jakiro
    • novembre 4, 2025
    • 0 views
    Partenaire Pantera : Le crypto-as-a-service est le moment SaaS de la blockchain

    Même après 11 audits, il était toujours volé. Pourquoi Balancer, qui a une sombre histoire, a-t-il encore des fans ?

    • By jakiro
    • novembre 4, 2025
    • 5 views
    Même après 11 audits, il était toujours volé. Pourquoi Balancer, qui a une sombre histoire, a-t-il encore des fans ?

    Le plus gros acheteur de BTC a cessé d’augmenter ses avoirs et les entrées d’ETF ont été faibles. Est-ce la raison de la forte baisse du BTC ?

    • By jakiro
    • novembre 4, 2025
    • 3 views
    Le plus gros acheteur de BTC a cessé d’augmenter ses avoirs et les entrées d’ETF ont été faibles. Est-ce la raison de la forte baisse du BTC ?

    Derrière la hausse de 700 % de Zcash : comment le discours sur la confidentialité relance le marché de la cryptographie

    • By jakiro
    • novembre 4, 2025
    • 5 views
    Derrière la hausse de 700 % de Zcash : comment le discours sur la confidentialité relance le marché de la cryptographie

    Piste x402 : Crypto réécrit l’histoire de Pay

    • By jakiro
    • novembre 4, 2025
    • 7 views
    Piste x402 : Crypto réécrit l’histoire de Pay

    L’ETF Solana a récolté 200 millions de dollars en une semaine après son lancement, menant à une bataille sanglante à Wall Street

    • By jakiro
    • novembre 4, 2025
    • 3 views
    L’ETF Solana a récolté 200 millions de dollars en une semaine après son lancement, menant à une bataille sanglante à Wall Street
    Home
    News
    School
    Search