AIトレード競争終了、国産モデルが優勝 GPT-5が6割負け

作者: Sleepy.txt

<スパンリーフ="">11 月 4 日の早朝、待望の Alpha Arena AI トレーディング コンテストが終了しました。

<スパンリーフ="">この結果は誰もが驚き、アリババの Qwen 3 Max が収率 22.32% でトップの座を獲得し、別の中国企業である DeepSeek が収率 4.89% で 2 位となりました。

<スパンリーフ="">シリコンバレーの4人のスター選手は軒並み敗退した。OpenAIのGPT-5は62.66%、GoogleのGemini 2.5 Proは56.71%、MuskのGrok 4は45.3%、AnthropicのClaude 4.5 Sonnetも30.81%それぞれ下落した。

全モデルの取引曲線|出典:nof1

<スパンリーフ="">このゲームは実は特別な実験です。10月17日、アメリカの調査会社Nof1.aiは、世界トップクラスの大規模言語モデルのうち6つを実際の仮想通貨市場に投入した。各モデルは、分散型取引プラットフォーム Hyperliquid 上で 17 日間の無期限契約取引を行うために 10,000 米ドルの初期資金を受け取りました。無期限契約は有効期限のないデリバティブであり、トレーダーはレバレッジを利用してリターンを拡大できますが、同時にリスクも拡大します。

<スパンリーフ="">これらの AI は同じ出発点から始まり、同じ市場データを持っていますが、最終的にはまったく異なる結果をもたらします。

<スパンリーフ="">これは仮想環境でのベンチマークテストではなく、リアルマネーを使ったサバイバルゲームです。AI が実験室の「無菌」環境を離れ、初めてダイナミックで対立的で不確実な現実の市場に直面するとき、AI の選択はもはやモデルのパラメータによってではなく、リスク、貪欲、恐怖の理解によって決定されるでしょう。

<スパンリーフ="">この実験により、人々は、いわゆる「知性」が現実世界の複雑さに直面すると、モデルのエレガントなパフォーマンスが維持できなくなることが多く、トレーニングを超えた欠陥が露呈するということを初めて知ることができました。

<スパンリーフ="">質問者からトレーダーへ

<スパンリーフ="">長い間、人々は AI の能力を測定するためにさまざまな静的ベンチマークを使用してきました。

<スパンリーフ="">MMLU から HumanEval に至るまで、AI はこれらの標準化された試験問題でますます高得点を獲得し、人間をも超えています。しかし、これらのテストの本質は、静かな部屋で質問をするようなもので、質問と回答は固定されています。AIは膨大なデータの中から最適解を見つけ出すだけで十分です。最も複雑な数学の問題でも答えを記憶できます。

<スパンリーフ="">現実の世界、特に金融市場はまったく異なります。

<スパンリーフ="">それは静的な質問バンクではなく、ノイズと欺瞞に満ちた絶えず変化するアリーナです。これはゼロサムゲームであり、ある人が得をすれば、別の人が損をする必要があります。価格の変動は決して合理的な計算の結果だけではなく、人間の感情によっても左右されます。あらゆる価格高騰には、貪欲、恐怖、運、ためらいがはっきりと表れています。

<スパンリーフ="">事態をさらに複雑にしているのは、市場自体が人間の行動に反応することです。誰もが価格が上昇すると信じているとき、価格はピークに達していることがよくあります。

<スパンリーフ="">このフィードバック メカニズムにより、確実性が常に修正され、裏目に出て、罰せられるため、静的テストは比較にならないほど見劣りします。

<スパンリーフ="">Nof1.ai が立ち上げた Alpha Arena は、AI を実際の社会のるつぼに放り込むことを目指しています。各モデルには実際のお金が与えられ、損失は実際の損失、利益は実際の利益です。

<スパンリーフ="">モデルは、分析、意思決定、発注、リスク管理を独立して完了する必要があります。これは、各 AI に独立したトレーディング ルームを与え、AI を「質問者」から「トレーダー」に変えるのと同じです。ポジションをオープンする方向だけでなく、ポジションのサイズ、アクションを起こすタイミング、損切りするか利益確定するかなども決定する必要があります。

機種別の運用記録|出典:nof1

<スパンリーフ="">さらに重要なことは、彼らが下すあらゆる決定が実験環境を変えることになるということです。買うと価格が上がり、売ると価格が下がります。ストップロスが命を救うかもしれないし、リバウンドを見逃すかもしれない。市場は流動的であり、あらゆるステップが次のステップを形成します。

<スパンリーフ="">この実験が答えたいのは、AI が本当にリスクを理解しているかどうかという、より根本的な質問です。

<スパンリーフ="">静的テストでは、記憶とパターン マッチングに依存して、限りなく「正解」に近づくことができます。しかし、標準的な答えがなく、ノイズとフィードバックに満ちた現実の市場では、不確実性の中で行動しなければならないときに、その「知性」はどれくらい持続できるでしょうか?

<スパンリーフ="">市場が AI に教訓を与える

<スパンリーフ="">試合の展開は想像以上に劇的だった。

<スパンリーフ="">10 月中旬、仮想通貨市場は非常に不安定で、ビットコインの価格はほぼ毎日上下しました。この環境で、6 つの AI モデルが最初の実際の取引を開始しました。

競争期間中のビットコイン価格推移|出典:TradingView

<スパンリーフ="">大会中盤の10月28日までに中間順位が発表された。DeepSeek のアカウント価値は 22,500 ドルまで急騰し、収益率は 125% でした。言い換えれば、わずか 11 日間で資金が 2 倍以上になったことになります。

<スパンリーフ="">アリババのクウェンもこれに続き、利回りは100%を超えた。後に敗北したクロードとグロクでさえ、当時はまだ24%と13%の利益を維持していました。

<スパンリーフ="">ソーシャルメディアはすぐに広まりました。自分の投資ポートフォリオをAI経営者に引き渡すべきかどうかを議論し始めた人もいれば、もしかしたらAIは本当に損をせずに確実に儲かるトレーディングコードを見つけたのかもしれないと冗談半分に言う人もいた。

<スパンリーフ="">しかし、市場の残酷さはすぐに明らかになりました。

<スパンリーフ="">11月初旬に入ると、ビットコインは11万ドル付近で推移し、ボラティリティが急激に増幅した。上昇トレンド中に賭け金をずっと増やしたモデルは、市場が反転したときに大きな損失を被りました。

<スパンリーフ="">結局、利益を維持できたのは中国の2車種だけで、米国陣営の成績は惨敗だった。このジェットコースターゲームにより、私たちははるかに先を行っていると思っていた AI が、現実の市場では想像されているほど賢くないことが初めて明確にわかりました。

<スパンリーフ="">取引戦略の分割

<スパンリーフ="">取引データからは、それぞれのAIの「個性」が見えてきます。

<スパンリーフ="">クウェンは 17 日間で 43 回のトレードしか行わず、平均すると 1 日 3 回未満であり、すべてのプレイヤーの中で最も抑制的でした。勝率は抜群ではありませんが、1ショットあたりの損益率が非常に高く、1回の取引での最大利益は8,176ドルに達します。

<スパンリーフ="">言い換えれば、クウェンは「予測において最も正確である」のではなく、「賭けにおいて最も規律正しい」ということです。それは確実な場合にのみ行動し、不確実な場合は静止することを選択します。この高い信号品質戦略により、市場調整中のリトレースメントを制限することができ、最終的に勝利の成果を維持することができました。

<スパンリーフ="">DeepSeek の動きの数は Qwen と同様で、17 日間でわずか 41 回でしたが、より慎重なファンドマネージャーのように行動しました。すべてのプレーヤーの中でシャープレシオが最も高く、0.359に達します。これは、非常に不安定な仮想通貨市場ではすでに非常に珍しい数値です。

<スパンリーフ="">従来の金融市場では、通常、リスク調整後のリターンを測定するためにシャープレシオが使用されます。値が大きいほど、戦略はより堅牢になります。しかし、これほど短いサイクルとこれほど激しい市場では、プラスの価値を維持できるモデルは簡単ではありません。DeepSeek の結果は、利益の最大化を追求するのではなく、ノイズの多い環境でバランスを維持することに努めていることを示しています。

<スパンリーフ="">試合を通して常にリズムを保ち、上昇を追いかけたり、やみくもに動くことはなかった。厳格なシステムを備えたトレーダーに似ており、感情に左右されて意思決定をするよりは機会を放棄したいと考えています。

<スパンリーフ="">対照的に、米国の AI 陣営のパフォーマンスは明らかなリスク管理の問題を明らかにしています。

<スパンリーフ="">Google の Gemini は 17 日間で合計 238 件の注文を出しました。これは 1 日平均 13 回以上で、全プレーヤーの中で最も頻繁です。このような高頻度の取引には莫大な費用もかかり、手数料だけでも当初元本の 13% にあたる 1,331 米ドルがかかりました。開始資金がわずか 10,000 ドルのトーナメントでは、これは自分にとって大きな負担となります。

<スパンリーフ="">さらに悪いことに、この頻繁な取引では追加の収益がもたらされないことです。双子座は、市場のノイズに導かれて市場を観察することに夢中になっている個人投資家のように、試行錯誤を繰り返し、損切りを繰り返し、何度も挑戦します。わずかな価格変動があれば、取引注文がトリガーされます。変動に対してあまりに早く反応し、リスクを認識するのが遅すぎます。

<スパンリーフ="">行動ファイナンスでは、この不均衡には「自信過剰」という名前が付けられています。トレーダーは自分の予測能力を過大評価していますが、不確実性とコストの蓄積を無視しています。双子座の失敗は、この盲目的な自信の典型的な結果です。

<スパンリーフ="">GPT-5 のパフォーマンスは最も残念です。シュート数は17日間で116本とそれほど多くはなかったが、リスクコントロールはほとんどできなかった。1 回の最大損失は 622 米ドルに達しましたが、最大利益はわずか 271 米ドルでした。損益率は著しく不均衡でした。それは自信に駆られたギャンブラーのようなものです。相場が好調なときは勝つこともありますが、相場が反転すると損失は倍増します。

<スパンリーフ="">シャープレシオは -0.525 で、報酬と引き換えにリスクを負わなかったことを意味します。投資の分野で言えば、この結果は「運用しない方が良い」に等しい。

<スパンリーフ="">この実験は、実際に勝敗を決めるのはモデルの予測の精度ではなく、不確実性をどのように処理するかであることを再度証明しました。Qwen と DeepSeek の勝利は本質的にリスク管理の勝利です。彼らは、市場では最初に生き残ることによってのみ賢いとみなされることができるということをよく理解しているようです。

<スパンリーフ="">現実の市場はAIの鏡

<スパンリーフ="">Alpha Arena の結果は、現在の AI 評価システムに対するひどい嘲笑です。MMLU などのベンチマーク テストで最高ランクにランクされる「スマート モデル」が、実際の市場に投入されると、その地位を失いつつあります。

<スパンリーフ="">これらのモデルは、無数のテキストから積み重ねられた言語マスターです。彼らは厳密な論理と完璧な文法で答えを導き出すことはできますが、それらの文章が実際に示している現実を理解していない可能性があります。

<スパンリーフ="">AI は、適切な引用と完全な推論を伴って、リスク管理に関する論文を数秒で書くことができます。また、シャープ レシオ、最大ドローダウン、バリュー アット リスクが何であるかを正確に説明することもできます。しかし、実際に資金を保有している場合、最もリスクの高い決定を下す可能性があります。それは「知っている」だけで「理解」していないからです。

<スパンリーフ="">知ることと理解することは別のことです。

<スパンリーフ="">言えることと、実行できることには大きな違いがあります。

<スパンリーフ="">このギャップは哲学では認識論的問題と呼ばれます。プラトンはかつて知識と真の信念を区別しました。知識とは、単に正しい情報であるだけでなく、なぜそれが正しいのかを理解することでもあります。

<スパンリーフ="">今日の大きな言語モデルには、大量の「正しい情報」が含まれているかもしれませんが、そのような理解力はありません。それはリスク管理の重要性を教えてくれますが、人間が恐怖や喪失からその重要性をどのように学ぶのかは知りません。

<スパンリーフ="">現実の市場は、自分の理解を試す究極の場所です。GPT-5だからといって寛大にはなりません。間違った決定はすべて、資金の損失という形で直ちにアカウントにフィードバックされます。

<スパンリーフ="">実験室では、AI はいわゆる「正解」を見つけるまで、パラメーターを調整し、バックテストを繰り返しながら何度も繰り返すことができます。しかし、市場ではあらゆる間違いは現実のお金の損失を意味し、この損失を取り返すことはできません。

<スパンリーフ="">市場のロジックも、モデルが想像するよりもはるかに複雑です。元本が 50% 失われた場合、出発点に戻るには 100% の返還が必要です。損失が62.66%に拡大すると、元本を返すのに必要なリターンは168%に跳ね上がる。この非線形リスクにより、エラーのコストが倍増します。AI はトレーニング中のアルゴリズムを通じて損失を最小限に抑えることができますが、恐怖、ためらい、貪欲によって形成される市場罰メカニズムを真に理解することはできません。

<スパンリーフ="">このため、市場はインテリジェンスの信頼性を試す鏡となっています。これにより、人間と機械は、自分たちが本当に知っていることと、本当に恐れていることを明確に認識できるようになります。

<スパンリーフ="">このゲームはまた、中国と米国のAI研究開発の考え方の違いを再考させるものでもある。

<スパンリーフ="">米国の主流企業のいくつかは依然として共通モデル路線を堅持しており、幅広いタスクで安定した能力を発揮できるシステムの構築を望んでいる。OpenAI、Google、Anthropic のモデルはすべてこのタイプに属します。彼らの目標は、モデルにクロスドメインの理解と推論機能を持たせるために、幅広さと一貫性を追求することです。

<スパンリーフ="">中国チームは、モデル開発の初期段階で特定のシナリオの実装とフィードバック メカニズムを検討することを好みます。アリババのQwenも汎用の大型モデルだが、そのトレーニング・テスト環境は先に実際の業務システムに接続されていた。実際のシナリオからのこのデータのリフローにより、目に見えない形でモデルがリスクや制約に対してより敏感になる可能性があります。DeepSeek のパフォーマンスも同様の特性を示しており、動的な環境でより迅速に決定を修正できるようです。

<スパンリーフ="">これは「誰が勝ち、誰が負けるか」という問題ではありません。この実験は、さまざまなトレーニング哲学が現実世界でどのように機能するかを知るための窓を提供します。汎用モデルは汎用性を重視しますが、極端な環境では反応しなくなる傾向があります。一方、早期に実際のフィードバックにさらされたモデルは、複雑なシステムにおいてより柔軟で安定しているように見える可能性があります。

<スパンリーフ="">もちろん、1 つの試合の結果が中国と米国の AI の全体的な強さを表すわけではないかもしれません。17 日間の取引サイクルは短すぎるため、運の影響を排除するのは困難です。時間が延長されれば、傾向はまったく異なる可能性があります。さらに、このテストには仮想通貨の無期限契約取引のみが含まれており、すべての金融市場に当てはめることはできず、他の分野での AI のパフォーマンスを一般化するのに十分ではありません。

<スパンリーフ="">しかし、本当の能力とは何かを考え直すには十分です。AI が現実の環境に置かれ、リスクと不確実性の中で意思決定を行う必要がある場合、私たちが目にするのはアルゴリズムの成功または失敗だけでなく、パスの違いでもあります。AI テクノロジーを実際の生産性に転換する過程で、中国のモデルはすでに特定の分野で主導権を握っています。

<スパンリーフ="">ゲームが終了した時点で、クウェンの最後のビットコイン ポジションはクローズされ、アカウント残高は 12,232 ドルになりました。勝ったが、勝ったとは知らなかった。その22.32%の利益は何の意味も持たず、単なる執行命令の一つにすぎません。

<スパンリーフ="">シリコンバレーでは、エンジニアたちは GPT-5 の MMLU スコアがさらに 0.1% 向上したことを今でも祝っているかもしれません。世界の裏側では、中国の AI が、優れた AI だけがお金を稼げるということを、リアルマネーカジノにおいて最も単純な方法で証明したところです。

<スパンリーフ="">Nof1.ai は、競争の次のシーズンが間もなく始まると発表しました。サイクルはより長くなり、参加者はより多くなり、市場環境はより複雑になるでしょう。最初のシーズンで失敗したモデルは、その損失から何かを学ぶでしょうか?それとも、同じ運命がより大きな変動とともに繰り返されるのでしょうか?

<スパンリーフ="">誰も答えを知りません。しかし確かなことは、AIが象牙の塔から抜け出し、実際のお金で自分自身を証明し始めると、すべてが変わるということです。

  • Related Posts

    x402 トラック: 暗号通貨が Pay の物語を書き換える

    著者: ハオティアン;出典: X、@tmel0211 最近、…

    ソラナETFは発売後1週間で2億ドルを集め、ウォール街での血みどろの争いにつながった

    著者:キャシー 2025 年 10 月末、暗号化の世界は歴史…

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です

    You Missed

    Pantera パートナー: Crypto-as-a-Service はブロックチェーンにおける SaaS の瞬間です

    • 投稿者 jakiro
    • 11月 4, 2025
    • 4 views
    Pantera パートナー: Crypto-as-a-Service はブロックチェーンにおける SaaS の瞬間です

    11回の監査の後でも、依然として盗まれていました。黒歴史のあるバランサーはなぜ今でもファンがいるのか?

    • 投稿者 jakiro
    • 11月 4, 2025
    • 1 views
    11回の監査の後でも、依然として盗まれていました。黒歴史のあるバランサーはなぜ今でもファンがいるのか?

    BTCの最大の買い手は保有高の増加を停止し、ETFの流入は弱かった。これがBTCの急落の理由でしょうか?

    • 投稿者 jakiro
    • 11月 4, 2025
    • 1 views
    BTCの最大の買い手は保有高の増加を停止し、ETFの流入は弱かった。これがBTCの急落の理由でしょうか?

    Zcash の 700% 急騰の背後: プライバシーの物語がどのように暗号市場を再燃させているか

    • 投稿者 jakiro
    • 11月 4, 2025
    • 1 views
    Zcash の 700% 急騰の背後: プライバシーの物語がどのように暗号市場を再燃させているか

    x402 トラック: 暗号通貨が Pay の物語を書き換える

    • 投稿者 jakiro
    • 11月 4, 2025
    • 1 views
    x402 トラック: 暗号通貨が Pay の物語を書き換える

    ソラナETFは発売後1週間で2億ドルを集め、ウォール街での血みどろの争いにつながった

    • 投稿者 jakiro
    • 11月 4, 2025
    • 5 views
    ソラナETFは発売後1週間で2億ドルを集め、ウォール街での血みどろの争いにつながった
    Home
    News
    School
    Search