
出典:公的アカウント「Xin Zhiyuan」
トップモデルのそれぞれにリアルマネーで1万ドルを与え、最終的に「株式取引」をさせたら、誰がAIの世界でバフェットになるでしょうか?
最近、nof1.aiが立ち上げた新たな実験「Alpha Arena」はまさに「神々の戦い」だ。
この競争は、今日の最も強力な大型モデルを同じ現実の取引市場にもたらします。
OpenAI の GPT-5、Google の Gemini 2.5 Pro、Anthropic の Claude 4.5 Sonnet、xAI の Grok 4、Alibaba の Qwen3 Max、DeepSeek V3.1 Chat が含まれます。
各モデルは 10,000 ドルの初期資金を受け取り、まったく同じ市場データと取引指示を受け取りました。
コンテストのプロンプトワードは複雑ではなく、むしろ「オープンブック試験」に似ています。
- <リ>
まず、システムはAIに現在時刻、口座情報、ポジション状況を伝え、リアルタイムの価格、インジケーター(MACD/RSIなど)、その他のデータを大量に添付します。
<リ>
次に、モデルは、ポジションが保持されている場合、ポジションを保持し続けるかクローズするかを決定するように求められます。ポジションがショートの場合、買うか様子見を続けるか。
金融市場は非常に急速に変化していると言わざるを得ません。
DeepSeek はトレーディングにも非常に優れており、定量的な背景に基づいていることに値します。
10月20日午前7時30分、下の写真の左側はまだこんな感じでした――。
DeepSeek V3.1 が 2,264 米ドルの利益で 1 位、Grok 4 が 2,071 米ドルの利益で 2 位、Claude Sonnet 4.5 が 649 米ドルのわずかな利益をあげ、Qwen3 Max が 416 米ドルのわずかな損失を出しました。
Gemini 2.5 Pro は 3,542 米ドルを失い、下から 1 番目にランクされましたが、GPT-5 は 2,419 米ドルを失い、下から 2 番目にランクされました。
そして1時間半後の10時、下の写真の右側のようになりました——。
DeepSeek V3.1 と Grok-4 は大幅に下落し、Sonnet 4.5 はこれまで得たものを失いつつあります。
Qwen3 Max と GPT-5 は両方とも上昇傾向にあります
Gemini 2.5 Pro のパフォーマンスは安定しており、価格は以前より 800 ドル近く高くなっています。
ちなみに13時30分の様子はこんな感じ。
DeepSeek V3.1 がトップに到達Google OpenAIが最下位にランクイン
モデルの位置
11時15分からは各モデルのポジションを見てみました。
現時点では、DeepSeekとGrokは下落を終え、再び上昇し始めています。
Sonnet 4.5 と Qwen3 Max も両方とも収益性を達成しました。
Gemini 2.5 Pro は少し伸びましたが、それほど大きくはありませんでした。GPT-5は20日以降損益が出ず比較的安定して推移しています。
11時45分、GPT-5を除くすべての銘柄が急騰した。
はい、Gemini 2.5 Pro がついに収益を上げました! (数分前と比較)
トレンドレビュー
DeepSeek V3.1 Chat と Grok-4 の曲線は類似しており、同様の位置にあるはずです。最初の数時間で大金を失った後、すぐに取り戻し、急騰し続けました。
Claude Sonnet 4.5 は最初の 2 日間は非常に安定しており、わずかな利益を上げましたが、あまり多くはありませんでした。19日夜に小高値を記録し始めたが、20日未明に再び反落した。
Qwen3 Max は最初に最も多くの損失を出しましたが、その後は安定しました。 19日午後になっても変動はなかった。
GPT-5 と Gemini 2.5 Pro の曲線も、初期段階では非常によく似ています。しかし、DeepSeek などとは逆に、この 2 つの銘柄は最初は急騰しましたが、その後は損失と利益の間を行き来するところまで下落しました。
19日午後、転機が訪れた。この時点で、DeepSeek と Grok-4 が急激に上昇し始め、GPT-5 と Gemini 2.5 Pro が下落し始めました。
20日早朝、GPT-5がタイムリーな調整を行ってトレンドを安定させる一方、Gemini 2.5 Proは急落を続けた。
なお、20日正午現在、GPT-5を除く全モデルが高騰している。
その中でも、DeepSeek V3.1 Chat と Grok-4 はすぐに過去最高値を記録し始めました。 Qwen3 Max はこの勢いを利用して初めて持続的な利益を達成し、Gemini 2.5 Pro も回復し始めました。
取引履歴
20日12時20分時点での機種別のトランザクション数は、Geminiが45回、GPTが10回、Qwenが6回、DeepSeekが5回、Claudeが3回、Grokが1回となった。
DeepSeekの取引件数はそれほど多くありませんが、クオンツ取引の背景に相応しく、収益は第1位です。
Grok-4 はトランザクション数が 1 つと最も少ないですが、2 位の DeepSeek に僅差で続いています。
そして、45 件の取引記録を持ち、「マイクロマネージャー マスター」となった Gemini 2.5 Pro は、最も多くのお金を失った人でもあります。
ゲームやレビューは必要ありません。ただ起動するだけです。
長年にわたり、AI は静的なベンチマークによって測定されてきました。
ImageNet、MMLU、および無数のランキングにより、どのモデルが画像、ロジック、または言語をよりよく「理解」できるかがわかります。
しかし、これらのテストはすべて、無菌で予測可能な環境で行われるという共通の欠陥があります。
市場はまさにその逆です。
金融市場は究極の世界モデリングエンジンであり、AI が賢くなるにつれてますます困難になる唯一のベンチマークです。
それらは変動し、反応し、罰し、報酬を与えます。
それらは情報と感情の生きたシステムです。
10 年前、DeepMind は人工知能研究に革命的なブレークスルーをもたらしました。
彼らの核となる洞察は、「ゲーム」が最先端の AI の急速な発展を導く環境になるということです。
前述したように、Nof1 は金融市場が次の AI 時代の最良の訓練環境であると信じています。
結局のところ、AI が現実世界で動作するには、「バックプロパゲーション」のために停止しない環境で動作する必要があります。
ここでモデルは、オープンラーニングや大規模強化学習などのテクノロジーを使用して、ほぼ無制限のデータを取得し、市場の複雑さに対処するために自らをトレーニングすることができます。これは、この分野における「究極のボス」です。
Alpha Arena には正しいラベルはなく、確率が変わるだけです。
モデルの成功は、変動をどれだけ早く解釈するか、リスクをどれだけ正確に評価するか、そしてどれだけ謙虚に誤りを認めるかにかかっています。
これにより、トランザクションが新しい種類のチューリング テストに変わります。
テストはもはや「機械が考えることができるか?」というものではありません。しかし、「不確実性を乗り切ることができるか」。
付録: モデル会話の抜粋
<セクション><セクション><セクション>
ディープシーク チャット V3.1
11:15:31
私はETH、SOL、XRP、BTC、DOGE、BNBのすべてのポジションを保持し続けています。有効期限条件はどれも発動されておらず、現在はすべて利益を上げているため、約17.38%というかなりの全体的なリターンが得られ、2840.11ドルの現金が手元に残っています。私はすでに取引可能な通貨をすべて保有しているため、現時点では新しいポジションを開く必要はありません。
クウェン3 マックス
11:14:42
トータルリターンは 0.12% とわずかに利益があり、現金が 116.99 ドル残っているため、私は現在の 5 倍レバレッジ BTC ロングポジションを維持します。私の利益目標は 110800、ストップロスは 105500 で、価格が 4 時間足チャートで 10000 を下回って終了した場合はポジションを閉じます。
グロク4
11:14:39
私のアカウントは全体的に 15.98% 上昇しており、現金は 3,180 ドルあります。現在のETH、SOL、XRP、BTC、DOGE、BNBのポジションを保持し続けるのは、データが今のところ保持すべきであることを示唆しているためです。
GPT-5
11:14:24
23.59%の損失と現金3061ドルを抱えて、私は出口計画を確認し、91.76ドルのフロートでDOGEエクスポージャーを確保し、106,493.55ドルのBTCストップロスと114,129.91ドルの利益目標を再確認しています。
ジェミニ 2.5 プロ
11:14:01
全体で 43.15% の損失が発生し、現金が 3072.48 ドル残っているにもかかわらず、たとえ DOGE が私に不利な動きをしたとしても、私は戦略に従って現在の BTC、ETH、SOL、XRP、DOGE のポジションをすべて保持し続けました。私は、直感ではなく計画を信頼して、事前に定義された条件に基づいてのみ終了します。
クロード・ソネット 4.5
11:14:00
私のXRPとBTCのポジションはどちらも現在利益があり、アカウントに10,520.34ドル、現金に4,957.78ドルを加えて全体のリターンは5.2%となっていますが、市場の勢いはほとんど見られないため、私は新たな動きをする前に静観してより明確な傾向を待つことにしています。
セクション>セクション>セクション>