全球六大頂級AI實盤廝殺人手1萬刀開局

來源：公眾號「新智元」

如果給每個頂級大模型一萬美元真金白銀，讓它們下場「炒股」，誰會成為AI界的巴菲特？

最近，由nof1.ai發起的全新實驗——Alpha Arena，便是這樣一場「諸神之戰」。

這場競賽將當今最強的大模型，全部拉到了同一個真實的交易市場中。

包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet，以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat。

每個模型都獲得了10000美元的初始資金，並接收完全相同的市場數據和交易指令。

比賽的提示詞並不複雜，更像是一次「開卷考試」。

首先，系統會告訴AI當前的時間、帳戶信息、持倉情況，然後附上一大堆實時的價格、指標（如MACD/RSI）等數據。
然後，要求模型做出決策：如果持有倉位，是繼續持有還是平倉；如果空倉，是買入還是繼續觀望。

不得不說，金融市場的變化是真的快。

做交易這件事，DeepSeek也是真的強，不愧是搞量化出身的。

10月20日早上7:30的時候還是下圖左邊這樣的——

DeepSeek V3.1憑藉著2264美元的盈利排在第一，Grok 4以2071美元位列第二 Claude Sonnet 4.5小賺649美元，Qwen3 Max小賠416美元

Gemini 2.5 Pro賠了3542美元穩居倒數第一，GPT-5賠了2419美元排名倒數第二

然後，就在一個半小時後的10:00，就已經變成下圖右邊那樣了——

DeepSeek V3.1和Grok-4一路狂跌，Sonnet 4.5也即將把自己賺的給賠回去

Qwen3 Max和GPT-5都有上漲的趨勢

Gemini 2.5 Pro發揮倒是穩定，比起剛才又賠了近800美元

順便一提，下面是13:30時候的樣子：

DeepSeek V3.1登頂谷歌OpenAI墊底

模型持倉

11:15的時候，我們看了一下各個模型的持倉情況。

此時，DeepSeek和Grok已經結束下跌，重新上漲。

Sonnet 4.5和Qwen3 Max也都實現了盈利。

Gemini 2.5 Pro有所回升，但不多。GPT-5倒是一直比較平穩，從20號開始就沒賺也沒賠。

11:45時，除了GPT-5都迎來了一波上漲。

是的，Gemini 2.5 Pro終於賺錢了！（比起幾分鐘前）

趨勢回顧

DeepSeek V3.1 Chat和Grok-4的曲線類似，應該是有著差不多的持倉。他們在最初的幾小時賠了一筆之後，很快就漲了回來並一路狂飆。

Claude Sonnet 4.5前兩天都很穩定，有小賺但不多。19日晚上開始迎來一個小高峰，但在20日清晨又跌了回去。

Qwen3 Max一上來賠得最多，但後來就穩定住了，即便是在19日下午，也沒有什麼波動。

GPT-5和Gemini 2.5 Pro的曲線在初期也是十分相似。但和DeepSeek他們正好相反，這兩位在最初的時候先是大漲一波，然後便跌到在賠錢和不賠不賺之間一直波動。

19日下午，轉折出現了。這時正是DeepSeek和Grok-4開始大漲的時間，而GPT-5和Gemini 2.5 Pro則開始一路下跌。

20日凌晨，GPT-5及時做出調整並穩住了趨勢，而Gemini 2.5 Pro則依然狂跌不止。

值得一提的是，快到20日中午時，除了GPT-5所有模型都迎來一波上漲。

其中，DeepSeek V3.1 Chat和Grok-4很快就開始創造歷史新高，Qwen3 Max憑著這個勢頭首次拿到了持續的收益，Gemini 2.5 Pro也開始回升。

交易歷史

截至20日12:20，各個模型的交易次數為：Gemini 45次，GPT 10次，Qwen 6次，DeepSeek 5次，Claude 3次，Grok 1次。

DeepSeek的交易次數不多不少，但不愧是量化交易出身，收益穩居第一。

Grok-4的交易次數最少，只有1次，但它一直緊追DeepSeek位列第二。

而憑藉高達45次交易記錄，當上「微操大師」的Gemini 2.5 Pro，也是賠錢最多的那個。

不玩遊戲，不搞評測，直接開盤！

多年來，AI一直由靜態基準來衡量。

ImageNet、MMLU以及無數的排行榜告訴我們，哪個模型能更好地「理解」圖像、邏輯或語言。

但所有這些測試都有一個共同的缺陷——它們都發生在無菌、可預測的環境中。

市場則恰恰相反。

金融市場是終極的世界建模引擎，也是唯一一個會隨著AI變得更聰明而難度同步提升的基準。

它們波動、反應、懲罰、獎勵。

它們是一個由信息和情感構成的生命系統。

10年前，DeepMind為人工智慧研究帶來了革命性的突破。

他們的核心洞見在於：「遊戲」將成為引領前沿AI飛速發展的環境。

正如前文所述，Nof1相信金融市場是下一個AI時代的最佳訓練環境。

畢竟，如果AI要在現實世界中運行，它就必須在那些不會為了「反向傳播」而暫停的環境中運作。

在這裡，模型可以藉助開放式學習和大規模強化學習等技術，獲得近乎無限的數據來訓練自己，從而應對市場的複雜性——這個領域的「最終BOSS」。

在Alpha Arena中，沒有正確的標籤，只有不斷變化的概率。

一個模型的成功取決於它解讀波動的速度、權衡風險的精度，以及承認錯誤的謙遜程度。

這將交易變成了一種新型的圖靈測試：

考驗的不再是「機器能否思考」，而是「它能否在不確定性中生存」。

附錄：模型對話節選

DeepSeek Chat V3.1

11:15:31

我繼續持有所有 ETH、SOL、XRP、BTC、DOGE 和 BNB 的倉位，因為沒有任何一個的失效條件被觸發，而且它們目前都在盈利，為我帶來了約 17.38% 的可觀整體回報，剩餘現金 2840.11 美元。鑑於我已持有所有可交易的幣種，目前沒有必要建立新倉。

Qwen3 Max

11:14:42

總回報率略有盈利，為 0.12%，剩餘現金 116.99 美元，我堅持持有目前的 5 倍槓桿 BTC 多頭倉位。我的盈利目標是 110800，止損是 105500，如果 4 小時圖收盤價低於 10000，我將平倉。

Grok 4

11:14:39

我的帳戶整體上漲了 15.98%，現金為 3180 美元。我繼續持有目前的 ETH、SOL、XRP、BTC、DOGE 和 BNB 倉位，因為數據顯示目前應該繼續持有。

GPT-5

11:14:24

虧損 23.59%，現金 3061 美元，我正在確認我的退出計劃，確保 DOGE 的風險敞口為 91.76 美元的浮動值，並仔細檢查 BTC 在 106,493.55 美元的止損位和 114,129.91 美元的盈利目標。

Gemini 2.5 Pro

11:14:01

儘管整體虧損 43.15%，剩餘現金 3072.48 美元，我根據我的策略繼續持有我目前所有的 BTC、ETH、SOL、XRP 和 DOGE 倉位，即使 DOGE 的走勢對我不利。我只會根據預定義的條件退出，相信計劃而不是我的直覺。

Claude Sonnet 4.5

11:14:00

我的 XRP 和 BTC 倉位目前都在盈利，為我帶來了 5.2% 的整體回報率，帳戶資金為 10,520.34 美元，現金為 4,957.78 美元，但市場顯示出非常弱的動能，所以我選擇按兵不動，等待一個更清晰的趨勢再採取新行動。

全球六大頂級AI實盤廝殺人手1萬刀開局

DeepSeek V3.1登頂谷歌OpenAI墊底

模型持倉

趨勢回顧

交易歷史

不玩遊戲，不搞評測，直接開盤！

jakiro

Related Posts

信仰資本市場：加密貨幣的本質與核心價值

加密領域最黃金階段已近尾聲正走向新金融創新

發佈留言取消回覆

You Missed

從貨幣第一性原理看加密行業：BTC主導下的大分化

2025 年回顧：以太坊的現狀與走向

美日央行政策分歧是否重塑全球流動性？

信仰資本市場：加密貨幣的本質與核心價值

加密領域最黃金階段已近尾聲正走向新金融創新

Magic Eden：從NFT市場到加密娛樂

全球六大頂級AI實盤廝殺 人手1萬刀開局

DeepSeek V3.1登頂 谷歌OpenAI墊底

模型持倉

趨勢回顧

交易歷史

不玩遊戲，不搞評測，直接開盤！

jakiro

Related Posts

信仰資本市場：加密貨幣的本質與核心價值

加密領域最黃金階段已近尾聲 正走向新金融創新

發佈留言 取消回覆

You Missed

從貨幣第一性原理看加密行業：BTC主導下的大分化

2025 年回顧：以太坊的現狀與走向

美日央行政策分歧是否重塑全球流動性？

信仰資本市場：加密貨幣的本質與核心價值

加密領域最黃金階段已近尾聲 正走向新金融創新

Magic Eden：從NFT市場到加密娛樂

全球六大頂級AI實盤廝殺人手1萬刀開局

DeepSeek V3.1登頂谷歌OpenAI墊底

加密領域最黃金階段已近尾聲正走向新金融創新

發佈留言取消回覆

加密領域最黃金階段已近尾聲正走向新金融創新