
來源:公眾號「新智元」
如果給每個頂級大模型一萬美元真金白銀,讓它們下場「炒股」,誰會成為AI界的巴菲特?
最近,由nof1.ai發起的全新實驗——Alpha Arena,便是這樣一場「諸神之戰」。
這場競賽將當今最強的大模型,全部拉到了同一個真實的交易市場中。
包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet,以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat。
每個模型都獲得了10000美元的初始資金,並接收完全相同的市場數據和交易指令。
比賽的提示詞並不複雜,更像是一次「開卷考試」。
-
首先,系統會告訴AI當前的時間、帳戶信息、持倉情況,然後附上一大堆實時的價格、指標(如MACD/RSI)等數據。
-
然後,要求模型做出決策:如果持有倉位,是繼續持有還是平倉;如果空倉,是買入還是繼續觀望。
不得不說,金融市場的變化是真的快。
做交易這件事,DeepSeek也是真的強,不愧是搞量化出身的。
10月20日早上7:30的時候還是下圖左邊這樣的——
DeepSeek V3.1憑藉著2264美元的盈利排在第一,Grok 4以2071美元位列第二 Claude Sonnet 4.5小賺649美元,Qwen3 Max小賠416美元
Gemini 2.5 Pro賠了3542美元穩居倒數第一,GPT-5賠了2419美元排名倒數第二
然後,就在一個半小時後的10:00,就已經變成下圖右邊那樣了——
DeepSeek V3.1和Grok-4一路狂跌,Sonnet 4.5也即將把自己賺的給賠回去
Qwen3 Max和GPT-5都有上漲的趨勢
Gemini 2.5 Pro發揮倒是穩定,比起剛才又賠了近800美元
順便一提,下面是13:30時候的樣子:
DeepSeek V3.1登頂 谷歌OpenAI墊底
模型持倉
11:15的時候,我們看了一下各個模型的持倉情況。
此時,DeepSeek和Grok已經結束下跌,重新上漲。
Sonnet 4.5和Qwen3 Max也都實現了盈利。
Gemini 2.5 Pro有所回升,但不多。GPT-5倒是一直比較平穩,從20號開始就沒賺也沒賠。
11:45時,除了GPT-5都迎來了一波上漲。
是的,Gemini 2.5 Pro終於賺錢了!(比起幾分鐘前)
趨勢回顧
DeepSeek V3.1 Chat和Grok-4的曲線類似,應該是有著差不多的持倉。他們在最初的幾小時賠了一筆之後,很快就漲了回來並一路狂飆。
Claude Sonnet 4.5前兩天都很穩定,有小賺但不多。19日晚上開始迎來一個小高峰,但在20日清晨又跌了回去。
Qwen3 Max一上來賠得最多,但後來就穩定住了,即便是在19日下午,也沒有什麼波動。
GPT-5和Gemini 2.5 Pro的曲線在初期也是十分相似。但和DeepSeek他們正好相反,這兩位在最初的時候先是大漲一波,然後便跌到在賠錢和不賠不賺之間一直波動。
19日下午,轉折出現了。這時正是DeepSeek和Grok-4開始大漲的時間,而GPT-5和Gemini 2.5 Pro則開始一路下跌。
20日凌晨,GPT-5及時做出調整並穩住了趨勢,而Gemini 2.5 Pro則依然狂跌不止。
值得一提的是,快到20日中午時,除了GPT-5所有模型都迎來一波上漲。
其中,DeepSeek V3.1 Chat和Grok-4很快就開始創造歷史新高,Qwen3 Max憑著這個勢頭首次拿到了持續的收益,Gemini 2.5 Pro也開始回升。
交易歷史
截至20日12:20,各個模型的交易次數為:Gemini 45次,GPT 10次,Qwen 6次,DeepSeek 5次,Claude 3次,Grok 1次。
DeepSeek的交易次數不多不少,但不愧是量化交易出身,收益穩居第一。
Grok-4的交易次數最少,只有1次,但它一直緊追DeepSeek位列第二。
而憑藉高達45次交易記錄,當上「微操大師」的Gemini 2.5 Pro,也是賠錢最多的那個。
不玩遊戲,不搞評測,直接開盤!
多年來,AI一直由靜態基準來衡量。
ImageNet、MMLU以及無數的排行榜告訴我們,哪個模型能更好地「理解」圖像、邏輯或語言。
但所有這些測試都有一個共同的缺陷——它們都發生在無菌、可預測的環境中。
市場則恰恰相反。
金融市場是終極的世界建模引擎,也是唯一一個會隨著AI變得更聰明而難度同步提升的基準。
它們波動、反應、懲罰、獎勵。
它們是一個由信息和情感構成的生命系統。
10年前,DeepMind為人工智慧研究帶來了革命性的突破。
他們的核心洞見在於:「遊戲」將成為引領前沿AI飛速發展的環境。
正如前文所述,Nof1相信金融市場是下一個AI時代的最佳訓練環境。
畢竟,如果AI要在現實世界中運行,它就必須在那些不會為了「反向傳播」而暫停的環境中運作。
在這裡,模型可以藉助開放式學習和大規模強化學習等技術,獲得近乎無限的數據來訓練自己,從而應對市場的複雜性——這個領域的「最終BOSS」。
在Alpha Arena中,沒有正確的標籤,只有不斷變化的概率。
一個模型的成功取決於它解讀波動的速度、權衡風險的精度,以及承認錯誤的謙遜程度。
這將交易變成了一種新型的圖靈測試:
考驗的不再是「機器能否思考」,而是「它能否在不確定性中生存」。
附錄:模型對話節選
DeepSeek Chat V3.1
11:15:31
我繼續持有所有 ETH、SOL、XRP、BTC、DOGE 和 BNB 的倉位,因為沒有任何一個的失效條件被觸發,而且它們目前都在盈利,為我帶來了約 17.38% 的可觀整體回報,剩餘現金 2840.11 美元。鑑於我已持有所有可交易的幣種,目前沒有必要建立新倉。
Qwen3 Max
11:14:42
總回報率略有盈利,為 0.12%,剩餘現金 116.99 美元,我堅持持有目前的 5 倍槓桿 BTC 多頭倉位。我的盈利目標是 110800,止損是 105500,如果 4 小時圖收盤價低於 10000,我將平倉。
Grok 4
11:14:39
我的帳戶整體上漲了 15.98%,現金為 3180 美元。我繼續持有目前的 ETH、SOL、XRP、BTC、DOGE 和 BNB 倉位,因為數據顯示目前應該繼續持有。
GPT-5
11:14:24
虧損 23.59%,現金 3061 美元,我正在確認我的退出計劃,確保 DOGE 的風險敞口為 91.76 美元的浮動值,並仔細檢查 BTC 在 106,493.55 美元的止損位和 114,129.91 美元的盈利目標。
Gemini 2.5 Pro
11:14:01
儘管整體虧損 43.15%,剩餘現金 3072.48 美元,我根據我的策略繼續持有我目前所有的 BTC、ETH、SOL、XRP 和 DOGE 倉位,即使 DOGE 的走勢對我不利。我只會根據預定義的條件退出,相信計劃而不是我的直覺。
Claude Sonnet 4.5
11:14:00
我的 XRP 和 BTC 倉位目前都在盈利,為我帶來了 5.2% 的整體回報率,帳戶資金為 10,520.34 美元,現金為 4,957.78 美元,但市場顯示出非常弱的動能,所以我選擇按兵不動,等待一個更清晰的趨勢再採取新行動。