火爆華爾街的萬字報告:比特幣和英偉達暴跌背後

一位擔任過分析師、軟體工程師的專業投資者寫了一篇看空英偉達的文章,被推特大V大量轉發,成為英偉達股票暴跌的一大「罪魁禍首」。英偉達市值蒸發了近6000億美元,這是迄今特定上市公司最大的單日跌幅。

這位Jeffrey Emanuel的投資者主要觀點無非就是DeepSeek戳破了華爾街、大型科技公司和英偉達製造的牛皮,英偉達被高估了。「每家投行都建議買入英偉達,像是盲人指路,完全不知道自己在說些什麼。」

Jeffrey Emanuel表示,英偉達要維持目前的增長軌跡和利潤率,面臨的道路比其估值所暗示的要崎嶇得多。有五個不同的攻擊英偉達的方向——架構創新、客戶垂直整合、軟體抽象化、效率突破和製造民主化——至少有一個成功對英偉達的利潤率或增長率產生重大影響的可能性似乎很高。以目前的估值來看,市場並未考慮到這些風險。

據一些行業投資人士表示,因為這篇報告,Emanuel突然間成了華爾街的紅人,很多對衝基金付給他每小時1,000美元,希望聽聽他對英偉達和AI的看法。忙得嗓子都冒煙了,但數錢眼都花了。

以下是報告全文。全參考學習。

作為一名曾在各種多頭/空頭對衝基金(包括在Millennium和 Balyasny工作過)擔任過約10年投資分析師的人,同時也是一個自 2010年以來一直在研究深度學習的數學和計算機迷(當時 Geoff Hinton 還在談論受限玻爾茲曼機,一切編程仍使用MATLAB,研究人員仍在試圖證明他們可以在分類手寫數字方面獲得比使用支持向量機更好的結果),我認為我對人工智慧技術的發展及其與股票市場股權估值的關係有一個相當獨特的看法。

在過去的幾年中,我更多地以開發者的身份工作,並擁有幾個流行的開源項目,用於處理各種形式的 AI 模型/服務(例如,請參閱LLM Aided OCR、Swiss Army Llama、Fast Vector Similarity、Source to Prompt和Pastel Inference Layer等幾個最近的例子)。基本上,我每天都在密集的使用這些前沿模型。我有 3 個 Claude 帳戶,這樣就不會把請求用完了,而且在 ChatGPT Pro 上線幾分鐘後我就註冊了它。

我還努力了解最新的研究進展,並仔細閱讀各大人工智慧實驗室發布的所有重要技術報告論文。因此,我認為自己對這個領域以及事物的發展情況有相當好的了解。與此同時,我一生中做空了大量股票,並兩次獲得價值投資者俱樂部的最佳創意獎(如果你一直在關注,則為TMS 多頭和PDH 空頭)。

我這麼說不是為了炫耀,而是為了證明我能夠就這個問題發表意見,而不會讓技術人員或專業投資者感到我幼稚得無可救藥。當然,肯定有很多人比我更精通數學/科學,也有很多人比我更擅長股票市場的做多/做空投資,但我認為,能夠像我這樣處於維恩圖中間位置的人並不多。

儘管如此,每當我與對衝基金界的朋友和前同事見面聊天時,話題很快就會轉到英偉達。一家公司從默默無聞發展到市值超過英國、法國或德國股市總和的現象並不是每天都能遇到的!這些朋友自然想知道我對這個問題的看法。因為我堅信這項技術將帶來長期變革性影響——我真的相信它將在未來 5-10 年內徹底改變我們經濟和社會的方方面面,這基本上是史無前例的——所以我很難斷言英偉達的發展勢頭會在短期內會放緩或停止。

但即使在過去一年多的時間裡,我認為估值過高,不適合我,但最近的一系列發展還是讓我有點傾向於我的直覺,即對前景持更謹慎的態度,並在共識似乎被過度定價時提出質疑。俗話說「智者在開始時相信,愚者在結束時相信」,這句話之所以出名是有原因的。

牛市案例

在我們討論讓我猶豫不決的進展之前,讓我們先簡要回顧一下英偉達股票的牛市行情,現在基本上每個人都知道NVDA股票的牛市行情。深度學習和人工智慧是自網際網路以來最具變革性的技術,並有望從根本上改變我們社會中的所有事物。就行業總資本支出中用於訓練和推理基礎設施的部分而言,英偉達幾乎已經處於以某種方式接近壟斷的地位。

一些世界上規模最大、利潤最高的公司,如微軟、蘋果、亞馬遜、Meta、谷歌、甲骨文等,都決定不惜一切代價保持在這一領域的競爭力,因為它們根本承擔不起落後於人的後果。資本支出金額、用電量、新建數據中心的面積,當然還有GPU的數量,都出現了爆炸式增長,而且似乎沒有放緩的跡象。英偉達能夠憑藉面向數據中心的高端產品賺取高達90%以上的驚人毛利率。

我們只是觸及了牛市的表面。現在還有更多方面,即使原本已經非常樂觀的人也會變得更加樂觀。除了類人機器人的崛起(我懷疑當它們能夠迅速完成大量目前需要非熟練(甚至熟練)工人完成的任務時,大多數人會感到驚訝,例如洗衣、清潔、整理和烹飪;在工人團隊中完成裝修浴室或建造房屋等建築工作;管理倉庫和駕駛叉車等),還有其他大多數人甚至還沒有考慮過的其他因素。

聰明人談論的一個主要話題是「新擴展定律」的興起,它為人們思考計算需求將如何隨時間推移而增長提供了新的範式。自2012年AlexNet出現和2017年Transformer架構發明以來,推動人工智慧進步的原始擴展定律是預訓練擴展定律:我們用作訓練數據的token價值越高(現在達到數萬億),我們訓練的模型的參數數量越多,我們用這些token訓練這些模型所消耗的計算能力(FLOPS)越高, 在各種各樣非常有用的下遊任務中,最終模型的性能會越好。

不僅如此,這種改進在一定程度上是可以預知的,以至於像OpenAI和Anthropic這樣的領先人工智慧實驗室甚至可以在開始實際訓練之前就非常清楚地知道他們最新的模型會有多好——在某些情況下,他們甚至能夠預測最終模型的基準值,誤差不超過幾個百分點。這種「原始擴展定律」非常重要,但總是讓那些用它來預測未來的人心存疑慮。

首先,我們似乎已經用盡了世界上積累的高質量訓練數據集。當然,這並非完全正確——仍然有許多舊書和期刊尚未被正確數位化,即使被數位化了,也沒有獲得作為訓練數據的適當許可。問題是,即使你把所有這些東西都歸功於你——比如說從1500年到2000年「專業」製作的英語書面內容的總和,當你談論一個近15萬億標記的訓練語料庫時,從百分比的角度來看,這並不是一個巨大的數量,而訓練語料庫的規模是當前前沿模型的規模。

為了快速檢查這些數字的真實性:到目前為止,谷歌圖書已經數位化了大約4000萬本書;如果一本普通書有5萬到10萬字,或6.5萬到13萬個標記,那麼光是書就佔了2.6T到5.2T的標記,當然其中很大一部分已經包含在大型實驗室使用的訓練語料庫中,無論嚴格意義上是否合法。還有很多學術論文,僅arXiv網站就有超過200萬篇論文。美國國會圖書館有超過30億頁的數位化報紙。加起來,總數可能高達7T token,但由於其中大部分實際上包含在訓練語料庫中,因此剩餘的「增量」訓練數據在整體計劃中可能並不那麼重要。

當然,還有其他方法可以收集更多的訓練數據。例如,你可以自動轉錄每一個YouTube視頻,並使用這些文本。雖然這可能會有所幫助,但它的質量肯定比一本備受推崇的有機化學教科書低得多,而後者是了解世界的有用知識來源。因此,在原始規模定律方面,我們一直面臨著「數據牆」的威脅;儘管我們知道可以不斷向GPU投入更多的資本支出,建立更多的數據中心,但大規模生產有用的新人類知識卻要困難得多,這些知識是對已有知識的正確補充。現在,一個有趣的應對方法是「合成數據」的興起,即文本本身就是LLM的輸出。雖然這似乎有點荒謬,但「通過自己的供應來提高模型質量」確實在實踐中非常有效,至少在數學、邏輯和計算機編程領域是如此。

當然,原因在於這些領域我們可以機械地檢查和證明事物的正確性。因此,我們可以從龐大的數學定理或Python腳本中取樣,然後實際檢查它們是否正確,只有正確的數據才會被納入我們的資料庫。通過這種方式,我們可以極大地擴展高質量訓練數據的集合,至少在這些領域是如此。

除了文本,我們還可以用其他各種數據來訓練人工智慧。例如,如果我們把1億人的整個基因組測序數據(一個人未壓縮的數據量約為200GB至300GB)都拿來訓練人工智慧,會怎麼樣?這顯然是一個很大的數據量,儘管其中絕大部分數據在兩個人之間幾乎完全相同。當然,由於各種原因,與書籍和網際網路上的文本數據進行比較可能會產生誤導:

原始基因組大小不能與標記數量直接比較

基因組數據的信息含量與文本有很大不同

高度冗餘數據的訓練價值尚不明確

處理基因組數據的計算要求也不同

但它仍然是另一個巨大的信息來源,我們可以在未來對它進行訓練,這也是我將其納入的原因。

因此,雖然我們有望獲得越來越多的額外訓練數據,但如果你看看近年來訓練語料庫的增長速度,就會發現我們很快就會在「普遍有用的」知識數據可用性方面遇到瓶頸,而這類知識可以幫助我們更接近最終目標,即獲得比約翰·馮·諾伊曼聰明10倍的人工超級智能,成為人類已知每個專業領域的世界級專家人類。

除了可用數據有限之外,預訓練擴展定律的支持者心中一直潛藏著其他一些擔憂。其中之一就是,在完成模型訓練後,如何處理所有這些計算基礎設施?訓練下一個模型?當然,你可以這樣做,但考慮到GPU速度和容量的快速提升,以及電力和其他運營成本在經濟計算中的重要性,使用2年前的集群來訓練新的模型真的有意義嗎?當然,你更願意使用你剛剛建造的全新的數據中心,它的成本是舊數據中心的10倍,而且由於技術更先進,性能是舊數據中心的20倍。問題是,在某些時候,你確實需要攤銷這些投資的前期成本,並通過(希望是正的)運營利潤流來收回成本,對嗎?

市場對於人工智慧如此興奮,以至於忽略了這一點,讓OpenAI這樣的公司從一開始就不斷累積運營虧損,同時卻在後續投資中獲得了越來越高的估值(當然,值得稱讚的是,它們也展示了非常快速增長的收入)。但最終,要想在整個市場周期內維持這種狀況,這些數據中心的成本最終需要收回,最好還能有利潤,這樣經過一段時間後,它們在風險調整的基礎上就能與其他投資機會相抗衡。

新範式

好了,這就是預訓練擴展定律。那麼這個「新」擴展定律是什麼呢?嗯,這是人們在過去一年裡才開始關注的東西:推理時間計算擴展。在此之前,你在過程中花費的絕大部分計算都是用於創建模型的前期訓練計算。一旦有了訓練好的模型,對該模型進行推理(即提出問題或讓LLM為您執行某種任務)只需使用一定數量的計算。

重要的是,推理計算總量(以各種方式衡量,例如FLOPS、GPU內存佔用等)遠低於預訓練階段所需的計算量。當然,當您增加模型的上下文窗口大小以及一次生成的輸出量時,推理計算量確實會增加(儘管研究人員在這方面取得了驚人的算法改進,而最初人們預計的擴展規模是二次方)。但基本上,直到最近,推理計算的強度通常比訓練計算低得多,並且基本上與處理的請求數量成線性比例——例如,對ChatGPT文本補全的需求越多,推理計算消耗就越多。

隨著去年推出的革命性思維鏈(Chain-of-Thought,簡稱COT)模型的出現,最引人注目的是OpenAI的旗艦模型O1(但最近DeepSeek的新模型R1也採用了這種技術,我們將在後面詳細討論),一切都發生了變化。這些新的 COT 模型不再將推理計算量與模型生成的輸出文本長度直接成比例(對於更大的上下文窗口、模型大小等,會按比例增加),而是生成中間「邏輯標記」;可以將其視為模型在嘗試解決您的問題或完成指定任務時的一種「臨時存儲器」或「內部獨白」。

這代表了推理計算方式的一次真正變革:現在,你在這個內部思維過程中使用的token越多,你提供給用戶的最終輸出質量就越好。實際上,這就像給一名工人更多的時間和資源來完成一項任務,這樣他們就可以反覆檢查自己的工作,用多種不同的方法完成同樣的基本任務,並驗證結果是否相同;將結果「插入」公式中,以檢查它是否真的解出了方程等。

事實證明,這種方法的效果幾乎令人驚嘆;它利用了人們期待已久的「強化學習」的力量,以及Transformer架構的強大功能。它直接解決了Transformer模型中一個最大的弱點,即「產生幻覺」的傾向。

基本上,Transformer在預測每一步的下一個標記時的工作方式是,如果它們在初始響應中開始走上一條錯誤的「道路」,它們就會變得幾乎像一個推諉的孩子,試圖編造一個故事來解釋為什麼它們實際上是正確的,即使它們應該使用常識在途中意識到它們所說的話不可能是正確的。

因為模型總是試圖保持內在一致性,並使每個連續生成的標記自然地來自前面的標記和上下文,所以它們很難進行路線修正和回溯。通過將推理過程分解為許多中間階段,它們可以嘗試許多不同的方法,看看哪些有效,並不斷嘗試路線修正和嘗試其他方法,直到它們能夠達到相當高的置信度,即它們不是在胡說八道。

這種方法最特別的地方在於,除了它確實有效之外,你使用的邏輯/COT token越多,效果越好。突然間,你多了一個額外的轉盤,隨著COT推理token數量的增加(這需要更多的推理計算,無論是浮點運算還是內存),你給出正確答案的概率就越高——代碼第一次運行時沒有錯誤,或者邏輯問題的解決方案沒有明顯錯誤的推論步驟。

我可以根據大量第一手經驗告訴你,儘管Anthropic的Claude3.5 Sonnet模型在Python編程方面非常出色(確實非常出色),但每當您需要生成任何冗長而複雜的代碼時,它總會犯一個或多個愚蠢的錯誤。現在,這些錯誤通常很容易修復,事實上,通常只需將Python解釋器生成的錯誤作為後續推理提示(或者更實用的是,使用所謂的Linter將代碼編輯器在代碼中發現的完整「問題」集粘貼到代碼中),無需任何進一步的解釋,就可以修復它們。當代碼變得非常長或非常複雜時,有時需要花費更長的時間來修復,甚至可能需要手動進行一些調試。

我第一次嘗試OpenAI的O1模型時,就像是一個啟示:我驚訝於代碼第一次就完美的程度。這是因為COT流程會在模型給出的答案中最終響應token之前自動發現並修復問題。

事實上,OpenAI的ChatGPT Plus訂閱服務(每月20美元)中使用的O1模型與新的ChatGPT Pro訂閱服務(價格是前者的10倍,即每月200美元,這在開發者社區引起了軒然大波)中O1-Pro模型使用的模型基本相同;主要區別在於,O1-Pro在做出回應之前會思考更長的時間,生成更多的COT邏輯標記,並且 每次響應都要消耗大量推理計算資源。

這一點非常引人注目,因為即使對於Claude3.5 Sonnet或GPT4o來說,即使給出約400kb以上的上下文,一個非常冗長且複雜的提示,通常也需要不到10秒的時間才能開始響應,而且往往不到5秒。而同樣的提示給O1-Pro可能需要5分鐘以上的時間才能得到響應(儘管OpenAI確實會在等待過程中向您顯示一些在此過程中生成的「推理步驟」;重要的是,OpenAI出於商業秘密相關原因,決定向您隱藏其生成的確切推理標記,而是向您顯示高度簡化的摘要)。

正如你可能想像的那樣,在許多情況下,準確性至關重要——你寧願放棄並告訴用戶你根本無法做到,也不願給出可能被輕易證明是錯誤的答案,或者給出涉及幻覺事實或其他似是而非推理的答案。任何涉及金錢/交易、醫療和法律的事情,僅舉幾例。

基本上,只要推理成本相對於與人工智慧系統交互的人類知識工作者的小時全額薪酬是微不足道的,那麼在這種情況下,調用COT計算就變得完全不需要考慮了(主要缺點是它會使響應延遲大大增加,因此在某些情況下,你可能更希望通過獲得延遲更短、準確度或正確性更低的響應來加快迭代)。

幾周前,人工智慧領域傳出一些振奮人心的消息,其中涉及OpenAI尚未發布的O3模型,該模型能夠解決一系列此前被認為在短期內無法用現有人工智慧方法解決的問題。OpenAI能夠解決這些最棘手的問題(包括極其困難的「基礎」數學問題,即使是非常熟練的專業數學家也很難解決),是因為OpenAI投入了大量的計算資源——在某些情況下,花費3000多美元的計算能力來解決一個任務(相比之下,使用常規的Transformer模型,如果沒有思維鏈,單個任務的傳統推理成本不太可能超過幾美元)。

無需人工智慧天才也能意識到,這種進展創造了一種全新的擴展定律,它與最初的預訓練擴展定律完全不同。現在,您仍然想通過巧妙地利用儘可能多的計算資源和儘可能多的萬億高質量訓練數據來訓練最好的模型,但這只是這個新世界故事的開始;現在,您可以輕鬆地使用數量驚人的計算資源,僅從這些模型中進行推斷,以獲得非常高的置信度,或者嘗試解決需要「天才級」推理的極其棘手的問題,以避免所有潛在的陷阱,這些陷阱可能會導致普通法學碩士誤入歧途。

但為什麼Nvidia要獨佔所有好處呢?

即使你像我一樣相信人工智慧的未來前景幾乎難以想像,但問題仍然存在:「為什麼一家公司要從這項技術中獲取大部分利潤呢?」 歷史上確實有許多重要的新技術改變了世界,但主要贏家並不是那些在最初階段看起來最有前途的公司。儘管萊特兄弟的飛機公司發明並完善了這項技術,但如今這家公司的市值還不到100億美元,儘管它已經演變成多家公司。雖然福特公司如今擁有400億美元的可觀市值,但這只是英偉達當前市值的1.1%。

要理解這一點,就必須真正了解英偉達為何能佔據如此大的市場份額。畢竟,他們並不是唯一一家生產GPU的公司。AMD 生產性能不俗的 GPU,從數據上看,其電晶體數量、工藝節點等與 Nvidia 相當。當然,AMD GPU 的速度和先進程度不及 Nvidia GPU,但 Nvidia GPU 也並非快 10 倍或類似。事實上,就每FLOP的原始成本而言,AMD GPU 只有 Nvidia GPU 的一半。

從其他半導體市場來看,例如DRAM市場,儘管該市場高度集中,只有三家全球性公司(三星、美光、SK-海力士)具有實際意義,但DRAM市場的毛利率在周期底部為負值,在周期頂部約為60%,平均值在20%左右。與之相比,Nvidia最近幾個季度的整體毛利率約為75%,這主要是受到利潤率較低且商品化程度較高的消費級3D圖形類產品的拖累。

那麼,這怎麼可能呢?嗯,主要原因與軟體有關——在Linux上「直接可用」且經過嚴格測試且高度可靠的驅動程序(不像AMD,其Linux驅動程序以質量低且不穩定而臭名昭著),以及高度優化的開原始碼,例如PyTorch,經過調整後可在Nvidia GPU上很好地運行。

不僅如此,程式設計師用來編寫針對GPU優化的低級代碼的編程框架CUDA完全歸Nvidia所有,並已成為事實上的標準。如果您想聘請一群極富才華的程式設計師,他們知道如何利用GPU加速工作,並願意支付他們65萬美元/年的薪水,或者任何具有這種特殊技能的人的現行工資水平,那麼他們很可能會「思考」並使用CUDA工作。

除了軟體優勢,Nvidia的另一個主要優勢是所謂的互連——本質上,它是一種將數千個GPU高效連接在一起的帶寬,從而可以共同利用它們來訓練當今最前沿的基礎模型。簡而言之,高效訓練的關鍵在於讓所有GPU始終處於充分利用狀態,而不是空轉等待,直到收到下一步訓練所需的下一批數據。

帶寬要求非常高,遠遠高於傳統數據中心應用所需的典型帶寬。這種互連無法使用傳統的網絡設備或光纖,因為它們會帶來過多的延遲,無法提供每秒數TB的帶寬,而這是讓所有GPU保持持續忙碌所需的。

英偉達在2019年以69億美元的價格收購了以色列公司Mellanox,這是一個非常明智的決定,而正是這次收購為他們提供了行業領先的互連技術。請注意,與推理過程(包括COT推理)相比,互連速度與訓練過程(必須同時利用數千個GPU的輸出)的關係更為密切,推理過程只需使用少量GPU——您所需要的只是足夠的VRAM來存儲已訓練模型的量化(壓縮)模型權重。

可以說,這些是英偉達「護城河」的主要組成部分,也是它能夠長期保持如此高利潤率的原因(還有一個「飛輪效應」,即他們積極地將超常利潤投入到大量研發中,這反過來又幫助他們以比競爭對手更快的速度改進技術,因此他們在原始性能方面始終處於領先地位)。

但正如前面指出的,在所有其他條件相同的情況下,客戶真正關心的往往是每美元的性能(包括設備的前期資本支出成本和能源使用,即每瓦特的性能),儘管Nvidia的GPU確實是最快的,但如果單純以FLOPS衡量,它們並不是性價比最高的。

但問題是,其他因素並不相同,AMD的驅動程序很爛,流行的AI軟體庫在AMD GPU上運行得並不好,在遊戲領域之外,你找不到真正擅長AMD GPU的GPU專家(為什麼他們要費心呢,市場上對CUDA專家的需求更大?),由於AMD糟糕的互連技術,你不能有效地將數千個GPU連接在一起—— 這一切都意味著AMD在高端數據中心領域基本上沒有競爭力,而且短期內似乎也沒有很好的發展前景。

好吧,聽起來Nvidia前景一片大好,對吧?現在您知道為什麼它的股票估值如此之高了!但還有其他什麼隱憂嗎?好吧,我認為值得引起重大關注的隱憂並不多。有些問題在過去幾年中一直潛伏在幕後,但考慮到增長的速度,它們的影響微乎其微。但它們正準備可能向上發展。其他問題是最近(如過去兩周)才出現的,可能會顯著改變近期GPU需求增長的軌跡。

主要威脅

從宏觀層面來看,你可以這樣思考:Nvidia在相當長的一段時間內都在一個非常小眾的領域運營;他們的競爭對手非常有限,而且這些競爭對手的盈利能力不強,增長速度也不足以構成真正的威脅,因為他們沒有足夠的資本來真正對Nvidia這樣的市場領導者施加壓力。遊戲市場很大,而且還在增長,但並沒有帶來驚人的利潤或特別驚人的年增長率。

在2016-2017年左右,一些大型科技公司開始增加在機器學習和人工智慧方面的招聘和支出,但從總體上看,這從來都不是它們真正重要的項目——更像是「探月計劃」的研發支出。但2022年ChatGPT發布後,人工智慧領域的競爭真正開始,雖然距離現在只有兩年多時間,但就發展速度而言,這似乎已經過去了很久。

突然間,大公司準備以驚人的速度投入數十億美元。參加Neurips和ICML等大型研究會議的研究人員數量激增。以前可能研究金融衍生產品的聰明學生轉而研究Transformers,非執行工程職位(即不管理團隊的獨立貢獻者)的百萬美元以上薪酬待遇成為領先人工智慧實驗室的常態。

改變一艘大型遊輪的方向需要一段時間;即使你動作非常快,花費數十億美元,也需要一年或更長時間來建造全新的數據中心,訂購所有設備(交貨時間會延長),並完成所有設置和調試。即使是最聰明的程式設計師也需要很長時間才能真正進入狀態,熟悉現有的代碼庫和基礎設施。

但你可以想像,在這個領域投入的資金、人力和精力絕對是天文數字。Nvidia是所有參與者中最大的目標,因為它們是當今利潤的最大貢獻者,而不是在人工智慧主宰我們生活的未來。

因此,最重要的結論是「市場總會找到出路」,他們會找到替代性的、徹底創新的新方法來製造硬體,利用全新的理念來繞過障礙,從而鞏固英偉達的護城河。

硬體層面的威脅

例如,Cerebras公司所謂的「晶圓級」人工智慧訓練晶片,將整個300mm矽晶圓用於一個絕對巨大的晶片,該晶片在單個晶片上包含數量級更多的電晶體和內核(請參閱他們最近的博客文章,了解他們如何解決過去阻礙這種方法在經濟上實用的產量問題)。

為了說明這一點,如果您將Cerebras最新的WSE-3晶片與Nvidia的旗艦數據中心GPU H100進行比較,Cerebras晶片的總晶片面積為46225平方毫米,而H100僅為814平方毫米(按照行業標準,H100本身就是一個巨大的晶片);這是57倍的倍數!Cerebras晶片沒有像H100那樣在晶片上啟用132個「流式多處理器」內核,而是擁有約90萬個內核(當然,每個內核都更小,功能也更少,但相比之下,這個數字仍然非常龐大)。具體來說,在人工智慧領域,Cerebras晶片的FLOPS運算能力約為單個H100晶片的32倍。由於H100晶片的售價接近4萬美元,可想而知WSE-3晶片的價格也不便宜。

那麼,這有什麼意義呢?Cerebras沒有試圖採用類似的方法與Nvidia正面交鋒,也沒有試圖與Mellanox的互聯技術相媲美,而是採用了一種全新的方法來繞過互聯問題:當所有東西都在同一塊超大型晶片上運行時,處理器之間的帶寬問題就變得不那麼重要了。你甚至不需要相同級別的互連,因為一塊巨型晶片就可以取代成噸的H100。

而且Cerebras晶片在人工智慧推理任務中表現也非常出色。事實上,你今天就可以在這裡免費試用,並使用Meta非常著名的Llama-3.3-70B模型。它的響應速度基本上是即時的,每秒約1500個token。從比較的角度來看,與ChatGPT和Claude相比,每秒30個token以上的速度對用戶來說相對較快,甚至每秒10個token的速度也足夠快,基本上可以在生成響應的同時閱讀它。

Cerebras並不是唯一一家公司,還有其他公司,例如Groq(不要與埃隆·馬斯克的X AI訓練的Grok模型系列混淆)。Groq採用另一種創新方法來解決相同的基本問題。他們沒有試圖直接與英偉達的CUDA軟體堆棧競爭,而是開發了所謂的「張量處理單元」(TPU),專門用於深度學習模型所需的精確數學運算。他們的晶片圍繞「確定性計算」的概念設計,這意味著與傳統GPU不同,其晶片每次都以完全可預測的方式執行操作。

這聽起來可能只是一個小小的技術細節,但實際上對晶片設計和軟體開發都產生了巨大影響。由於時間完全確定,Groq可以優化其晶片,這是傳統GPU架構無法做到的。因此,在過去的6個多月裡,他們一直在展示Llama系列模型和其他開源模型每秒超過500個token的推理速度,遠遠超過了傳統GPU設置所能達到的速度。與 Cerebras 一樣,這款產品現已上市,您可以在此免費試用。

使用具有「推測解碼」功能的 Llama3 模型,Groq 能夠每秒生成 1320 個token,與 Cerebras 相當,遠遠超過了使用常規 GPU 的性能。現在,你可能會問,當用戶似乎對ChatGPT的速度(不到每秒1000個token)相當滿意時,每秒達到1000多個token的意義何在。事實上,這確實很重要。當您獲得即時反饋時,迭代速度會更快,並且不會像人類知識工作者那樣失去焦點。如果你通過API以編程方式使用模型,那麼它可以啟用全新類別的應用程式,這些應用程式需要多階段推理(前階段的輸出用作後續階段提示/推理的輸入),或者需要低延遲響應,例如內容審核、欺詐檢測、動態定價等。

但更根本的是,響應請求的速度越快,循環速度就越快,硬體就越忙。雖然 Groq 的硬體非常昂貴,一臺伺服器的成本高達 200 萬至 300 萬美元,但如果需求足夠大,讓硬體一直保持忙碌狀態,那麼每完成一個請求的成本就會大大降低。

就像Nvidia的CUDA一樣,Groq的優勢很大一部分來自其專有的軟體堆棧。他們能夠採用Meta、DeepSeek和Mistral等其他公司免費開發和發布的開源模型,並通過特殊方式對其進行分解,使其在特定硬體上運行速度更快。

與Cerebras一樣,他們做出了不同的技術決策來優化流程的某些特定方面,從而以一種完全不同的方式開展工作。以Groq為例,他們完全專注於推理層面的計算,而不是訓練:他們的所有特殊硬體和軟體只有在已經訓練過的模型上進行推理時,才能發揮巨大的速度和效率優勢。

但如果人們期待的下一個重大擴展定律是推理級計算,而COT模型的最大缺點是必須生成所有中間邏輯標記才能做出響應,從而導致延遲過高,那麼即使是一家只做推理計算的公司,只要其速度和效率遠超英偉達,也將在未來幾年內帶來嚴重的競爭威脅。至少,Cerebras和Groq可以蠶食當前股票估值中對於英偉達未來2-3年收入增長的過高預期。

除了這些特別創新但相對不為人知的初創公司競爭對手之外,英偉達的一些最大客戶本身也帶來了嚴峻的競爭,他們一直在製造專門針對人工智慧訓練和推理工作負載的定製晶片。其中最著名的是谷歌,該公司自2016年以來一直在開發自己的專有TPU。有趣的是,儘管谷歌曾短暫地向外部客戶出售TPU,但過去幾年裡,谷歌一直在內部使用其所有TPU,而且它已經推出了第六代TPU硬體。

亞馬遜也在開發自己的定製晶片,稱為Trainium2和Inferentia2。亞馬遜正在建設配備數十億美元英偉達GPU的數據中心,與此同時,他們也在其他使用這些內部晶片的數據中心投資數十億美元。他們有一個集群,正在為Anthropic上線,該集群有超過40萬塊晶片。

亞馬遜因完全搞砸了內部人工智慧模型開發而飽受批評,將大量內部計算資源浪費在最終沒有競爭力的模型上,但定製晶片是另一回事。同樣,他們並不一定需要自己的晶片比英偉達的更好、更快。他們需要的只是足夠好的晶片,但要以盈虧平衡的毛利率來製造晶片,而不是Nvidia在其H100業務上賺取的約90%以上的毛利率。

OpenAI還宣布了他們製造定製晶片的計劃,他們(與微軟一起)顯然是Nvidia數據中心硬體的最大用戶。似乎這還不夠,微軟自己宣布了自己的定製晶片!

而蘋果公司作為全球最有價值的技術公司,多年來一直以高度創新和顛覆性的定製晶片業務顛覆著人們的預期,如今,在每瓦性能方面,其定製晶片業務已經徹底擊敗了英特爾和AMD的CPU,而每瓦性能是移動(手機/平板電腦/筆記本電腦)應用中最重要的因素。多年來,他們一直在生產自己內部設計的GPU和「神經處理器」,儘管他們尚未真正證明這些晶片在其自定義應用之外的實用性,例如iPhone相機中使用的基於高級軟體的圖像處理。

雖然蘋果公司的關注點似乎與這些其他參與者有所不同,其關注點在於移動優先、消費者導向和「邊緣計算」,但如果蘋果公司最終在與OpenAI的新合同上投入足夠的資金,為iPhone用戶提供人工智慧服務,那麼你必須想像他們有團隊在研究如何製造自己的定製晶片用於推理/訓練(儘管考慮到他們的保密性,你可能永遠不會直接知道這件事!)。

現在,Nvidia的超級擴展器客戶群呈現出強大的冪律分布已經不是什麼秘密了,其中少數頂級客戶佔據了高利潤收入的絕大部分。當這些VIP客戶中的每一個都在專門為人工智慧訓練和推理製造自己的定製晶片時,我們應該如何看待這項業務的未來?

在思考這些問題時,你應該記住一個非常重要的事實:英偉達在很大程度上是一家基於智慧財產權的公司。他們不生產自己的晶片。製造這些令人難以置信的設備真正特殊的秘訣可能更多地來自臺積電和ASML,後者製造了用於製造這些前沿工藝節點晶片的特殊EUV光刻機。這一點至關重要,因為臺積電會將最先進的晶片賣給任何願意提供足夠的前期投資並保證一定數量的客戶。他們不在乎這些晶片是用於比特幣挖礦專用集成電路、圖形處理器、熱塑性聚氨酯、手機系統級晶片等。

Nvidia資深晶片設計師的年收入是多少,這些科技巨頭肯定能拿出足夠的現金和股票,吸引其中一些最優秀的人才跳槽。一旦他們擁有團隊和資源,他們就可以在2到3年內設計出創新的晶片(也許甚至沒有H100先進50%,但憑藉Nvidia的毛利率,他們還有很大的發展空間),而且多虧了臺積電,他們可以使用與Nvidia完全相同的工藝節點技術將這些晶片轉化為實際的矽片。

軟體威脅

似乎這些迫在眉睫的硬體威脅還不夠糟糕,過去幾年軟體領域也出現了一些進展,雖然起步緩慢,但如今發展勢頭強勁,可能會對Nvidia的CUDA軟體主導地位構成嚴重威脅。首先是AMD GPU的糟糕Linux驅動程序。還記得我們討論過AMD多年來為何不明智地允許這些驅動程序如此糟糕,卻坐視大量資金流失嗎?

有趣的是,臭名昭著的黑客喬治·霍茨(George Hotz,因在青少年時期越獄原版iPhone而聞名,目前是自動駕駛初創公司Comma.ai和人工智慧計算機公司Tiny Corp的執行長,Tiny Corp還開發了開源的tinygrad人工智慧軟體框架)最近宣布,他厭倦了處理AMD糟糕的驅動程序,迫切希望能夠在其TinyBox人工智慧計算機中使用成本較低的AMD GPU( 有多種型號,其中一些使用Nvidia GPU,而另一些則使用AMD GPU)。

事實上,他在沒有AMD幫助的情況下為AMD GPU製作了自己的自定義驅動程序和軟體堆棧;2025年1月15日,他通過公司的X帳戶發推說:「我們距離AMD完全自主的堆棧RDNA3彙編器僅一步之遙。我們有自己的驅動程序、運行時、庫和模擬器。(全部約12000行!)」鑑於他的過往記錄和技能,他們很可能在未來幾個月內完成所有工作,這將帶來許多激動人心的可能性,即使用AMD GPU來滿足各種應用的需求,而目前公司不得不為Nvidia GPU支付費用。

好吧,這只是AMD的一個驅動程序,而且還沒有完成。還有什麼呢?好吧,軟體方面還有其他一些領域的影響更大。首先,現在許多大型科技公司和開源軟體社區正在共同努力,開發更通用的AI軟體框架,其中CUDA只是眾多「編譯目標」之一。

也就是說,您使用更高級別的抽象來編寫軟體,系統本身可以自動將這些高級別結構轉換為超級優化的低級代碼,在CUDA上運行效果極佳。但由於是在這種更高級別的抽象層完成的,因此可以輕鬆地將其編譯為低級代碼,從而在許多其他GPU和TPU上運行良好,這些GPU和TPU來自各種供應商,例如各大科技公司正在開發的大量定製晶片。

這些框架中最著名的例子是MLX(主要由蘋果公司贊助)、Triton(主要由OpenAI贊助)和JAX(由谷歌開發)。MLX 尤其有趣,因為它提供了一個類似 PyTorch 的 API,可以在 Apple Silicon 上高效運行,展示了這些抽象層如何使 AI 工作負載能夠在完全不同的架構上運行。與此同時,Triton 越來越受歡迎,因為它允許開發人員編寫高性能代碼,這些代碼可以編譯為在各種硬體目標上運行,而無需了解每個平臺的底層細節。

這些框架允許開發人員使用強大的抽象功能編寫代碼,然後自動針對大量平臺進行編譯——這聽起來是不是更有效率?在實際運行代碼時,這種方法能夠提供更大的靈活性。

在20世紀80年代,所有最受歡迎、最暢銷的軟體都是用手工調製的彙編語言編寫的。例如,PKZIP壓縮實用程序就是手工製作的,以最大限度地提高速度,以至於用標準C程式語言編寫並使用當時最好的優化編譯器編譯的代碼版本,其運行速度可能只有手工調整的彙編代碼的一半。其他流行的軟體包,如WordStar、VisiCalc等,也是如此。

隨著時間的推移,編譯器變得越來越強大,每當CPU架構發生變化時(例如,從英特爾發布486到奔騰,等等),手寫彙編程序通常不得不被丟棄並重新編寫,只有最聰明的程式設計師才能勝任這項工作(就像CUDA專家在就業市場上比「普通」軟體開發人員更勝一籌一樣)。最終,事情逐漸趨於一致,手工彙編的速度優勢被用C或C++等高級語言編寫代碼的靈活性大大超過,因為後者依靠編譯器使代碼在給定的CPU上以最佳狀態運行。

如今,很少有人用彙編語言編寫新代碼。我相信人工智慧訓練和推理代碼最終也會發生類似的轉變,原因大致相同:計算機擅長優化,而靈活性和開發速度越來越成為重要的因素——尤其是如果它還能大幅節省硬體成本,因為您無需繼續支付「CUDA稅」,而這項稅收為英偉達帶來了90%以上的利潤。

然而,另一個可能會發生巨大變化的領域是CUDA本身可能最終成為一種高級抽象——一種類似於Verilog(作為描述晶片布局的行業標準)的「規範語言」,熟練的開發人員可以使用它來描述涉及大規模並行的高級算法(因為他們已經熟悉它,它結構合理,是通用語言等),但與通常的做法不同,這些代碼不是編譯後用於Nvidia GPU,而是作為原始碼輸入LLM,LLM可以將其轉換為新的Cerebras晶片、新的Amazon Trainium2或新的Google TPUv6等可以理解的任何低級代碼。這並不像你想像的那麼遙遠;使用OpenAI最新的O3模型,可能已經觸手可及,而且肯定會在一兩年內普遍實現。

理論上的威脅

也許最令人震驚的發展是前幾周發生的。這則新聞徹底震撼了人工智慧界,儘管主流媒體對此隻字未提,但它在推特上卻成為知識分子的熱門話題:一家名為DeepSeek的中國初創公司發布了兩款新模型,其性能水平基本可與OpenAI和Anthropic的最佳模型相媲美(超越了Meta Llama3模型和其他較小的開源模型,如Mistral)。這些模型分別名為DeepSeek-V3(基本上是對GPT-4o和Claude3.5 Sonnet的回應)和DeepSeek-R1(基本上是對OpenAI的O1模型的回應)。

為什麼這一切如此令人震驚?首先,DeepSeek是一家據說只有不到200名員工的小公司。據說他們最初是一家類似於TwoSigma或RenTec的量化交易對衝基金,但在中國加強監管該領域後,他們利用自己的數學和工程專長轉向人工智慧研究。但事實是,他們發布了兩份非常詳細的技術報告,分別是DeepSeek-V3和DeepSeekR1。

這些是技術含量很高的報告,如果你對線性代數一竅不通,可能就很難看懂。但你應該嘗試的是在AppStore上免費下載DeepSeek應用,使用谷歌帳戶登錄並安裝,然後試一試(你也可以在安卓系統上安裝),或者直接在桌面上用瀏覽器試試。確保選擇「DeepThink」選項以啟用思維鏈(R1模型),並讓它用簡單的語言解釋技術報告中的部分內容。

這同時會告訴你一些重要的事情:

首先,這個模型是絕對合法的。人工智慧基準測試中有很多虛假成分,這些測試通常被操縱,使模型在基準測試中表現出色,但在實際測試中表現不佳。谷歌在這方面無疑是最大的罪魁禍首,他們總是吹噓自己的LLM有多神奇,但事實上,這些模型在現實世界測試中表現糟糕,甚至無法可靠地完成最簡單的任務,更不用說具有挑戰性的編碼任務了。DeepSeek模型則不同,其響應連貫、有力,與OpenAI和Anthropic的模型完全處於同一水平。

其次,DeepSeek不僅在模型質量方面取得了重大進展,更重要的是在模型訓練和推理效率方面取得了重大進展。通過非常接近硬體,並通過將一些獨特且非常巧妙的優化組合在一起,DeepSeek能夠以一種效率顯著提高的方式使用GPU訓練這些令人難以置信的模型。根據一些測量,DeepSeek的效率比其他前沿模型高出約45倍。

DeepSeek聲稱訓練DeepSeek-V3的全部成本僅為500多萬美元。按照OpenAI、Anthropic等公司的標準,這根本不算什麼,因為這些公司早在2024年就達到了單個模型訓練成本超過1億美元的水平。

這怎麼可能?這家中國小公司怎麼可能完全超越我們領先的人工智慧實驗室的所有最聰明的人,這些實驗室擁有100倍以上的資源、員工人數、工資、資本、GPU等?中國不是應該被拜登對GPU出口的限制所削弱嗎?好吧,細節相當技術性,但我們至少可以概括地描述一下。也許事實證明,DeepSeek相對較弱的GPU處理能力恰恰是提高其創造力和聰明才智的關鍵因素,因為「需求是發明之母」嘛。

一項重大創新是他們先進的混合精度訓練框架,該框架允許他們在整個訓練過程中使用8位浮點數(FP8)。大多數西方人工智慧實驗室使用「全精度」32位數字進行訓練(這基本上指定了描述人工神經元輸出時可能的漸變數量;FP8中的8位可以存儲比您想像中更廣泛的數字——它不僅限於常規整數中256個不同大小的等量,而是使用巧妙的數學技巧來存儲非常小和非常大的數字——儘管自然精度不如32位。)主要的權衡是,雖然FP32可以在很大的範圍內以驚人的精度存儲數字,但FP8為了節省內存和提高性能而犧牲了一些精度,同時仍為許多AI工作負載保持足夠的精度。

DeepSeek通過開發一個聰明的系統解決了這個問題,該系統將數字分解為用於激活的小塊和用於權重的塊,並在網絡的關鍵點策略性地使用高精度計算。與其他實驗室先進行高精度訓練,然後再進行壓縮(在此過程中會損失一些質量)不同,DeepSeek的FP8原生方法意味著他們可以在不影響性能的情況下節省大量內存。當您使用數千個GPU進行訓練時,每個GPU的內存需求大幅減少,這意味著總體需要的GPU數量大大減少。

另一個重大突破是他們的多標記預測系統。大多數基於Transformer的LLM模型通過預測下一個標記來推斷——一次一個標記。

DeepSeek想出了如何預測多個標記,同時保持單標記預測的質量。他們的方法在這些額外的標記預測中達到了約85-90%的準確率,有效地將推斷速度提高了一倍,而不會犧牲太多質量。巧妙之處在於,他們保持了預測的完整因果鏈,因此模型不僅僅是猜測,而是進行結構化的、上下文相關的預測。

他們最具創新性的發展之一是他們所謂的多頭潛在注意力(MLA)。這是他們在處理所謂的鍵值索引方面的突破,鍵值索引基本上是單個token在Transformer架構中的注意力機制中的表示方式。雖然從技術角度來說這有點過於複雜,但可以說這些KV索引是訓練和推理過程中VRAM的主要用途之一,也是為什麼需要同時使用數千個GPU來訓練這些模型的部分原因——每個GPU的最大VRAM為96GB,而這些索引會把這些內存吃個精光。

他們的MLA系統找到了一種方法來存儲這些索引的壓縮版本,這些索引在捕獲基本信息的同時使用更少的內存。最精彩的部分是這種壓縮直接構建在模型學習的方式中——這不是他們需要做的某個單獨步驟,而是直接構建在端到端訓練管道中。這意味著整個機制是「可微分的」,並且能夠直接使用標準優化器進行訓練。之所以能成功,是因為這些模型最終找到的底層數據表示遠低於所謂的「環境維度」。因此,存儲完整的KV索引是一種浪費,儘管其他人基本上都是這麼做的。

不僅因為存儲了超出實際需求的海量數據而浪費大量空間,導致訓練內存佔用和效率大幅提高(再次強調,訓練世界級模型所需的GPU數量大大減少),而且實際上可以提高模型質量,因為它可以起到「調節器」的作用,迫使模型關注真正重要的內容,而不是將浪費的容量用於適應訓練數據中的噪聲。因此,您不僅節省了大量內存,而且模型的性能甚至可能更好。至少,您不會因為節省大量內存而嚴重影響性能,而這通常是您在人工智慧訓練中面臨的權衡。

他們還通過DualPipe算法和自定義通信內核在GPU通信效率方面取得了重大進展。該系統智能地重疊計算和通信,在任務之間仔細平衡GPU資源。他們只需要大約20個GPU的流多處理器(SM)進行通信,其餘的則用於計算。其結果是GPU利用率遠高於典型的訓練設置。

他們做的另一件非常聰明的事情是使用所謂的混合專家(MOE)Transformer架構,但圍繞負載平衡進行了關鍵創新。您可能知道,人工智慧模型的大小或容量通常以模型包含的參數數量來衡量。參數只是一個數字,用於存儲模型的某些屬性;例如,特定人工神經元相對於另一個神經元的「權重」或重要性,或者特定標記根據其上下文(在「注意力機制」中)的重要性等。

Meta最新的Llama3模型有幾種大小,例如:10億參數版本(最小)、70B參數模型(最常用的)、甚至還有405B參數的大型模型。對於大多數用戶來說,這種最大的模型實用性有限,因為你的電腦需要配備價值數萬美元的GPU,才能以可接受的速度運行推理,至少如果你部署的是原始的全精度版本。因此,這些開源模型在現實世界中的大多數使用和興奮點都在8B參數或高度量化的70B參數級別,因為這是消費級Nvidia 4090 GPU可以容納的,現在你可以花不到1000美元買到它。

那麼,這些有什麼意義呢?從某種意義上說,參數的數量和精度可以告訴你模型內部存儲了多少原始信息或數據。請注意,我並不是在談論推理能力,或者模型的「智商」:事實證明,即使是參數數量很少的模型,在解決複雜的邏輯問題、證明平面幾何定理、SAT數學問題等方面,也能表現出卓越的認知能力。

但是,那些小型模型不一定能夠告訴你司湯達每部小說中每一個情節轉折的方方面面,而真正的大型模型則有可能做到這一點。這種極端知識水平的「代價」是,模型變得非常笨重,難以訓練和推理,因為為了對模型進行推理,你總是需要同時將405B個參數(或任何參數數量)中的每一個都存儲在GPU的VRAM中。

MOE模型方法的優勢在於,你可以將大型模型分解為一系列較小的模型,每個模型都擁有不同的、不重疊(至少不完全重疊)的知識。DeepSeek的創新之處在於開發了一種他們稱之為「無輔助損失」的負載均衡策略,該策略能夠保持專家的高效利用,而不會出現負載均衡通常帶來的性能下降。然後,根據推理請求的性質,您可以將推理智能地將路由到該集合中最能夠回答該問題或解決該任務的較小模型中的「專家」模型。

你可以把它想像成一個專家委員會,他們擁有各自的專業知識領域:一個可能是法律專家,另一個可能是計算機科學專家,還有一個可能是商業戰略專家。因此,如果有人問線性代數的問題,你不會把它交給法律專家。當然,這只是非常粗略的類比,實際上並不像這樣。

這種方法的真正優勢在於,它允許模型包含大量知識,而不會非常笨重,因為即使所有專家的參數總數很高,但只有一小部分參數在任何特定時間處於「活躍」狀態,這意味著你只需要將權重的小子集存儲在VRAM中即可進行推理。以DeepSeek-V3為例,它有一個絕對龐大的MOE模型,包含671B個參數,比最大的Llama3模型還要大得多,但其中只有37B個參數在任何特定時間處於活躍狀態——足以容納兩個消費級Nvidia 4090 GPU(總成本不到2000美元)的VRAM,而不需要一個或多個H100 GPU,每個售價約4萬美元。

有傳言稱ChatGPT和Claude都使用MoE架構,有消息透露GPT-4共有1.8萬億個參數,分布在8個模型中,每個模型包含2200億個參數。儘管這比將1.8萬億個參數全部放入VRAM要容易得多,但由於使用的內存量巨大,僅運行模型就需要多個H100級GPU。

除了上述內容,技術論文還提到了其他幾項關鍵優化。其中包括其極其節省內存的訓練框架,該框架可避免張量並行,在反向傳播期間重新計算某些操作,而不是存儲它們,並在主模型和輔助預測模塊之間共享參數。所有這些創新的總和,當分層在一起時,導致了網上流傳的約45倍的效率提升數字,我完全願意相信這些數字是正確的。

DeepSeek的API成本就是一個有力的佐證:儘管DeepSeek的模型性能幾乎達到同類最佳,但通過其API進行推理請求的費用比OpenAI和Anthropic的同類模型低95%。從某種意義上說,這有點像將Nvidia的GPU與競爭對手的新定製晶片進行比較:即使它們不是那麼好,但性價比卻高得多,因此,只要你能確定性能水平,並證明它足以滿足你的要求,而且API可用性和延遲也足夠好(到目前為止,儘管由於這些新模型的性能而出現了令人難以置信的需求激增,但人們對DeepSeek的基礎設施表現感到驚訝)。

但與Nvidia的情況不同,Nvidia的成本差異是由於他們在數據中心產品上獲得了90%以上的壟斷毛利,而DeepSeek API相對於OpenAI和Anthropic API的成本差異可能只是因為它們的計算效率提高了近50倍(在推理方面甚至可能遠遠不止於此——在訓練方面,效率提高了約45倍)。事實上,OpenAI和Anthropic是否從API服務中獲得了豐厚利潤尚不清楚——他們可能更關注收入增長,以及通過分析收到的所有API請求來收集更多數據。

在繼續之前,我必須指出,很多人猜測DeepSeek在GPU數量和訓練這些模型所花費的GPU時間上撒了謊,因為他們實際上擁有比他們聲稱的更多的H100,因為這些卡有出口限制,他們不想給自己惹麻煩,也不想損害自己獲得更多這些卡的機會。雖然這當然有可能,但我認為他們更有可能說的是實話,他們只是通過在訓練和推理方法上表現出極高的聰明才智和創造力,才取得了這些令人難以置信的結果。他們解釋了他們的做法,我猜想他們的結果被其他實驗室的其他研究人員廣泛複製和證實只是時間問題。

真正會思考的模型

更新的R1模型和技術報告可能會更令人震驚,因為它們在思維鏈上擊敗了Anthropic,現在除了OpenAI之外,基本上只有它們使這項技術大規模運作。但請注意,OpenAI在2024年9月中旬才發布O1預覽模型。那只是大約4個月前的事情!有一點你必須牢記,OpenAI對這些模型在低層次上的實際運作方式諱莫如深,除了微軟等籤署了嚴格保密協議的合作夥伴外,不會向任何人公開實際的模型權重。而DeepSeek的模型則完全不同,它們完全開源,且許可寬鬆。他們發布了非常詳細的技術報告,解釋了這些模型的工作原理,並提供了代碼,任何人都可以查看並嘗試複製。

憑藉R1,DeepSeek基本上破解了人工智慧領域的一個難題:讓模型逐步推理,而不依賴於大量監督數據集。他們的DeepSeek-R1-Zero實驗表明了這一點:使用純強化學習與精心設計的獎勵函數,他們設法讓模型完全自主地發展複雜的推理能力。這不僅僅是解決問題——模型有機地學會了生成長鏈思維、自我驗證其工作,並將更多計算時間分配給更困難的問題。

這裡的技術突破是他們新穎的獎勵建模方法。他們沒有使用複雜的神經獎勵模型,因為這種模型可能導致「獎勵黑客」(即模型通過虛假方式提高獎勵,但實際並不能提高模型的真實性能),而是開發了一種基於規則的巧妙系統,將準確性獎勵(驗證最終答案)與格式獎勵(鼓勵結構化思維)相結合。事實證明,這種更簡單的方法比其他人嘗試過的基於流程的獎勵模型更強大、更可擴展。

特別令人著迷的是,在訓練過程中,他們觀察到了所謂的「頓悟時刻」,即模型在遇到不確定性時自發地學會中途修改其思維過程。這種突發行為並不是預先編好的程序,而是模型與強化學習環境相互作用自然產生的。模型會真正地停下來,標記推理中的潛在問題,然後採用不同的方法重新開始,而這一切都不是經過明確訓練的。

完整的R1模型建立在這些見解的基礎上,在應用其強化學習技術之前,引入他們所謂的「冷啟動」數據——一小組高質量的示例。他們還解決了推理模型中的一大難題:語言一致性。之前嘗試的思維鏈推理通常會導致模型混合使用多種語言或產生不連貫的輸出。DeepSeek通過在RL訓練期間巧妙地獎勵語言一致性解決了這一問題,以較小的性能損失換取更易讀且更一致的輸出。

結果令人難以置信:在AIME 2024(最具挑戰性的高中數學競賽之一)上,R1的準確率達到79.8%,與OpenAI的O1模型相當。在MATH-500上,它達到了97.3%,在Codeforces編程競賽中取得了96.3%的分數。但也許最令人印象深刻的是,他們設法將這些能力提煉為更小的模型:他們的14B參數版本比許多大幾倍的模型表現更好,這表明推理能力不僅與原始參數數量有關,還與你如何訓練模型處理信息有關。

餘波

最近在Twitter和Blind(一家企業謠言網站)上流傳的小道消息是,這些模型完全出乎Meta的意料,它們的表現甚至超過了仍在訓練中的新Llama4模型。顯然,Meta內部的Llama項目已經引起了高層技術主管的注意,因此他們有大約13個人在研究Llama,而他們每個人的年薪總和都超過了DeepSeek-V3模型的訓練成本總和,而DeepSeek-V3模型的性能比Llama更好。你如何一本正經地向扎克伯格解釋?當更好的模型只用2000個H100訓練,成本還不到500萬美元時,扎克伯格卻向Nvidia投入數十億美元購買10萬個H100,他怎麼能保持微笑?

但您最好相信,Meta和其他大型人工智慧實驗室正在拆解這些DeepSeek模型,研究技術報告中的每個單詞和他們發布的開原始碼中的每一行,拼命嘗試將這些相同的技巧和優化整合到他們自己的訓練和推理流程中。那麼,這一切的影響是什麼?好吧,天真地認為訓練和推理計算的總需求應該除以某個大數字。也許不是45,而是25甚至30?因為無論你之前認為你需要多少,現在都少了很多。

樂觀主義者可能會說:「你只是在談論一個簡單的比例常數,一個單一的倍數。當你面對指數增長曲線時,這些東西會很快消失,最終不會那麼重要。」這確實有一定道理:如果人工智慧真的像我所期望的那樣具有變革性,如果這項技術的實際效用是以數萬億來衡量的,如果推斷時間計算是新的擴展定律,如果我們將擁有大量人形機器人,它們將不斷進行大量的推斷,那麼也許增長曲線仍然非常陡峭和極端,英偉達仍然遙遙領先,它仍然會成功。

但Nvidia在未來幾年內會有很多好消息,以維持其估值,當你把這些因素都考慮進去時,我至少開始對以2025年預計銷售額的20倍來購買其股票感到非常不安。如果銷售增長稍微放緩會怎樣?如果增長率不是100%以上,而是85%呢?如果毛利率從75%下降到70%,這對半導體公司來說仍然很高,會發生什麼?

總結

從宏觀層面來看,英偉達面臨著前所未有的競爭威脅,這使得其20倍遠期銷售和75%的毛利率越來越難以證明其高估值是合理的。該公司在硬體、軟體和效率方面的優勢都出現了令人擔憂的裂縫。全世界——地球上成千上萬最聰明的人,在數不清的數十億美元資本資源的支持下——正試圖從各個角度攻擊他們。

在硬體方面,Cerebras和Groq的創新架構表明,英偉達的互聯優勢(其數據中心統治地位的基石)可以通過徹底重新設計來規避。Cerebras的晶圓級晶片和Groq的確定性計算方法無需NVIDIA複雜的互連解決方案即可提供令人信服的性能。更傳統的是,NVIDIA的每個主要客戶(谷歌、亞馬遜、微軟、Meta、蘋果)都在開發定製晶片,這些晶片可能會蠶食高利潤的數據中心收入。這些不再是實驗項目——僅亞馬遜一家就正在為Anthropic構建大規模基礎設施,其中包含超過40萬塊定製晶片。

軟體護城河似乎同樣脆弱。MLX、Triton和JAX等新的高級框架正在削弱CUDA的重要性,而改進AMD驅動程序的努力可能會開發出更便宜的硬體替代方案。高級抽象的趨勢反映了彙編語言如何讓位於C/C++,這表明CUDA的主導地位可能比想像的更短暫。最重要的是,我們看到基於LLM的代碼翻譯技術正在興起,它能夠自動移植CUDA代碼,使其在任何硬體目標上運行,從而有可能消除英偉達(NVIDIA)最強大的鎖定效應之一。

也許最具破壞性的是DeepSeek最近在效率方面取得的突破,它以大約1/45的計算成本實現了與模型性能相當的性能。這表明整個行業一直在大量超額配置計算資源。再加上通過思維鏈模型出現更高效的推理架構,計算的總需求可能大大低於目前的預測。這裡的經濟學原理很有說服力:當DeepSeek能夠達到GPT-4級別的性能,而API調用費用卻降低95%時,這表明要麼英偉達的客戶正在不必要地燒錢,要麼利潤率必須大幅下降。

臺積電將為任何資金雄厚的客戶生產具有競爭力的晶片,這為英偉達的架構優勢設定了上限。但更根本的是,歷史表明,市場最終會找到繞過人為瓶頸的方法,從而產生超額利潤。綜合來看,這些威脅表明,英偉達要維持目前的增長軌跡和利潤率,面臨的道路比其估值所暗示的要崎嶇得多。有五個不同的攻擊方向——架構創新、客戶垂直整合、軟體抽象化、效率突破和製造民主化——至少有一個成功對英偉達的利潤率或增長率產生重大影響的可能性似乎很高。以目前的估值來看,市場並未考慮到這些風險。

  • Related Posts

    Nubit、Babylon與Bitlayer究竟誰更「正義」?

    作者:NingNing 來源:X,@0xNing0x 比特幣…

    速覽Binance HODLer第14期空投項目 Babylon (BABY)

    資料來源:幣安官網、 Babylon官網、白皮書;整理:比特…

    發佈留言

    發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

    You Missed

    川普可以將鮑威爾炒魷魚嗎?會帶來什麼經濟風險?

    • By jakiro
    • 18 4 月, 2025
    • 0 views
    川普可以將鮑威爾炒魷魚嗎?會帶來什麼經濟風險?

    Glassnode:我們正在經歷牛熊轉換嗎?

    • By jakiro
    • 18 4 月, 2025
    • 0 views
    Glassnode:我們正在經歷牛熊轉換嗎?

    The Post Web加速器首批8個入選項目速覽

    • By jakiro
    • 17 4 月, 2025
    • 5 views
    The Post Web加速器首批8個入選項目速覽

    Nubit、Babylon與Bitlayer究竟誰更「正義」?

    • By jakiro
    • 17 4 月, 2025
    • 5 views
    Nubit、Babylon與Bitlayer究竟誰更「正義」?

    金色百科 | 貿易戰是如何影響股票和加密市場的?

    • By jakiro
    • 17 4 月, 2025
    • 5 views
    金色百科 | 貿易戰是如何影響股票和加密市場的?

    金色百科 | BTC是貿易戰期間的避風港嗎?

    • By jakiro
    • 16 4 月, 2025
    • 8 views
    金色百科 | BTC是貿易戰期間的避風港嗎?
    Home
    News
    School
    Search