
作者:Lucas Tcheyan、Arjun Yenamandra,來源:Galaxy Research,編譯:比特鏈視界
簡介
去年,Galaxy Research 發表了首篇關於加密貨幣與人工智慧交叉領域的文章。文章探討了加密貨幣無需信任和無需許可的基礎設施如何成為人工智慧創新的基礎。其中包括:為應對圖形處理器 (GPU) 短缺而興起的處理能力(或稱計算)去中心化市場的出現;零知識機器學習 (zkML) 早期在可驗證的鏈上推理方面的應用;以及自主人工智慧代理簡化複雜交互並使用加密貨幣作為原生交換媒介的潛力。
當時,許多此類舉措尚處於萌芽階段,只是一些引人注目的概念驗證,暗示著其相比中心化方案具有實際優勢,但規模尚未擴大到足以重塑人工智慧格局。然而,自那以後的一年裡,去中心化人工智慧在實現方面取得了有意義的進展。為了抓住這一勢頭並發掘最具前景的進展,Galaxy Research 將在未來一年發布一系列文章,深入探討加密+人工智慧前沿領域的特定垂直領域。
本文首發於去中心化訓練,重點介紹致力於在全球範圍內實現基礎模型無許可訓練的項目。這些項目的動機是雙重的。從實踐角度來看,他們認識到全球大量閒置的 GPU 可以用於模型訓練,從而為世界各地的 AI 工程師提供原本難以承受的訓練流程,並使開源 AI 開發成為現實。從理念角度來看,這些團隊的動機在於領先的中心化 AI 實驗室對我們這個時代最重要的技術革命之一的嚴格控制,以及創造開放替代方案的迫切需求。
更廣泛地講,對於加密領域而言,實現基礎模型的去中心化訓練和後續訓練,是構建完全鏈上AI堆棧的關鍵一步,該堆棧無需許可,且在每一層均可訪問。GPU 市場可以接入模型,提供訓練和推理所需的硬體。zkML 提供商可用於驗證模型輸出並保護隱私。AI 代理可以作為可組合的構建塊,將模型、數據源和協議組合成更高階的應用程式。
本報告探討了去中心化人工智慧協議的底層架構、其旨在解決的技術問題以及去中心化訓練的前景。加密貨幣與人工智慧的底層前提與一年前相比保持不變。加密貨幣為人工智慧提供了一個無需許可、無需信任且可組合的價值轉移結算層。現在的挑戰是證明去中心化方法能夠比中心化方法帶來實際優勢。
模型訓練基礎
在深入了解去中心化訓練的最新進展之前,有必要先對大型語言模型(LLM)及其底層架構有一個基本的了解。這將有助於讀者理解這些項目的工作原理,以及它們試圖解決的主要問題。
Transformer
大型語言模型 (LLM)(例如ChatGPT)由一種稱為Transformer的架構提供支持。Transformer 最早在 2017 年穀歌的一篇論文中提出,是人工智慧開發領域最重要的創新之一。簡而言之,Transformer 會提取數據(稱為token),並應用各種機制來學習這些 token 之間的關係。
詞條之間的關係使用權重進行建模。權重可以被認為是構成模型的數百萬到數萬億個旋鈕,它們不斷被調整,直到能夠一致地預測序列中的下一個詞條。訓練完成後,模型基本上可以捕捉人類語言背後的模式和含義。
Transformer訓練的關鍵組成部分包括:
-
前向傳遞: 在訓練過程的第一步,Transformer 會從更大的數據集中輸入一批 token。基於這些輸入,模型會嘗試預測下一個 token 應該是什麼。在訓練開始時,模型的權重是隨機的。
-
損失計算: 前向傳播預測隨後會用於計算損失分數,該分數衡量這些預測與輸入模型的原始數據批次中實際標記的差距。換句話說,模型在前向傳播過程中產生的預測與用於訓練它的更大數據集中的實際標記相比如何?在訓練過程中,目標是降低這個損失分數,以提高模型的準確性。
-
反向傳播: 然後使用損失分數計算每個權重的梯度。這些梯度告訴模型如何在下一次前向傳播之前調整權重以減少損失。
-
Optimizer 更新: Optimize r 算法讀取這些梯度並調整每個權重以減少損失。
-
重複: 重複上述步驟,直到所有數據都已消耗並且模型開始達到收斂 – 換句話說,當進一步的優化不再產生顯著的損失減少或性能改進時。
訓練(預訓練和後訓練)
完整的模型訓練過程包含兩個獨立的步驟:預訓練和後訓練。上述步驟是預訓練過程的核心組成部分。完成後,它們會生成一個預先訓練的基礎模型,通常稱為基礎模型。
然而,模型在預訓練後通常需要進一步改進,這被稱為後訓練。後訓練用於以各種方式進一步改進基礎模型,包括提高其準確性或針對特定用例(例如翻譯或醫學診斷)進行定製。
後訓練是讓大型語言模型 (LLM)成為如今強大工具的關鍵一步。後訓練有幾種不同的方法。其中最流行的兩種是:
-
監督微調 (SFT): SFT 與上述預訓練過程非常相似。主要區別在於,基礎模型基於更精心策劃的數據集或提示和答案進行訓練,因此它可以學習遵循特定指令或專注於某個領域。
-
強化學習 (RL): RL 並非通過輸入新數據來改進模型,而是通過對模型的輸出進行獎勵評分,並讓模型更新權重以最大化該獎勵。最近,推理模型(下文將介紹)已使用 RL 來改進其輸出。近年來,隨著預訓練擴展問題不斷湧現,在訓練後使用 RL 和推理模型取得了重大進展,因為它無需額外數據或大量計算即可顯著提升模型性能。
具體來說,RL 後訓練非常適合解決分散訓練中面臨的障礙(如下所述)。這是因為在 RL 中大多數時間,模型使用前向傳遞(模型進行預測但尚未改變自身)生成大量輸出。這些前向傳遞不需要機器之間的協調或通信,並且可以異步完成。它們也是可並行的,這意味著它們可以分解為可在多個 GPU 上同時執行的獨立子任務。這是因為每個 rollout 都可以獨立計算,只需添加計算即可通過訓練運行來擴大吞吐量。只有在選出最佳答案後,模型才會更新其內部權重,從而降低機器需要同步的頻率。
模型訓練完成後,使用它來生成輸出的過程稱為推理。與需要調整數百萬甚至數十億個權重的訓練不同,推理會保持這些權重不變,並簡單地將它們應用於新的輸入。對於大型語言模型 (LLM) 來說,推理意味著獲取一個提示,將其運行到模型的各個層,並一步一步地預測最可能的下一個標記。由於推理不需要反向傳播(根據模型的誤差調整權重的過程)或權重更新,因此它在計算方面的要求遠低於訓練,但由於現代模型的規模龐大,它仍然是資源密集型的。
簡而言之:推理是聊天機器人、代碼助手和翻譯工具等應用程式的驅動力。在這個階段,模型將其「學到的知識」付諸實踐。
訓練開銷
促進上述訓練過程需要資源密集型,並且需要高度專業化的軟體和硬體才能大規模運行。世界領先的人工智慧實驗室的投入已達到前所未有的水平,從數億美元到數十億美元不等。OpenAI 執行長 Sam Altman表示,GPT-4 的訓練成本超過1 億美元,而 Anthropic 執行長 Dario Amodei 則表示,超過10 億美元的訓練項目已在進行中。
這些成本的很大一部分來自 GPU。像 NVIDIA 的 H100 或 B200 這樣的頂級 GPU,單價高達 3 萬美元,據報導,OpenAI 計劃到 2025 年底部署超過一百萬個 GPU。然而,僅有 GPU 的強大功能是不夠的。這些系統必須部署在配備超高速通信基礎設施的高性能數據中心。NVIDIA NVLink 等技術支持伺服器內 GPU 之間的快速數據交換,而 InfiniBand 則連接伺服器集群,使它們能夠作為單一、統一的計算結構運行。
DGX H100樣本架構中的NVLink將系統內的GPU(淺綠色矩形)連接起來,而InfiniBand則將伺服器(綠色線條)連接成一個統一的網絡
因此,大多數基礎模型都由 OpenAI、Anthropic、Meta、Google 和 xAI 等中心化 AI 實驗室開發。只有這樣的巨頭才擁有訓練所需的豐富資源。雖然這帶來了模型訓練和性能的重大突破,但也將領先的基礎模型的開發控制權集中到了少數幾個實體手中。此外,越來越多的證據表明,縮放定律可能正在發揮作用,限制了僅僅通過增加計算或數據來增強預訓練模型智能的有效性。
為了應對這一挑戰,過去幾年來,一批人工智慧工程師開始開發新的模型訓練方法,試圖解決這些技術複雜性並減少巨大的資源需求。本文將這種努力稱為「去中心化訓練」。
去中心化和分布式訓練
比特幣的成功證明了,計算和資本可以以去中心化的方式進行協調,從而保障大型經濟網絡的安全。去中心化訓練旨在利用加密貨幣的特性,包括無需許可、無需信任和激勵機制,構建去中心化網絡,從而訓練出與中心化提供商媲美的強大基礎模型。
在去中心化訓練中,位於世界各地不同位置的節點在無需許可、受激勵的網絡上工作,為人工智慧模型的訓練做出貢獻。這與分布式訓練不同,分布式訓練指的是模型在不同地域進行訓練,但由一個或多個獲得許可(即通過白名單流程)的實體進行。然而,去中心化訓練的可行性必須建立在分布式訓練之上。許多中心化實驗室意識到其訓練設置存在嚴格限制,已開始探索實現分布式訓練的方法,以獲得與現有設置相當的結果。
有一些實際障礙阻礙了去中心化訓練成為現實:
-
通信開銷: 當節點在地理位置上分散時,它們無法訪問上述通信基礎設施。去中心化訓練需要考慮標準的網速、大量數據的頻繁傳輸以及訓練過程中 GPU 的同步。
-
驗證: 去中心化訓練網絡本質上是無需許可的,旨在允許任何人貢獻計算能力。因此,它們必須開發驗證機制,以防止貢獻者試圖通過錯誤或惡意的輸入破壞網絡,或利用系統漏洞在不貢獻有效工作的情況下獲取獎勵。
-
計算 :無論規模大小,去中心化網絡都必須匯聚足夠的計算能力來訓練模型。雖然這在某種程度上發揮了去中心化網絡的優勢,因為這些網絡的設計初衷是讓任何擁有 GPU 的人都能參與訓練過程,但這也帶來了複雜性,因為這些網絡必須協調異構計算。
-
激勵/資金/所有權和貨幣化: 去中心化訓練網絡必須設計激勵機制和所有權/貨幣化模型,以有效確保網絡的完整性,並獎勵計算提供者、驗證者和模型設計者的貢獻。這與中心化實驗室形成了鮮明對比,在中心化實驗室中,模型的構建和貨幣化由一家公司完成。
儘管存在這些限制,許多項目仍在推行去中心化訓練,因為他們認為基礎模型的控制權不應掌握在少數幾家公司手中。他們的目標是應對中心化訓練帶來的風險,例如由於依賴少數中心化產品而導致的單點故障;數據隱私和審查制度;可擴展性;以及人工智慧的一致性和偏見。更廣泛地說,他們認為開源人工智慧開發是必需品,而非可有可無。如果沒有開放、可驗證的基礎設施,創新將受到抑制,訪問權限將僅限於少數特權階層,社會將繼承受狹隘企業激勵機制塑造的人工智慧系統。從這個角度來看,去中心化訓練不僅關乎構建具有競爭力的模型,也關乎創建一個反映集體利益而非專有利益的彈性、透明和參與性的生態系統。
項目概述
下面,我們將深入概述幾個去中心化訓練項目的底層機制。
Nous Researc
背景
Nous Research 成立於 2022 年,是一家開源 AI 研究機構。該團隊最初是一個由開源 AI 研究人員和開發者組成的非正式團體,致力於解決開源 AI 代碼的局限性。其使命是「創造並提供最佳的開源模型」。
團隊很早就將去中心化訓練視為主要障礙。具體來說,他們意識到,GPU 的訪問以及協調 GPU 之間通信的工具主要是為了迎合大型中心化 AI 公司而開發的,這使得資源受限的組織幾乎沒有空間參與到有意義的開發中。例如,NVIDIA 最新的Blackwell GPU(例如 B200)可以使用 NVLink 交換系統以高達每秒 1.8 TB 的速度相互通信。這可與主流網際網路基礎設施的總帶寬相媲美,並且只有在中心化、數據中心規模的部署中才能實現。因此,小型或分布式網絡幾乎不可能在不重新思考通信策略的情況下達到大型 AI 實驗室的性能。
在著手解決去中心化訓練問題之前,Nous 已經為人工智慧領域做出了重大貢獻。2023 年 8 月,Nous發表了《YaRN:大型語言模型的高效上下文窗口擴展》。這篇論文解決了一個簡單但重要的問題:大多數人工智慧模型一次只能記住和處理固定數量的文本(即它們的「上下文窗口」)。例如,一個以 2,000 字為限制進行訓練的模型,如果輸入的文檔更長,很快就會開始忘記或丟失信息。YaRN 引入了一種進一步擴展此限制的方法,而無需從頭開始重新訓練模型。它調整了模型跟蹤單詞位置的方式(就像書中的書籤一樣),這樣即使文本長達數萬字,它仍然可以跟蹤信息流。該方法允許模型處理最多 128,000 個標記的序列——大約相當於馬克·吐溫的《哈克貝利·費恩歷險記》的長度——同時使用的計算能力和訓練數據比舊方法少得多。簡而言之,YaRN 使 AI 模型能夠一次性「閱讀」並理解更長的文檔、對話或數據集。這是 AI 能力擴展的一大進步,並已被包括OpenAI和中國的Deepseek在內的更廣泛的研究社區所採用。
DeMo 和 DisTro
2024年3月,Nous 發表了一項分布式訓練領域的突破性成果,名為「Decoupled Momentum Optimization」(DeMo)。DeMo 由 Nous 研究人員 Bowen Peng 和 Jeffrey Quesnelle 與 Diederik P. Kingma(OpenAI 聯合創始人兼 AdamW 優化器發明者)合作開發。它是 Nous 去中心化訓練棧的主要構建模塊,通過減少 GPU 之間交換的數據量,降低了分布式數據並行模型訓練設置中的通信開銷。在數據並行訓練中,每個節點都保存模型權重的完整副本,但數據集會被拆分成由不同節點處理的塊。
AdamW 是模型訓練中最常用的優化器之一。AdamW 的一個關鍵功能是平滑所謂的動量(momentum),即模型權重過去變化的運行平均值。本質上,AdamW 有助於消除數據並行訓練過程中引入的噪聲,從而提高訓練效率。Nous Research 基於 AdamW 和 DeMo 創建了一個全新的優化器,將動量拆分為本地部分和跨不同訓練器的共享部分。這通過限制節點之間必須共享的數據量,減少了節點之間所需的通信量。
DeMO 選擇性地關注每個 GPU 迭代過程中變化最快的參數。其邏輯很簡單:變化較大的參數對學習至關重要,應該在優先級更高的工作器之間同步。同時,變化較慢的參數可以暫時滯後,而不會顯著影響收斂。實際上,這可以過濾掉噪聲更新,同時保留最有意義的更新。Nous 還採用了壓縮技術,包括一種類似於 JPEG 壓縮圖像的離散餘弦變換 (DCT) 方法,以進一步減少發送的數據量。通過僅同步最重要的更新,DeMO 將通信開銷降低了 10 倍到 1,000 倍(具體取決於模型大小)。
2024年6月,Nous團隊推出了他們的第二項重大創新,即Distributed Training Optimizer(DisTro)。DeMo提供了核心的優化器創新,而 DisTro 則將其整合到一個更廣泛的優化器框架中,該框架進一步壓縮了GPU之間共享的信息,並解決了GPU同步、容錯和負載平衡等問題。2024年12月,Nous利用DisTro在類似LlaMA的架構上訓練了一個包含150億個參數的模型,證明了該方法的可行性。
Psyche
今年五月,Nous發布了Psyche,這是一個用於協調去中心化訓練的框架,在 DeMO 和 DisTro 優化器架構上進行了進一步的創新。Psyche 的主要技術升級包括:通過允許 GPU 在開始下一步訓練時發送模型更新,改進了異步訓練。這最大限度地減少了空閒時間,並使 GPU 的利用率更接近集中式、緊密耦合的系統。Psyche 還進一步改進了 DisTro 引入的壓縮技術,將通信負載進一步縮小了 3 倍。
Psyche 可以通過完全鏈上(通過 Solana)或鏈下設置實現。它包含三個主要參與者:協調器、客戶端和數據提供者。協調器存儲所有必要的信息以促進訓練運行,包括模型的最新狀態、參與的客戶端以及數據分配和輸出驗證。客戶端是實際的 GPU 提供者,在訓練運行期間執行訓練任務。除了模型訓練之外,它們還參與見證過程(如下所述)。數據提供者(客戶端可以自行存儲)提供訓練所需的數據。
Psyche 將訓練分為兩個不同的階段:epoch和step。這為客戶端創建了自然的進入和退出點,使他們無需投入完整的訓練運行即可參與。這種結構有助於最大限度地降低 GPU 提供商的機會成本,因為他們可能無法在整個運行期間投入資源。
在一個 epoch 開始時,協調器會定義關鍵參數:模型架構、待使用的數據集以及所需的客戶端數量。接下來是短暫的預熱階段,客戶端會同步到最新的模型檢查點,檢查點可以是來自公共源,也可以是來自其他客戶端的點對點同步。訓練開始後,每個客戶端都會被分配一部分數據,並在本地進行訓練。計算更新後,客戶端會將其結果連同加密承諾(證明工作正確完成的 SHA-256 哈希值)一起廣播到網絡的其餘部分。
每輪隨機選擇一部分客戶端作為見證人,並作為 Psyche 的主要驗證機制。這些見證人照常進行訓練,但也會驗證哪些客戶端更新已接收且有效。它們向協調器提交布隆過濾器(Bloom filters),這是一種輕量級數據結構,可以有效地匯總這些參與情況。雖然 Nous 自己也承認這種方法並不完美,因為它可能會產生誤報,但研究人員願意為了提高效率而接受這種權衡。一旦某個更新的見證人確認達到法定人數,協調器就會將更新應用於全局模型,並允許所有客戶端在進入下一輪之前同步其模型。
至關重要的是,Psyche 的設計允許訓練和驗證重疊。客戶端提交更新後,即可立即開始訓練下一批次,而無需等待協調器或其他客戶端完成上一輪訓練。這種重疊設計與 DisTrO 的壓縮技術相結合,可確保通信開銷保持最小,並確保 GPU 不會閒置。
2025年5月,Nous Research啟動了迄今為止規模最大的訓練運行:Consilience,這是一個擁有400億個參數的Transformer,正在Psyche去中心化訓練網絡中對約20萬億個token進行預訓練。訓練仍在進行中。到目前為止,運行基本平穩,但出現了一些損失峰值,表明優化軌跡短暫偏離了收斂。為此,團隊回滾到最後一個健康檢查點,並使用OLMo的Skip-Step保護措施對優化器進行封裝,該保護措施會自動跳過任何損失或梯度範數與均值相差幾個標準差的更新,從而降低未來出現損失峰值的風險。
Solana 的角色
雖然 Psyche 可以在鏈下環境中運行,但它旨在在 Solana 區塊鏈上使用。Solana 充當訓練網絡的信任和問責層,在鏈上記錄客戶承諾、見證人證明和訓練元數據。這為每一輪訓練創建了不可篡改的審計跟蹤,從而能夠透明地驗證誰做出了貢獻、完成了哪些工作以及是否通過了驗證。
Nous 還計劃使用 Solana 來促進訓練獎勵的分配。儘管該項目尚未發布正式的代幣經濟學,但 Psyche 的文檔概述了一個系統,其中協調員將跟蹤客戶的計算貢獻並根據已驗證的工作分配積分。然後,這些積分可以通過充當鏈上託管的財務智能合約兌換成代幣。完成有效訓練步驟的客戶可以根據其貢獻直接從該合約中領取獎勵。Psyche 尚未在訓練運行中使用獎勵機制,但一旦正式啟動,該系統預計將在 Nous 加密代幣的分配中發揮核心作用。
Hermes 模型系列
除了這些研究貢獻外,Nous 還憑藉其 Hermes 系列指令調優的大型語言模型 (LLM),確立了其領先的開源模型開發者地位。2024 年 8 月,該團隊推出了 Hermes-3,這是一套基於 Llama 3.1 進行微調的全參數模型套件,在公開排行榜上取得了頗具競爭力的成績,儘管規模相對較小,卻足以與規模更大的專有模型相媲美。
最近,Nous 在 2025 年 8 月發布了 Hermes-4 模型系列,這是迄今為止最先進的模型系列。Hermes-4 專注於提升模型的逐步推理能力,同時在常規指令執行方面也表現出色。它在數學、編程、理解和常識測試中均表現出色。團隊秉承 Nous 的開源使命,公開發布了所有 Hermes-4 模型權重,供所有人使用和構建。此外,Nous 還發布了一個名為Nous Chat的模型無障礙界面,並在發布後的第一周內免費開放。
Hermes 模型的發布不僅鞏固了 Nous 作為模型構建組織的信譽,也為其更廣泛的研究議程提供了實踐驗證。Hermes 的每一次發布都證明了尖端能力可以在開放環境中實現,為團隊的去中心化訓練突破(DeMo、DisTrO 和 Psyche)奠定了基礎,並最終促成了雄心勃勃的 Consilience 40B 運行。
Atropos
如上所述,由於推理模型的進步以及預訓練的擴展限制,強化學習在後訓練中發揮著越來越重要的作用。Atropos 是 Nous 在去中心化環境下針對強化學習的解決方案。它是一個適用於 LLM 的即插即用模塊化強化學習框架,可適應不同的推理後端、訓練方法、數據集和強化學習環境。
當使用大量 GPU 以去中心化的方式進行強化學習後訓練時,模型在訓練過程中生成的即時輸出將具有不同的完成時間。Atropos 充當一個 rollout 處理器,即一個中央協調器,用於協調跨設備的任務生成和完成,從而實現異步強化學習訓練。
Atropos 的初始版本於 4 月發布,但目前僅包含一個協調強化學習任務的環境框架。Nous 計劃在未來幾個月內發布補充的訓練和推理框架。
Prime Intellect
背景
Prime Intellect 成立於 2024 年,致力於構建大規模去中心化 AI 開發基礎設施。該團隊由 Vincent Weisser 和 Johannes Hagemann 共同創立,最初專注於整合來自中心化和去中心化提供商的計算資源,以支持高級 AI 模型的協作式分布式訓練。Prime Intellect 的使命是實現 AI 開發的民主化,使全球的研究人員和開發者能夠訪問可擴展的計算資源,並共同擁有開放式 AI 創新。
OpenDiLoCo、INTELLECT-1 和 PRIME
2024年7月,Prime Intellect發布了OpenDiLoCo,這是谷歌 DeepMind 為數據並行訓練開發的低通信模型訓練方法DiLoCo的開源版本。谷歌基於以下觀點開發了該模型:「在現代規模下,通過標準反向傳播進行訓練帶來了前所未有的工程和基礎設施挑戰……難以協調和緊密同步大量加速器。」 雖然這種說法側重於大規模訓練的實用性,而非開源開發的精神,但它默認了長期集中式訓練的局限性以及對分布式替代方案的需求。
DiLoCo 減少了 GPU 之間在訓練模型時共享信息的頻率和數量。在集中式設置下,GPU 會在訓練的每個步驟後彼此共享所有更新後的梯度。而在 DiLoCo 中,更新梯度的共享頻率較低,以減少通信開銷。這創建了一個雙重優化架構:各個 GPU(或 GPU 集群)運行內部優化,在每一步後更新自身模型的權重;以及外部優化,內部優化在 GPU 之間共享,然後所有 GPU 都會根據所做的更改進行更新。
OpenDiLoCo 在其初始版本中展示了 90% 至 95% 的 GPU 利用率,這意味著儘管分布在兩大洲和三個國家,但幾乎沒有任何機器處於閒置狀態。OpenDiLoCo 能夠重現相當的訓練結果和性能,而通信量卻減少了 500 倍(如下圖紫色線追趕藍色線所示)。
縱軸表示Perplexity,衡量模型預測序列中下一個標記的能力。Perplexity越低,模型的預測越有信心,準確性也越高
2024年10月,Prime Intellect 開始訓練 INTELLECT-1 ,這是首個以分布式方式訓練的 100 億參數語言模型。訓練耗時 42 天,之後該模型開源。訓練在三大洲五個國家/地區進行。訓練運行展示了分布式訓練的逐步改進,所有計算資源的利用率達到 83%,僅在美國,節點間通信的利用率就達到 96%。該項目使用的 GPU 來自 Web2 和 Web3 提供商,包括 Akash、Hyperbolic 和 Olas 等加密 GPU 市場。
INTELLECT-1 採用了 Prime Intellect 的全新訓練框架 PRIME,該框架允許 Prime Intellect 訓練系統在計算意外進入和退出正在進行的訓練時進行自適應。它引入了 ElasticDeviceMesh 等創新技術,允許貢獻者隨時加入或退出。
訓練步驟中的活躍訓練節點,展示了訓練架構處理動態節點參與的能力
INTELLECT-1 是對 Prime Intellect 去中心化訓練方法的重要驗證,並獲得了傑克·克拉克(Anthropic 聯合創始人)等人工智慧思想領袖的稱讚,被認為是去中心化訓練的可行示範。
Protocol
今年 2 月,Prime Intellect 在其堆棧上又增添了一層,推出了 Protocol。Protocol 將 Prime Intellect 的所有訓練工具連接在一起,創建一個用於去中心化模型訓練的點對點網絡。其中包括:
-
計算交換 GPU 以促進訓練運行。
-
PRIME 訓練框架減少了通信開銷並提高了容錯能力。
-
一個名為 GENESYS 的開源庫,用於 RL 微調中有用的合成數據生成和驗證。
-
一種名為 TOPLOC 的輕量級驗證系統,用於驗證模型執行和參與節點的輸出。
Protocol 扮演的角色與 Nous 的 Psyche 類似,有四個主要參與者:
-
Workers:一種軟體,使用戶能夠貢獻他們的計算資源用於訓練或其他 Prime Intellect AI 相關產品。
-
驗證者:驗證計算貢獻並防止惡意行為。Prime Intellect 正在努力將最先進的推理驗證算法 TOPLOC 應用於去中心化訓練。
-
編排器:計算池創建者管理工作器的一種方式。它的作用與 Nous 的編排器類似。
-
智能合約:追蹤計算資源提供者,削減惡意參與者的質押,並自主支付獎勵。目前,Prime Intellect 已在以太坊 L2 Base 的 Sepolia 測試網上運行,但 Prime Intellect 已表示最終計劃遷移到自己的區塊鏈上。
循序漸進的Protocol訓練
Protocol 旨在最終讓貢獻者擁有模型的股份或因其工作獲得獎勵,同時為開源人工智慧項目提供通過智能合約和集體激勵來資助和管理開發的新方法。
INTELLECT 2 和強化學習
今年 4 月,Prime Intellect 開始訓練一個名為 INTELLECT-2 的 320 億參數模型。INTELLECT-1 專注於訓練基礎模型,而 INTELLECT-2 則在另一個開源模型(阿里巴巴的 QwQ-32B)上使用強化學習來訓練推理模型。
該團隊引入了兩個關鍵基礎設施組件,以使這種分散式 RL 訓練變得切實可行:
-
PRIME-RL 是一個完全異步的強化學習框架,它將學習過程分為三個獨立的階段:生成候選答案;對選定的答案進行訓練;以及廣播更新後的模型權重。這種解耦機制使系統能夠跨越不可靠、速度慢或地理位置分散的網絡。訓練過程使用了 Prime Intellect 的另一項創新技術 GENESYS,生成了數千道數學、邏輯和編碼問題,並配備了可以立即判斷答案正確與否的自動檢查器。
-
SHARDCAST 是一款用於在網絡上快速分發大型文件(例如更新的模型權重)的新系統。SHARDCAST 並非每臺機器都從中央伺服器下載更新,而是採用機器之間共享更新的結構。這使得網絡保持高效、快速和彈性。
Intellect-2 分布式強化學習訓練基礎設施
對於 INTELLECT-2,貢獻者還需要質押測試網加密代幣才能參與訓練運行。如果他們貢獻了有效的工作,將自動獲得獎勵。如果沒有,他們的質押可能會被削減。雖然此次測試運行期間沒有涉及任何實際資金,但這凸顯了一些加密經濟實驗的初步形式。該領域還需要進行更多的實驗,我們預計加密經濟在安全性和激勵機制方面的應用將有進一步的改變。除了 INTELLECT-2 之外,Prime Intellect 還在繼續開展本報告未涵蓋的幾項重要計劃,包括:
-
SYNTHETIC-2 ,用於生成和驗證推理任務的下一代框架;
-
Prime Collective Communications Library ,它實現了高效、容錯的集體通信操作(例如通過 IP 進行縮減),並提供共享狀態同步機制以保持對等點同步,並允許在訓練期間的任何時候動態加入和離開對等點,以及自動帶寬感知拓撲優化;
-
持續增強 TOPLOC 的功能,以實現可擴展、低成本的推理證明,從而驗證模型輸出;
-
基於 INTELLECT2 和 SYNTHETIC1 的經驗教訓,對 Prime Intellect 協議和加密經濟層進行改進
Pluralis Research
亞歷山大·朗(Alexander Long)是一位澳大利亞機器學習研究員,擁有新南威爾斯大學的博士學位。他認為開源模型訓練過度依賴領先的人工智慧實驗室為其他人提供基礎模型進行訓練。2023年4月,他創立了Pluralis Research,旨在開闢一條不同的道路。
Pluralis Research 採用一種名為「協議學習」的方法來解決去中心化訓練問題,該方法被描述為「低帶寬、異構多參與者、模型並行的訓練和推理」。Pluralis 的一個主要顯著特徵是其經濟模型,該模型為訓練模型的貢獻者提供類似股權的收益,以激勵計算貢獻並吸引頂級開源軟體研究人員。該經濟模型以「不可提取性」的核心屬性為前提:即沒有任何一個參與者能夠獲得完整的權重集,而這又與訓練方法和模型並行性的使用息息相關。
模型並行性
Pluralis 的訓練架構利用了模型並行性,這與 Nous Research 和 Prime Intellect 在初始訓練運行中實施的數據並行方法不同。隨著模型規模的增長,即使是 H100 機架(最先進的 GPU 配置之一)也難以承載完整的模型。模型並行性通過將單個模型的各個組件拆分到多個 GPU 上,為這一問題提供了一種解決方案。
模型並行化主要有三種方法。
-
流水線並行:模型的各層被劃分到不同的 GPU 上。訓練過程中,每個小批量數據都像流水線一樣流經這些 GPU。
-
張量(層內)並行性:不是為每個 GPU 提供整個層,而是將每個層內的繁重數學運算分開,以便多個 GPU 可以同時共享單個層的工作。
-
混合併行:在實踐中,大型模型會混合使用各種方法,同時使用管道和張量並行,通常還會結合數據並行。
模型並行性是分布式訓練的一個重要進步,因為它允許訓練前沿規模的模型,使較低層級的硬體能夠參與,並確保沒有任何一個參與者可以訪問全套模型權重。
Protocol Learning和Protocol Models
協議學習 (Protocol Learning) 是 Pluralis 在去中心化訓練環境中用於模型所有權和貨幣化的框架。Pluralis 強調了構成協議學習框架的三個關鍵原則——去中心化、激勵和去信任化。
Pluralis 與其他項目的主要區別在於其對模型所有權的關注。鑑於模型的價值主要源於其權重,協議模型 ( Protocol Models ) 嘗試對模型的權重進行拆分,使模型訓練過程中的任何單個參與者都無法擁有全部權重。最終,這將賦予訓練模型的每個貢獻者一定的所有權,從而分享模型產生的收益。
通過訓練設置(開放 vs. 封閉數據)和模型權重可用性(開放 vs. 封閉)來定位不同的語言模型
與以往的例子相比,這是一種根本不同的去中心化模型經濟學方法。其他項目通過提供資金池來激勵貢獻,該資金池會在訓練周期內根據特定指標(通常是貢獻的時間或計算能力)分配給貢獻者。Pluralis 的貢獻者受到激勵,只會將資源投入到他們認為最有可能成功的模型上。訓練一個表現不佳的模型會浪費計算能力、能源和時間,因為表現不佳的模型不會產生任何收入。
這與以往的方法有兩點不同。首先,它不需要想要訓練模型的個人籌集初始資金來支付貢獻者的費用,從而降低了模型訓練和開發的門檻。其次,它可以更好地協調模型設計者和計算提供商之間的激勵機制,因為雙方都希望模型的最終版本儘可能完美,以確保其成功。這也為模型訓練專業化的出現提供了可能性。例如,可能會有更多風險承受能力更強的訓練師為早期/實驗模型提供計算服務,以尋求更大的回報(類似於風險投資家),而計算提供商則只關注那些成熟且應用可能性更高的模型(類似於私募股權投資者)。
雖然PM可能代表著去中心化訓練貨幣化和激勵機制的重大突破,但Pluralis尚未詳細闡述其具體實施方式。鑑於該方法的高度複雜性,尚待解決的問題包括如何分配模型所有權、如何分配收益,甚至如何管理模型未來的升級或用例。
去中心化訓練創新
除了經濟方面的考慮之外,Protocol Learning)還面臨著與其他去中心化訓練項目相同的核心挑戰,即使用具有通信限制的異構 GPU 網絡來訓練大型 AI 模型。
今年 6 月,Pluralis宣布成功訓練基於 Meta 的 Llama 3 架構的 80 億參數 LLM,並發表了其協議模型論文。在論文中,Pluralis 展示了如何降低進行模型並行訓練的 GPU 之間的通信開銷。它通過將流經每個 Transformer 層的信號限制在一個預先選定的微小子空間中來實現這一點,將前向和後向傳遞壓縮高達 99%,從而將網絡流量減少 100 倍,同時又不影響準確性或增加明顯的開銷。簡而言之,Pluralis 找到了一種方法,可以將相同的學習信息壓縮到早期方法所需帶寬的一小部分。
這是首次去中心化訓練運行,模型本身被分散到通過低帶寬連接的節點上,而不是進行複製。該團隊成功地在遍布四大洲的低端消費級 GPU 上訓練了一個擁有 80 億個參數的 Llama 模型,這些 GPU 僅通過每天 80 兆每秒的家庭網際網路連接進行連接。在論文中,Pluralis 證明了該模型的收斂效果與在 100 Gb/s 數據中心集群上運行時一樣好。在實踐中,這意味著大規模模型並行去中心化訓練現在已成為可能。
最終,Pluralis 的一篇關於異步訓練用於流水線並行訓練的論文於 7 月被 ICML(領先的人工智慧會議之一)接收。當通過網際網路而非高速數據中心進行流水線並行訓練時,它同樣面臨通信瓶頸,因為節點的運行方式本質上類似於流水線,每個連續節點都等待前一個節點更新模型。這會導致梯度過時和信息傳輸延遲。論文中演示的去中心化訓練框架 SWARM 消除了通常阻礙日常 GPU 參與訓練的兩個經典瓶頸:內存容量和緊密同步。消除這兩個瓶頸可以更好地利用所有可用的 GPU,縮短訓練時間並降低成本,這對於使用基於志願者的分布式基礎設施擴展大型模型至關重要。如需簡要了解此過程,請觀看Pluralis 的 這段視頻。
展望未來,Pluralis表示計劃很快啟動一項任何人都可以參與的實時訓練,但尚未確定具體日期。此次發布將提供對該協議尚未發布的方面更深入的了解,特別是經濟模型和加密基礎設施。
Templar
背景
Templar 於 2024 年 11 月上線,是一個基於 Bittensor 協議子網的激勵驅動型去中心化 AI 任務市場。它最初是一個實驗性框架,旨在匯集全球 GPU 資源進行無需許可的 AI 預訓練,並旨在通過 Bittensor 的代幣化激勵機制,使大規模模型訓練變得可訪問、安全且具有彈性,從而重新定義 AI 開發。
從一開始,Templar 就承擔了協調網際網路上 LLM 預訓練的去中心化訓練的挑戰。這是一項艱巨的任務,因為延遲、帶寬限制和異構硬體使得分布式參與者難以達到集中式集群的效率,而集中式集群的無縫 GPU 通信可以實現對海量模型的快速迭代。
最關鍵的是,Templar 優先考慮真正無需許可的參與,允許任何擁有計算資源的人無需批准、註冊或把關即可參與 AI 訓練。這種無需許可的方法對於 Templar 實現 AI 開發民主化的使命至關重要,因為它確保突破性的 AI 能力不會被少數中心化實體控制,而是能夠從全球開放的協作中湧現出來。
Templar 訓練
Templar 使用數據並行進行訓練,主要有兩個因素:
-
礦工 : 這些參與者執行訓練任務。每個礦工都會與最新的全局模型同步,獲取唯一的數據分片,使用前向和後向傳遞進行本地訓練,使用自定義 CCLoco 優化器(下文介紹)壓縮梯度,並提交梯度更新。
-
驗證器:驗證器下載並解壓礦工提交的更新,將其應用到模型的本地副本,並計算 損失增量 (衡量模型改進程度的指標)。這些增量用於通過 Templar 的 Gauntlet 系統對礦工的貢獻進行評分。
為了降低通信開銷,Templar 的研究團隊首先開發了塊壓縮 DiLoCo(CCLoco)。與 Nous 類似,CCLoco 改進了 Google DiLoCo 框架等通信高效的訓練技術,從而將節點間通信成本降低了幾個數量級,同時減少了此類方法經常導致的損失。CCLoco 並非每一步都發送完整的更新,而是以設定的時間間隔僅共享最重要的更改,並保持較小的運行計數,以確保不會丟失任何有意義的數據。該系統採用基於競爭的模型,激勵礦工提供低延遲更新以獲得獎勵。為了獲得獎勵,礦工必須通過部署高效的硬體來跟上網絡的步伐。這種競爭結構旨在確保只有能夠保持足夠性能的參與者才能參與訓練過程,而輕量級的健全性檢查則會過濾掉明顯不良或格式錯誤的更新。8 月,Templar 正式發布了更新後的訓練架構,並將其更名為 SparseLoCo。
驗證者使用 Templar 的 Gauntlet 系統,根據觀察到的模型損失減少貢獻來跟蹤和更新每個礦工的技能評級。藉助名為 OpenSkill 的技術,持續進行有效更新的高質量礦工將獲得更高的技能評級,從而提升其對模型聚合的影響力,並賺取更多 TAO(Bittensor 網絡的原生代幣)。評級較低的礦工將在聚合過程中被丟棄。評分後,質押額最高的驗證者將匯總排名靠前的礦工的更新,對新的全局模型進行籤名,並將其發布到存儲中。如果出現模型不同步的情況,礦工可以使用此版本的模型進行追趕。
Templar 去中心化訓練架構
Templar 迄今已啟動三輪訓練:Templar I、Templar II 和 Templar III。Templar I 是一個包含 12 億個參數的模型,在全球部署了近 200 塊 GPU。Templar II 正在進行中,正在訓練一個包含 80 億個參數的模型,並計劃很快啟動更大規模的訓練。Templar 現階段專注於訓練參數較小的模型,這是經過深思熟慮的選擇,旨在確保去中心化訓練架構的升級(如上所述)在擴展到更大模型規模之前能夠有效發揮作用。從優化策略和調度到研究迭代和激勵機制,在參數較小的 80 億個模型上驗證這些想法,使團隊能夠快速且經濟高效地進行迭代。繼近期取得進展並正式發布訓練架構後,團隊於 9 月推出了Templar III,這是一個包含 700 億個參數的模型,也是迄今為止去中心化領域規模最大的預訓練運行。
TAO 和激勵機制
Templar 的一個關鍵特色是其與 TAO 綁定的激勵模型。獎勵根據模型訓練的技能加權貢獻進行分配。大多數協議(例如 Pluralis、Nous、Prime Intellect)都已構建了許可運行或原型,而 Templar 則完全在 Bittensor 的實時網絡上運行。這使得 Templar 成為唯一一個已將實時、無需許可的經濟層集成到其去中心化訓練框架中的協議。這種實時的生產部署使 Templar 能夠在實時訓練運行場景中迭代其基礎設施。
每個 Bittensor 子網都使用其自己的「alpha」代幣運行,該代幣充當獎勵機制和子網感知價值的市場信號。Templar 的 alpha 代幣稱為 gamma。alpha 代幣不能在外部市場上自由交易;它們只能通過其子網專用的流動性池,使用自動做市商 (AMM) 兌換 TAO。用戶可以質押 TAO 來獲得 gamma,也可以將 gamma 贖回為 TAO,但不能直接將 gamma 兌換成其他子網的 alpha 代幣。Bittensor 的動態 TAO (dTAO) 系統使用 alpha 代幣的市場價格來確定子網之間的發行分配。當 gamma 的價格相對於其他 alpha 代幣上漲時,這表明市場對 Templar 去中心化訓練能力的信心增強,從而導致子網的 TAO 發行量增加。截至 9 月初,Templar 的每日發行量約佔 TAO 發行量的 4%,在 TAO 網絡的 128 個子網中排名前六。
子網的發行機制具體如下:在每個12秒的區塊中,Bittensor 鏈會根據子網 alpha 代幣相對於其他子網的價格比例,向其流動性池發行 TAO 和 alpha 代幣。每個區塊最多向子網發行一個完整的 alpha 代幣(初始發行率,可能會減半),用於激勵子網貢獻者,其中 41% 分配給礦工,41% 分配給驗證者(及其質押者),18% 分配給子網所有者。
這種激勵機制通過將經濟獎勵與參與者提供的價值掛鈎,推動對 Bittensor 網絡的貢獻。礦工有動力提供高質量的 AI 輸出,例如模型訓練或推理任務,從而獲得驗證者更高的評分,從而獲得更大的產出份額。驗證者(及其質押者)因準確評估和維護網絡完整性而獲得獎勵。
Alpha 代幣的市場估值由質押活動決定,確保表現出更高實用性的子網能夠吸引更多 TAO 的流入和發行,從而營造一個鼓勵創新、專業化和持續發展的競爭環境。子網所有者將獲得一定比例的獎勵,從而受到激勵去設計有效的機制並吸引貢獻者,最終構建一個無需許可的去中心化 AI 生態系統,讓全球參與共同促進集體智慧的進步。
該機制還引入了新的激勵挑戰,例如保持驗證者的誠實、抵禦女巫攻擊以及減少串謀。Bittensor 子網經常受到驗證者或礦工與子網創建者之間貓鼠遊戲的困擾,前者試圖玩弄系統,後者試圖阻撓他們。從長遠來看,隨著子網所有者學會如何智勝惡意行為者,這些鬥爭應該會使該系統成為最強大的系統之一。
Gensyn
Gensyn 於 2022 年 2 月發布了其首篇精簡版白皮書,闡述了去中心化訓練的框架(Gensyn 是我們去年首篇關於理解加密技術與人工智慧交集的文章中唯一涵蓋的去中心化訓練協議)。當時,該協議主要側重於 AI 相關工作負載的驗證,允許用戶向網絡提交訓練請求,由計算提供商處理,並確保這些請求按承諾執行。
最初的願景還強調了加速應用機器學習 (ML) 研究的必要性。2023 年,Gensyn 在此願景的基礎上,明確提出了在全球範圍內獲取機器學習計算資源的更廣泛需求,以服務於特定 AI 應用。Gensyn 引入了 GHOSTLY 原則作為此類協議必須滿足的框架:通用性、異構性、開銷、可擴展性、去信任性和延遲。Gensyn 一直專注於構建計算基礎設施,此次合作標誌著其正式擴展至計算之外的其他關鍵資源。
Gensyn 的核心將其訓練技術棧分為四個不同的部分——執行、驗證、通信和協調。執行部分負責處理世界上任何能夠執行機器學習操作的設備上的操作。通信和協調部分使設備能夠以標準化的方式相互發送信息。驗證部分則確保所有操作無需信任即可進行計算。
執行—RL Swarm
Gensyn 在這個堆棧中的第一個實現是一個名為 RL Swarm 的訓練系統,這是一種用於訓練後強化學習的分散協調機制。
RL Swarm 旨在允許多個計算提供商在無需許可、信任最小化的環境中參與單個模型的訓練。該協議基於一個三步循環:回答、評審和解決。首先,每個參與者根據提示生成模型輸出(答案)。然後,其他參與者使用共享獎勵函數評估該輸出並提交反饋(評審)。最後,這些評審將用於選出最佳答案,並將其納入模型的下一個版本(解決)。整個過程以點對點的方式進行,無需依賴中央伺服器或可信機構。
RL Swarm訓練循環
強化學習 Swarm 建立在強化學習在模型後訓練中日益凸顯的重要性之上。隨著模型在預訓練階段達到規模上限,強化學習提供了一種機制,無需在海量數據集上進行重新訓練,即可提升推理能力、指令遵循能力和事實性。Gensyn 的系統通過將強化學習循環分解為不同的角色,在去中心化環境中實現了這一改進,每個角色都可以獨立驗證。至關重要的是,它引入了容錯異步執行功能,這意味著貢獻者無需始終在線或保持完美同步即可參與。
它本質上也是模塊化的。該系統不需要使用特定的模型架構、數據類型或獎勵結構,允許開發人員根據其特定用例定製訓練循環。無論是訓練編碼模型、推理代理,還是具有特定指令集的模型,RL Swarm 都能為去中心化 RL 工作流提供可靠的大規模運行框架。
驗證—Verde
到目前為止,本報告中關於去中心化訓練討論最少的方面之一是驗證。Gensyn 為其 GPU 市場構建了 Verde 信任層。藉助Verde,Gensyn 引入了一種新的驗證機制,以便協議用戶可以相信另一端的人正在按照他們所說的去做。
每個訓練或推理任務都會被調度到由應用程式確定的一定數量的獨立提供者。如果他們的輸出完全匹配,則該任務被接受。如果輸出不同,則裁判協議會定位兩條軌跡出現分歧的第一個步驟,並僅重新計算該操作。數字與裁判匹配的一方保留其付款,而另一方則損失其權益。
讓這一切成為可能的是 RepOps,這是一個「可重複算子」庫,它強制常見的神經網絡數學運算(矩陣乘法、激活等)在任何 GPU 上以固定的、確定性的順序運行。確定性在這裡至關重要;否則,儘管兩個驗證器都正確,但它們可能會產生不同的結果。因此,誠實的提供商會提供逐位相同的結果,讓 Verde 將比賽視為正確性的證明。由於裁判只重放一個微步,因此增加的成本只有幾個百分點,而不是這些過程中通常使用的完整加密證明的 10,000 倍開銷。
Verde 驗證協議架構
今年8月,Gensyn發布了Judge,這是一個可驗證的AI評估系統,包含兩個核心組件:Verde和可復現的運行時,後者可保證跨硬體的逐位相同結果。為了展示它,Gensyn推出了一款「漸進式揭示遊戲」,其中AI模型在信息揭示的過程中對複雜問題的答案進行押注,Judge會確定性地驗證結果,並對準確的早期預測進行獎勵。
Judge 意義重大,因為它解決了 AI/ML 中的信任和可擴展性問題。它能夠實現可靠的模型比較,在高風險環境下提升透明度,並通過允許獨立驗證來降低偏見或操縱的風險。除了推理任務之外,Judge 還可以支持其他用例,例如去中心化爭議解決和預測市場,這與 Gensyn 構建可信分布式 AI 計算基礎設施的使命相契合。最終,像 Judge 這樣的工具可以增強可重複性和可問責性,這在 AI 日益成為社會核心的時代至關重要。
溝通與協調:Skip-Pipe和多元化專家集成
Skip-Pipe 是 Gensyn 針對單個巨型模型在多臺機器上進行切片時出現的帶寬瓶頸問題而提出的解決方案。如前所述,傳統的流水線訓練強制每個微批次按順序遍歷所有層,因此任何速度較慢的節點都會導致流水線停滯。Skip-Pipe 的調度程序可以動態跳過或重新排序可能造成延遲的層,從而將迭代時間縮短高達 55%,並且即使一半節點發生故障也能保持可用性。通過減少節點間流量並允許根據需要刪除層,它使訓練器能夠將非常大的模型擴展到地理位置分散、帶寬較低的 GPU 上。
多樣化專家集成解決了另一個協調難題:如何構建一個強大的「混合專家」系統,避免持續的串擾。Gensyn 的異構領域專家集成 (HDEE) 完全獨立地訓練每個專家模型,並僅在最後進行合併。出乎意料的是,在相同的總體計算預算下,最終集成在 21 個測試領域中的 20 個領域中超越了統一的基準。由於訓練期間機器之間沒有梯度或激活函數的流動,因此任何空閒的 GPU 都可以貢獻計算能力。
Skip-Pipe 和 HDEE 共同為 Gensyn 提供了高效的通信方案。該協議可以在必要時在單個模型內進行分片,或者在獨立性成本更低的情況下並行訓練多個小型專家,並且無需像傳統方式那樣對完美、低延遲的網絡進行操作。
測試網
三月份,Gensyn 在一個定製的以太坊 rollup 上部署了測試網。團隊計劃逐步更新測試網。目前,用戶可以參與 Gensyn 的三項產品:RL Swarm、BlockAssist 和 Judge。如上所述,RL Swarm 允許用戶參與 RL 訓練後流程。八月,團隊推出了 BlockAssist,「這是輔助學習的第一個大規模演示,它是一種直接從人類行為中訓練代理的方法,無需手動標記或 RLHF」。用戶可以下載 Minecraft,並使用 BlockAssist 來訓練 Minecraft 模型,從而暢玩遊戲。
其他值得關注的項目
以上章節概述了為實現去中心化訓練而實施的主流架構。然而,新的項目也層出不窮。以下是去中心化訓練領域的一些新項目:
Fortytwo : Fortytwo 構建於 Monad 區塊鏈之上,專注於群體推理 (SLM),其中多個小型語言模型 (SLM) 在節點網絡中協作處理查詢並生成同行評審的輸出,從而提高準確性和效率。該系統利用閒置筆記本電腦等消費級硬體,無需像集中式 AI 那樣使用昂貴的 GPU 集群。該架構包含去中心化的推理執行和訓練功能,例如為專用模型生成合成數據集。該項目已在 Monad 開發網絡上線。
Ambient : Ambient 是即將上線的「有用工作量證明」Layer -1 區塊鏈,旨在為鏈上始終在線、自主運行的 AI 代理提供支持,使其能夠在無需中心化監管的無許可生態系統中持續執行任務、學習和演進。它將採用單一開源模型,該模型由網絡礦工協作訓練和改進,貢獻者將因其在訓練、構建和使用 AI 模型方面的貢獻而獲得獎勵。雖然 Ambient 強調去中心化推理,尤其是在代理方面,但網絡上的礦工也將負責持續更新支撐網絡的基礎模型。Ambient 採用了一種新穎的p roof- o f-logits 機制(在該系統中,驗證者可以通過檢查礦工的原始輸出值(稱為 logits)來驗證其是否正確運行了模型計算)。該項目基於 Solana 的一個分叉構建,尚未正式上線。
Flower Labs : Flower Labs 正在開發一個用於聯邦學習的開源框架 Flower,該框架支持跨去中心化數據源進行協作式 AI 模型訓練,無需共享原始數據,從而在聚合模型更新的同時保護隱私。Flower 的成立旨在解決數據集中化問題,它允許機構和個人使用本地數據(例如醫療保健或金融領域)訓練模型,同時通過安全的參數共享為全球改進做出貢獻。與強調代幣獎勵和可驗證計算的加密原生協議不同,Flower 優先考慮在實際應用中保護隱私的協作,使其成為無需區塊鏈的受監管行業的理想之選。
Macrocosmos : Macrocosmos 在 Bittensor 網絡上運行,正在開發涵蓋五個子網的完整 AI 模型創建流程,這些子網專注於預訓練、微調、數據收集和去中心化科學。它引入了激勵編排訓練架構 (IOTA) 框架,用於在異構、不可靠且無需許可的硬體上對大型語言模型進行預訓練,並已啟動超過 10 億次參數訓練,並計劃很快擴展到更大的參數模型。
Flock.io :Flock是一個去中心化的 AI 訓練生態系統,將聯邦學習與區塊鏈基礎設施相結合,從而在一個模塊化、代幣激勵的網絡中實現隱私保護的協作模型開發。參與者可以貢獻模型、數據或計算資源,並獲得與其貢獻成比例的鏈上獎勵。為了保護數據隱私,該協議採用了聯邦學習。這使得參與者能夠使用未與他人共享的本地數據來訓練全局模型。雖然這種設置需要額外的驗證步驟,以防止無關數據(通常稱為數據中毒)進入模型訓練,但它對於醫療保健應用等用例來說是一個有效的推廣方案,在這些應用中,多個醫療保健提供者可以在不洩露高度敏感的醫療數據的情況下訓練全局模型。
前景與風險
在過去的兩年裡,去中心化訓練已經從一個有趣的概念轉變為一個在實際環境中運行的有效網絡。雖然這些項目距離預期的最終狀態還很遠,但在實現去中心化訓練的道路上,它們正在取得有意義的進展。回顧現有的去中心化訓練格局,一些趨勢開始顯現:
實時概念驗證已不再是空想。在過去一年中,Nous 的 Consilience 和 Prime Intellect 的 INTELLECT-2 等早期驗證已進入生產規模運行。OpenDiLoCo 和 Protocol Models 等突破性進展正在分布式網絡上實現高性能 AI,促進經濟高效、彈性且透明的模型開發。這些網絡正在協調數十個甚至數百個 GPU,實時預訓練和微調中型模型,證明了去中心化訓練可以超越封閉式演示和臨時黑客馬拉松。雖然這些網絡仍非無需許可的網絡,但 Templar 在這方面脫穎而出;它的成功強化了這樣一種觀點:去中心化訓練正在從簡單地證明底層技術有效,發展到能夠擴展以匹配中心化模型的性能,並吸引大規模生產基礎模型所需的 GPU 資源。
模型規模不斷擴大,但差距依然存在。從2024年到2025年,去中心化項目的參數模型數量從個位數躍升至300億至400億。然而,領先的人工智慧實驗室已經發布了數萬億參數的系統,並憑藉其垂直整合的數據中心和最先進的硬體持續快速創新。去中心化訓練能夠利用來自世界各地的訓練硬體,彌補這一差距,尤其是在中心化訓練方法因需要越來越多的超大規模數據中心而面臨越來越大的限制的情況下。但縮小這一差距將取決於高效通信的優化器和梯度壓縮方面的進一步突破,以實現全球規模,以及不可操縱的激勵和驗證層。
訓練後工作流程正日益成為關注的領域。監督式微調、RLHF 和特定領域強化學習所需的同步帶寬遠低於全面的預訓練。PRIME-RL 和 RL Swarm 等框架已在不穩定的消費級節點上運行,讓貢獻者能夠利用閒置的周期獲利,同時項目也能快速將定製模型商業化。鑑於 RL 非常適合去中心化訓練,它作為去中心化訓練項目關注領域的重要性可能會日益凸顯。這使得去中心化訓練有可能率先在 RL 訓練中找到規模化的產品市場契合點,越來越多的團隊推出 RL 專用訓練框架就證明了這一點。
激勵和驗證機制落後於技術創新。激勵和驗證機制仍然落後於技術創新。只有少數網絡,尤其是Templar,提供實時代幣獎勵和鏈上罰沒機制,從而有效地遏制不良行為,並已在實際環境中進行測試。儘管其他項目正在試驗聲譽評分、證人證明或訓練證明方案,但這些系統仍未經驗證。即使技術障礙得以克服,治理也將帶來同樣艱巨的挑戰,因為去中心化網絡必須找到制定規則、執行規則和解決爭議的方法,而不會重複加密DAO中出現的低效現象。解決技術障礙只是第一步;長期生存能力取決於將其與可靠的驗證機制、有效的治理機制以及引人注目的貨幣化/所有權結構相結合,以確保人們對所開展工作的信任,並吸引擴大規模所需的人才和資源。
堆棧正在融合成端到端的流水線。如今,大多數領先的團隊都將帶寬感知優化器(DeMo、DisTrO)、去中心化計算交換(Prime Compute、Basilica)和鏈上協調層(Psyche、PM、PRIME)結合在一起。最終形成了一個模塊化的開放流水線,它反映了中心化實驗室從數據到部署的工作流程,只是沒有單一的控制點。即使項目沒有直接集成自己的解決方案,或者即使集成了,它們也可以接入其他專注於去中心化訓練所需垂直領域的加密項目,例如數據供應協議、GPU 和推理市場以及去中心化存儲主幹網。這種周邊基礎設施為去中心化訓練項目提供了即插即用的組件,可以進一步利用這些組件來增強其產品,並更好地與中心化同行競爭。
風險
硬體和軟體優化是一個不斷變化的目標——中央實驗室也在不斷拓展這一領域 。Nvidia的 Blackwell B200 晶片剛剛公布,在MLPerf基準測試中,無論是 4050 億個參數的預訓練還是 700 億個LoRA微調,其訓練吞吐量都比上一代快了 2.2 到 2.6 倍,為巨頭們大幅降低了時間和能源成本。在軟體方面,PyTorch 3.0 和 TensorFlow 4.0 引入了編譯器級圖融合和動態形狀內核,從而在同一塊晶片上進一步提升性能。隨著硬體和軟體優化的改進,或新的訓練架構的出現,去中心化訓練網絡也必須跟上步伐,不斷更新其堆棧,以適應最快、最先進的訓練方法,從而吸引人才並激勵有意義的模型開發。這將要求團隊開發出能夠確保持續高性能的軟體(無論底層硬體如何),以及使這些網絡能夠適應底層訓練架構變化的軟體堆棧。
現有企業開源模型,模糊了去中心化和中心化訓練之間的界限 。中心化人工智慧實驗室大多保持模型封閉,這進一步證明了去中心化訓練是保證開放性、透明度和社區治理的一種方式。儘管最近發布的 DeepSeek、GPT 開源版本和 Llama 等項目表明了其向更高開放性的轉變,但在競爭、監管和安全擔憂日益加劇的背景下,這種趨勢能否持續尚不明朗。即使權重被公開,它們仍然反映了原始實驗室的價值觀和選擇——獨立訓練的能力對於適應性、與不同優先事項的協調以及確保訪問不受少數現有企業的限制至關重要。
人才招聘依然困難重重 。許多團隊都告訴我們這一點。雖然加入去中心化訓練項目的人才質量有所提升,但他們缺乏領先人工智慧實驗室那樣的雄厚資源(例如,OpenAI 最近為每位員工提供數百萬美元的「特別獎勵」,或者 Meta 為挖角研究人員而提供的 2.5 億美元報價)。目前,去中心化項目吸引的是那些重視開放性和獨立性的使命驅動型研究人員,同時也能從更廣泛的全球人才庫和充滿活力的開源社區中汲取人才。然而,為了在規模上競爭,他們必須通過訓練出與現有企業相當的模型,並完善激勵和貨幣化機制來證明自己,從而為貢獻者創造有意義的收益。雖然無需許可的網絡和加密經濟激勵措施提供了獨特的價值,但無法獲得分銷並建立可持續的收入來源可能會阻礙該領域的長期增長。
監管阻力確實存在,尤其對於未經審查的模型而言 。去中心化訓練面臨著獨特的監管挑戰:從設計上來說,任何人都可以訓練任何類型的模型。這種開放性固然是優勢,但也引發了安全隱患,尤其是在生物安全、虛假信息或其他敏感領域濫用方面。歐盟和美國的政策制定者已發出信號,表示將加強審查:歐盟《人工智慧法案》對高風險的基礎模型規定了額外義務,而美國機構正在考慮對開放系統進行限制,並可能採取出口式管控措施。單單涉及將去中心化模型用於有害目的的事件,就可能引發全面的監管,從而威脅到無需許可的訓練的根本原則。
分發和貨幣化:分發仍然是一項重大挑戰 。包括 OpenAI、Anthropic 和 Google 在內的領先實驗室,通過品牌知名度、企業合同、雲平臺集成以及直接接觸消費者,擁有巨大的分發優勢。相比之下,去中心化訓練項目缺乏這些內置渠道,必須付出更多努力才能讓模型被採用、獲得信任並嵌入到實際工作流程中。鑑於加密貨幣在加密應用之外的整合仍處於萌芽階段(儘管這種情況正在迅速改變),這可能會更具挑戰性。一個非常重要且尚未解決的問題是,誰將真正使用這些去中心化訓練模型。高質量的開源模型已經存在,一旦新的先進模型發布,其他人提取或調整它們並不特別困難。隨著時間的推移,去中心化訓練項目的開源性質應該會產生網絡效應,從而解決分發問題。然而,即使他們能夠解決分發問題,團隊也將面臨產品貨幣化的挑戰。目前,Pluralis 的項目經理似乎最直接地應對這些貨幣化挑戰。這不僅僅是一個加密 x AI 問題,而是一個更廣泛的加密問題,凸顯了未來的挑戰。
結論
去中心化訓練已迅速從一個抽象概念演變為協調全球實際訓練運行的有效網絡。過去一年,包括 Nous、Prime Intellect、Pluralis、Templar 和 Gensyn 在內的項目已經證明,將去中心化 GPU 連接在一起、高效壓縮通信,甚至開始在實際環境中試驗激勵機制是可能的。這些早期演示證明了去中心化訓練可以超越理論,儘管在前沿規模上與中心化實驗室競爭的道路仍然艱難。
即使去中心化項目最終訓練出的基礎模型足以與當今領先的人工智慧實驗室相媲美,它們也面臨著最嚴峻的考驗:證明其在理念訴求之外的現實優勢。這些優勢可能通過卓越的架構或獎勵貢獻者的全新所有權和貨幣化方案內生顯現。或者,如果中心化現有參與者試圖通過保持權重封閉或注入不受歡迎的對齊偏差來扼殺創新,這些優勢也可能外生顯現。
除了技術進步之外,人們對該領域的態度也開始轉變。一位創始人這樣描述過去一年主要人工智慧會議上人們情緒的變化:一年前,人們對去中心化訓練幾乎沒有興趣,尤其是與加密貨幣結合使用時;六個月前,與會者開始認識到潛在的問題,但對大規模實施的可行性表示懷疑;而近幾個月來,人們越來越認識到,持續的進步可以使可擴展的去中心化訓練成為可能。這種觀念的演變表明,不僅在技術領域,而且在合法性方面,去中心化訓練的勢頭也在增強。
風險是真實存在的:現有企業仍保持著硬體、人才和分銷優勢;監管審查迫在眉睫;激勵和治理機制仍未得到大規模檢驗。然而,其優勢也同樣引人注目。去中心化訓練不僅代表著一種替代的技術架構,更代表著一種構建人工智慧的根本性理念:無需許可、全球所有,並與多元化社區而非少數幾家公司保持一致。即使只有一個項目能夠證明開放性能夠轉化為更快的迭代、新穎的架構或更具包容性的治理,這也將標誌著加密貨幣和人工智慧的突破性時刻。未來的道路漫長,但成功的核心要素如今已牢牢掌握。