
2022 年,我(anna)撰寫了一份提案,提出了一個用戶擁有的基礎模型,該模型使用私人數據而不是從網際網路上公開抓取的數據進行訓練。我認為,雖然可以使用公共數據(例如 Wikipedia、4Chan)來訓練基礎模型,但要將它們提升到一個新的水平,您需要高質量的私人數據,這些數據僅存在於需要權限或登錄才能訪問的孤立平臺(例如 Twitter、個人消息、公司信息)中。
這一預測正在開始實現。Reddit 和 Twitter 等公司已經意識到其平臺數據的價值,因此他們鎖定了開發人員 API(1、2 ),以防止其他公司自由地使用其文本數據訓練基礎模型。
這與兩年前相比發生了巨大變化。風險投資人 Sam Lessin 總結了這一變化:「[平臺] 只是把這些垃圾扔到後面,沒有人看管,然後突然間,你會覺得,哦,該死,那些垃圾是金子,對吧?我們得到了很多。我們必須鎖好垃圾箱。」例如,GPT-3 是在 WebText2 上進行訓練的,它匯總了所有 Reddit 提交連結中的文本,這些連結至少有 3 個贊成票(3,4)。使用 Reddit 的新 API 後,這不再可能。
網際網路變得越來越不開放,孤立的平臺築起更大的牆來保護其寶貴的訓練數據。
儘管開發人員無法再大規模訪問這些數據,但由於數據隱私法規,個人仍然可以跨平臺訪問和導出自己的數據(5、6 )。平臺鎖定開發人員 API,而個人用戶仍然可以訪問自己的數據,這一事實提供了一個機會:1 億用戶是否可以導出其平臺數據來創建世界上最大的數據寶庫?這個數據寶庫將匯總大型科技公司和其他公司收集的所有用戶數據,而這些公司通常不願意分享這些數據。這將是迄今為止最大、最全面的訓練數據集,比用於訓練當今領先的基礎模型的數據集大 100 倍。1
表 1. 數據
將基礎模型訓練數據集與示例用戶數據集進行比較的粗略估計。來源及計算。
然後,用戶可以創建一個用戶擁有的基礎模型,該模型使用的數據比任何一家公司能夠聚合的數據都要多。訓練基礎模型需要大量的 GPU 計算。但每個用戶都可以用自己的硬體幫助訓練模型的一小部分,然後將這些部分合併在一起,創建一個更大、更強大的模型(7、8、9 )。2當激勵措施合適時,用戶可以匯集大量計算。例如,以太坊礦工的總計算量是用於訓練領先基礎模型的 50 倍。
表 2. 計算
與以太坊礦工 GPU 相比,對用於訓練基礎模型的數據中心的總浮點運算次數(每秒浮點運算次數 = 所有 GPU 的「思考」速度總和)進行估計。3帶有 計算的來源。
為該模型做出貢獻的用戶將集體擁有並管理該模型。他們可以在使用模型時獲得報酬,甚至可以根據他們的數據對模型的改進程度按比例獲得報酬。集體可以制定使用規則,包括誰可以訪問該模型以及應該實施哪種控制。也許每個國家的用戶都會創建自己的模型,代表他們的意識形態和文化。或者也許一個國家並不是正確的分界線,我們將看到一個世界,每個網絡國家都有自己的基於其成員數據的基礎模型。
我鼓勵您花時間思考一下您希望擁有哪些基礎模型的一部分,以及您可以從使用的平臺貢獻哪些訓練數據。您可能擁有的數據比您意識到的還要多——您的研究論文、未發布的藝術品、您的 Google 文檔、您的約會資料、您的醫療記錄、您的 Slack 消息。將這些數據整合在一起的一種方法是通過個人伺服器,這使您可以輕鬆地將您的私人數據與本地 LLM 一起使用。將來,您的個人伺服器還可以訓練您擁有的用戶基礎模型的一部分。
基礎模型傾向於壟斷,因為它們需要在數據和計算方面進行大量的前期投資。我們很容易選擇簡單的選項:盡我們所能地使用落後幾代的開源模型,即大型人工智慧公司的殘餘。但我們不應該滿足於落後幾代,只吃剩飯剩菜!作為用戶,我們應該創建我們自己的最佳模型——我們擁有實現這一目標的數據和計算能力。
隨著人工智慧越來越有能力完成有價值的經濟工作,一場巨大的經濟轉變正在發生。大型科技公司已經根據您的公開工作、寫作、藝術作品、照片和其他數據以及其他人的數據訓練了人工智慧模型,並開始每年賺取數十億美元(1)。他們現在正在追逐您在公共網際網路上無法獲取的數據,從 Reddit 等公司購買您的私人數據,這樣他們就可以將人工智慧的收入增加到每年數萬億美元(2、3 )。
您難道不應該擁有由您的數據幫助創建的AI 模型的一部分嗎?
這就是數據 DAO 的作用所在。數據 DAO 是一個去中心化的實體,允許用戶匯集和管理他們的數據,並用代表特定數據集所有權的數據集特定代幣獎勵貢獻者。它有點像數據的工會。這些數據集可以複製甚至超越大型科技公司以數億美元出售的數據集 ( 4 )。DAO 對數據集擁有完全控制權,可以選擇將其出租或出售匿名副本。例如,Reddit 數據甚至可以用來播種新的、用戶擁有的平臺,包括好友、你過去的帖子和其他數據,這些數據可以在新平臺上隨時使用。
如果您對技術細節感興趣:數據 DAO 有兩個主要組成部分:1)鏈上治理,通過數據貢獻獲得代幣;2)安全伺服器,使用公鑰-私鑰對進行加密,社區擁有的數據集駐留在該伺服器中。要做出貢獻,您首先要驗證數據以證明所有權並估計其價值。然後,使用伺服器的公鑰在瀏覽器中加密數據,並將加密數據存儲在雲中。只有當 DAO 批准授予訪問權限的提議時,數據才會解密。例如,它可以允許 AI 公司租用數據來訓練模型。您可以在此處閱讀有關 Vana 網絡架構的更多信息,該網絡旨在實現數據集和模型的集體所有權。
數據 DAO 不僅使用戶受益,還推動了 AI 的發展,使像開源軟體一樣構建 AI 成為可能,讓所有做出貢獻的人受益。開源 AI 正在努力尋找可行的商業模式:支付 GPU、數據和研究人員的費用非常昂貴。而且,一旦模型訓練完成,如果它是開源的,就無法收回這些成本。數據 DAO 的技術架構可以應用於模型 DAO,用戶和開發人員可以貢獻數據、計算和研究以換取模型的所有權。
當今社會的默認選項是允許大型科技公司獲取我們的數據,並用它來訓練為我們工作的人工智慧模型。他們從這些人工智慧模型中獲利,因為我們被用我們的數據訓練的模型所取代。這對社會來說是一筆非常糟糕的交易,但對大型科技公司來說卻是一件好事。防止這種情況發生的唯一方法是採取集體行動。數據就是貨幣,集體數據就是力量。我鼓勵你參與:世界上第一個專注於 Reddit 數據的數據 DAO今天在 Vana 網絡上上線。通過打破少數特權階層控制的數據護城河,數據 DAO 開闢了一條通往真正用戶擁有的網際網路的道路。