ユーザーが所有するインターネットに行く

2022年、私(アンナ)は、インターネットから公開されているのではなく、プライベートデータを使用して訓練されたユーザー所有のベースモデルを提案する提案を書きました。パブリックデータ(Wikipedia、4chanなど)を使用して基本モデルをトレーニングすることは可能だと思いますが、次のレベルに引き上げる必要があると思いますが、アクセスする必要があるものにのみ存在する高品質のプライベートデータが必要です。プラットフォーム(Twitter、個人的なメッセージ、会社情報など)。

この予測は実施され始めています。RedditやTwitterのような企業はプラットフォームデータの価値を認識しているため、開発者API(1、2)にロックして、他の企業がテキストデータを使用して基礎となるモデルをトレーニングすることを防ぎました。

これは、2年前と比較して劇的に変化しました。ベンチャーキャピタリストのサム・レッスンは、変化を要約しました。たとえば、GPT-3はwebtext2でトレーニングされています。これは、Redditの新しいAPIを使用した後も不可能です。

インターネットはますます開かれていないようになり、孤立したプラットフォームは、貴重なトレーニングデータを保護するために大きな壁を構築しています。

開発者はこのデータに大規模にアクセスすることはできなくなりましたが、データプライバシー規制により、個人はプラットフォーム全体で独自のデータにアクセスしてエクスポートできます(5、6)。プラットフォームが開発者APIにロックされているが、個々のユーザーが独自のデータにアクセスできるが、1億ユーザーがプラットフォームデータをエクスポートして世界最大の宝庫データを作成できるという事実は?このデータのトレジャーハウスは、大規模なハイテク企業や他の企業によって収集されたすべてのユーザーデータを集計します。これは、これまでで最大かつ最も包括的なトレーニングデータセットであり、今日の主要な基本モデルをトレーニングするために使用されるデータセットの100倍です。1

表1。データ

基本モデルトレーニングデータセットをサンプルユーザーデータセットと比較するという大まかな推定。ソースと計算。

ユーザーは、ユーザーが持っている基本モデルを作成できます。これは、どの企業が集約できるよりも多くのデータを使用します。基本モデルのトレーニングには、多くのGPU計算が必要です。ただし、各ユーザーは独自のハードウェアを使用してモデルのごく一部をトレーニングし、これらのパーツをマージして、より大きくより強力なモデルを作成できます(7、8、9)。2インセンティブが適切な場合、ユーザーは多数の計算を収集できます。たとえば、イーサリアムマイナーの計算の合計量は、主要な基本モデルのトレーニングに使用されるよりも50倍高いです。

表2。計算

Ethereum Miner GPUと比較して、基礎となるモデルのトレーニングに使用されるデータセンターの浮動小数点操作の総数(1秒あたりのフロート=「思考」速度の合計)。3計算源を使用します。

モデルに貢献するユーザーは、モデルをまとめて所有および管理します。モデルを使用するときに支払うことができ、データがモデルを改善する量に比例して支払うこともできます。集団は、誰がモデルにアクセスできるか、どのコントロールを実装する必要があるかなど、使用規則を設定できます。おそらく、各国のユーザーは、イデオロギーと文化を表す独自のモデルを作成するでしょう。あるいは、国は適切な分割線ではないかもしれません。各ネットワーク国には、メンバーデータに基づいて独自の基礎モデルがある世界が表示されます。

あなたが持っている基礎となるモデルのどの部分と、あなたが使用するプラットフォームからどのトレーニングデータを提供できるかについて考えるために時間をかけることをお勧めします。あなたの研究論文、未発表のアートワーク、あなたのGoogleドキュメント、あなたの出会い系プロファイル、あなたの医療記録、あなたのスラックメッセージなど、あなたが気づいているよりも多くのデータを持っているかもしれません。このデータをまとめる1つの方法は、個人サーバーを使用することです。これにより、ローカルLLMでプライベートデータを簡単に使用できます。将来、個人サーバーは、持っているユーザーベースモデルの一部をトレーニングすることもできます。

基礎となるモデルは、データとコンピューティングにかなりの前向きな投資を必要とするため、独占的である傾向があります。簡単なオプションを選択するのは簡単です。世代に遅れをとっているオープンソースモデル、大規模なAI企業の残骸を使用して、できる限り使用してください。しかし、私たちは世代に遅れをとって残り物だけを食べることに満足するべきではありません!ユーザーとして、私たちは独自の最高のモデルを作成する必要があります。これを達成するためのデータと計算能力があります。

AIは貴重な経済活動を完了することができるようになっているため、大きな経済的変容が起こっています。大規模なハイテク企業は、公務、執筆、アートワーク、写真、その他のデータなどに基づいてAIモデルを訓練し、年間数十億ドルを稼ぎ始めました(1)。彼らは現在、パブリックインターネットにアクセスできないデータを追いかけており、Redditのような企業から個人データを購入して、AIの収益を年間数兆ドルに増やすことができます(2、3)。

データヘルプによって作成されたAIモデルの一部を持つべきではありませんか?

これがデータDAOの動作です。Data DAOは、ユーザーがデータを集約および管理し、特定のデータセットの所有権を表す特定のトークンで貢献者に報酬を与えることを可能にする分散型エンティティです。それは一種のデータユニオンのようなものです。これらのデータセットは、大規模なハイテク企業が数億ドルで販売するデータセットを複製または上回ることさえできます(4)。DAOはデータセットを完全に制御し、匿名のコピーをレンタルまたは販売するオプションがあります。たとえば、Redditデータを使用して、新しいプラットフォームでいつでも使用できる友人、過去の投稿、その他のデータなど、新しいユーザー所有のプラットフォームを播種することもできます。

技術的な詳細に興味がある場合:DAOには2つの主要なコンポーネントがあります。 。貢献するには、最初にデータを検証して所有権を証明し、その価値を推定する必要があります。次に、サーバーの公開キーを使用して、ブラウザ内のデータを暗号化し、クラウドに暗号化されたデータを保存します。データは、DAOがアクセスを付与する提案を承認した場合にのみ復号化されます。たとえば、AI企業がモデルをトレーニングするためにデータをレンタルできるようにする可能性があります。Vana Network Architectureの詳細については、データセットとモデルの集合所有権を実装することを目的としています。

Data DAOは、ユーザーに利益をもたらすだけでなく、AIの開発を推進し、AIのようなオープンソースソフトウェアを構築し、貢献するすべての人に利益をもたらすことを可能にします。オープンソースAIは、実行可能なビジネスモデルを見つけるのに苦労しています。GPU、データ、研究者に支払うのは非常に高価です。また、モデルがトレーニングされると、オープンソースの場合、これらのコストを回収できません。データDAOの技術的アーキテクチャは、モデルの所有権と引き換えにデータ、計算、および研究に貢献できるモデルDAOに適用できます。

今日の社会のデフォルトのオプションは、大手ハイテク企業が当社のデータを取得し、それを使用して私たちのために働くAIモデルを訓練できるようにすることです。データでトレーニングされたモデルに置き換えられているため、これらのAIモデルから利益を得ています。これは社会にとって非常に悪いことですが、大手ハイテク企業にとっては良いことです。これが起こらないようにする唯一の方法は、集団行動をとることです。データは通貨であり、集合データはパワーです。私はあなたが参加することをお勧めします:Redditデータに焦点を当てた世界初のデータDAOは今日VANAネットワークでオンラインです。特権的な少数派によって制御されたデータモートを破ることにより、DATは実際のユーザーが所有するインターネットへの道を開きました。

  • Related Posts

    2025年のDAOデザインの69トレンド

    翻訳者の序文 分散型の自律組織(DAO)は急速に上昇し、グロ…

    ダオからハイブリッドダオまで:人間とAIはどのように共同で統治しますか?

    著者:Davide Crapis出典:概念翻訳:Shan O…

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です

    You Missed

    従来の複製からイノベーションまで、バックパックは未来をつかむことができますか?

    • 投稿者 jakiro
    • 3月 26, 2025
    • 9 views
    従来の複製からイノベーションまで、バックパックは未来をつかむことができますか?

    Saylorの200兆ドルのBTC戦略:米国BTCの支配と不滅

    • 投稿者 jakiro
    • 3月 26, 2025
    • 10 views
    Saylorの200兆ドルのBTC戦略:米国BTCの支配と不滅

    EthereumのPectraとFusakaへの2つの主要なアップグレードについて詳しく説明しています。 ETHには何がもたらされますか?

    • 投稿者 jakiro
    • 3月 26, 2025
    • 10 views
    EthereumのPectraとFusakaへの2つの主要なアップグレードについて詳しく説明しています。 ETHには何がもたらされますか?

    Coingecko:投資家は暗号AIテクノロジーの可能性をどのように見ていますか?

    • 投稿者 jakiro
    • 3月 26, 2025
    • 11 views
    Coingecko:投資家は暗号AIテクノロジーの可能性をどのように見ていますか?

    Galaxy:先物ガバナンスシステムとチェーン予測市場の現在の状況に関する研究

    • 投稿者 jakiro
    • 3月 26, 2025
    • 8 views
    Galaxy:先物ガバナンスシステムとチェーン予測市場の現在の状況に関する研究

    EthとSolanaからの最新のアップデート:注意を払うべきことは何ですか?

    • 投稿者 jakiro
    • 3月 25, 2025
    • 9 views
    EthとSolanaからの最新のアップデート:注意を払うべきことは何ですか?
    Home
    News
    School
    Search