
アナリストおよびソフトウェアエンジニアとして働いてきたプロの投資家は、TwitterのBig VによってリツイートされたNvidiaに弱い記事を書きました。Nvidiaの市場価値は、これまでに特定の上場企業にとって最大の1日の減少である6,000億ドル近く蒸発しました。
このジェフリー・エマニュエルの投資家の主なポイントは、Deepseekが過大評価されているウォール街、大規模なテクノロジー企業、Nvidiaによって作られた牛革を暴露することです。「すべての投資銀行は、盲人がガイドをしているように、Nvidiaを購入することを推奨しており、彼らが何を言っているのか分かりません。」
ジェフリー・エマニュエルは、Nvidiaが現在の成長軌道と利益率を維持するためのはるかに粗い道に直面していると述べた。NVIDIAを攻撃するには5つの異なる方向性があります。建築革新、顧客垂直統合、ソフトウェアの抽象化、効率のブレークスルー、製造民主化 – 少なくとも1つの成功の可能性は、NVIDIAの利益率または成長率に大きな影響を与えます。現在の評価から判断すると、市場はこれらのリスクを考慮していません。
一部の業界投資家によると、エマニュエルはこのレポートのために突然ウォール街の有名人になり、多くのヘッジファンドは彼に1時間あたり1,000ドルを支払い、NvidiaとAIについての意見を聞きました。私の喉はとても忙しかったので喫煙していましたが、お金を数えたいと思いました。
以下は、レポートの全文です。完全な参照学習。
投資アナリストとして、ミレニアムやバリヤスニーで働くなど、さまざまな長い/短いヘッジファンドで約10年間、2010年以来深い学習を勉強している数学とコンピューターのファン(当時、ジェフ・ヒントンはまだ制限付きのボルツマンについて話していました。マシン、すべてがまだMATLABを使用してプログラミングしていましたが、研究者はサポートベクターマシンを使用するよりも手書きの数字を分類することでより良い結果を得ることができることを証明しようとしていました)、私は人工的にインテリジェントの開発に関するかなりユニークな見解があると思います技術と株式市場の株式評価との関係。
過去数年にわたり、私は開発者としてより多く働いており、さまざまな形式のAIモデル/サービスを処理するためのいくつかの人気のあるオープンソースプロジェクトを持っています(LLM Aided OCR、Swiss Army Llamaを参照してください。推論層など)。基本的に、私はこれらの最先端のモデルを毎日集中的に使用しています。私は3つのクロードアカウントを持っているので、私はリクエストを使い果たすことはなく、ChatGpt Proがライブになってから数分後にサインアップしました。
また、最新の研究の進捗状況を理解し、主要な人工知能研究所が発表したすべての重要な技術報告書を注意深く読むよう努めています。したがって、私はこの分野と物事がどのように進んでいるかをかなりよく理解していると思います。一方、私は私の人生で多くの株をショートさせ、Value Investor Clubから2回の最高の創造性賞を受賞しました(TMS LongsとPDHショートパンツをフォローしている場合)。
私はこれを誇示するのではなく、技術者や専門的な投資家に私が絶望的に幼稚だと感じさせることなく、この問題について話すことができることを証明するためにこれを言います。もちろん、私よりも数学/科学に習熟している人は間違いなく多くの人がいます。また、株式市場での長い/短い投資で私よりも優れている人はたくさんいますが、私はできる人は多くないと思います私のようなベンチャートの真ん中に。
それにもかかわらず、ヘッジファンド業界の友人や元同僚と会ってチャットするたびに、このトピックはすぐにNvidiaに頼ります。英国、フランス、ドイツの合計株式市場を超える不明瞭から市場価値に成長している企業の現象は、あなたが毎日遭遇することができるものではありません!これらの友人たちは、当然、私がこの問題についてどう思うか知りたいと思っています。このテクノロジーが長期的な変革的影響を与えると固く信じているからです。今後5〜10年で経済と社会のあらゆる側面を完全に変えると信じています。これは基本的に前例のないことです。 nvidia開発の勢いは、短期的に減速または停止します。
しかし、私は過去1年間で評価が高すぎると思いますが、最近の一連の発展は、見込み客についてより慎重になるという私の直感に少し傾いていました。sayingは「賢者は最初を信じ、愚かな人は最終的に信じています。
ブルマーケットケース
私がheした進歩について議論する前に、NVDA株の強気市場を簡単にレビューしましょう。深い学習と人工知能は、インターネット以来最も変革的な技術であり、私たちの社会のすべてを根本的に変えることが期待されています。トレーニングと推論インフラストラクチャに使用される業界の総資本支出の一部に関しては、Nvidiaは何らかの形で独占に近い立場にあります。
Microsoft、Apple、Amazon、Meta、Google、Oracleなど、世界最大かつ最も収益性の高い企業の一部は、他の人に遅れをとることの結果を余裕がないため、この分野で競争力を維持することを決定しました。 。資本支出の量、電力消費、新しいデータセンターの面積、そしてもちろんGPUの数はすべて爆発し、減速の兆候はないようです。Nvidiaは、データセンター用のハイエンド製品で、最大90%の驚くべき総利益率を獲得できます。
ブルマーケットの表面に触れました。現在、より多くの側面があります。すでに非常に楽観的な人でさえ、より楽観的になります。ヒューマノイドロボットの台頭とは別に(ほとんどの人が、現在洗濯、清掃、片付け、料理など、未熟練(または熟練した)労働者を必要とするタスクを迅速に完了できる場合、驚くと思われます。労働者チームの建設作業で行われますバスルームの装飾や倉庫の管理やフォークリフトの運転など)など、ほとんどの人が考慮していない他の要因があります。
賢い人々が語る主要なトピックは、「拡大の新しい法則」の台頭です。これは、人々がコンピューティングの需要が時間の経過とともにどのように成長するかについて考える新しいパラダイムを提供します。2012年のAlexNetの出現と2017年の変圧器アーキテクチャの発明以来、人工知能の進歩を推進する当初の拡張法は、トレーニング前の拡張法です。数兆)、使用するモデルがより多くのパラメーターをトレーニングするほど、これらのトークンでこれらのモデルをトレーニングするために計算能力(フロップ)が高くなり、最終モデルのパフォーマンスが非常に有用なダウンストリームタスクでより良くなるほど、 。
それだけでなく、この改善はある程度まで予測可能であるため、Openaiや人類のような主要なAIラボは、実際にトレーニングを開始する前に、最新のモデルがどれほど良いかを正確に知ることさえできます最終モデルのベンチマーク値は、数パーセントポイント以下のエラーを伴うものです。この「拡大の原始法」は非常に重要ですが、それを使用する人々は常に未来を予測します。
まず、世界に蓄積された高品質のトレーニングデータセットを使い果たしたようです。もちろん、これは完全に真実ではありません。トレーニングデータとして適切な許可なしに、デジタル化されていても、適切にデジタル化されていない古い本や雑誌がまだたくさんあります。問題は、たとえあなたがあなたに帰属したとしても、1500年から2000年までに生産された書かれた英語の「プロフェッショナル」の合計を、15兆近くのマークのトレーニングコーパスについて話すとき、視点からの割合から、これはそうではありません。トレーニングコーパスの膨大な数とスケールは、現在の最先端モデルのスケールです。
これらの数字の真正性をすばやく確認するには、Google Booksがこれまでに約4,000万冊の本をデジタル化しました。もちろん、その大部分は、厳密に合法かどうかに関係なく、大規模な研究所で使用されているトレーニングコーパスに含まれています。また、多くのアカデミックペーパーがあり、ARXIV Webサイトだけに200万件以上の論文があります。議会図書館には、30億ページ以上のデジタル新聞があります。追加すると、合計は7Tトークンほど高くなる可能性がありますが、そのほとんどは実際にトレーニングコーパスに含まれているため、残りの「増分」トレーニングデータは全体的な計画ではそれほど重要ではないかもしれません。
もちろん、より多くのトレーニングデータを収集する他の方法があります。たとえば、すべてのYouTubeビデオを自動的に転写して、これらのテキストを使用できます。これは役立つかもしれませんが、世界を理解するための有用な知識源であるオーガニック化学の高く評価されている教科書よりも、それは確かに品質がはるかに低いです。したがって、当初の規模の法則の観点から、私たちは常に「データ壁」の脅威に直面していますが、より多くの資本支出をGPUに投資し続け、より多くのデータセンターを構築し続けることができます。知識それははるかに困難であり、この知識は既存の知識を正しく補完します。現在、それに対処する興味深い方法は、「合成データ」の台頭です。つまり、テキスト自体はLLMの出力です。これは少しばかげているように見えるかもしれませんが、「あなた自身の供給を通じてモデルの品質を改善する」は、少なくとも数学、論理、コンピュータープログラミングの分野では、実際には非常に効果的です。
もちろん、その理由は、これらの分野の物事の正確性を機械的にチェックして証明できるためです。そのため、巨大な数学的定理またはPythonスクリプトからサンプリングしてから、実際に正しいかどうかを確認できます。正しいデータのみがデータベースに含まれます。このようにして、少なくともこれらの分野では、高品質のトレーニングデータの収集を大幅に拡張できます。
テキストに加えて、他のさまざまなデータを使用して人工知能をトレーニングすることもできます。たとえば、人工知能を訓練するために1億人のすべてのゲノムシーケンスデータ(1人の非圧縮データの量は約200GBから300GB)を使用した場合はどうなりますか?これは明らかに大量のデータですが、そのほとんどは2人の間でほぼ同じです。もちろん、本やインターネットのテキストデータと比較すると、さまざまな理由で誤解を招く可能性があります。
元のゲノムサイズは、マーカーの数と直接比較することはできません
ゲノムデータの情報内容は、テキストの情報とは大きく異なります
非常に冗長なデータのトレーニング値はまだ明確ではありません
ゲノムデータを処理するための計算要件も異なります
しかし、それはまだ将来それを訓練できる別の大きな情報源であるため、私はそれを含めています。
そのため、近年、トレーニングコーパスの成長率を見ると、ますます多くのトレーニングデータを取得することが期待されていますが、「普遍的な有用な」知識データの入手可能性に遭遇することがすぐにわかりますある種の知識は、私たちの究極の目標に近づくのに役立ちます。これは、ジョン・フォン・ノイマンよりも10倍スマートに人工的なスーパーインテリジェンスを獲得し、人間に知られているすべての専門分野の世界クラスの専門家になることです。
利用可能な限られたデータに加えて、トレーニング前の拡張法の支持者は、常に他の懸念を念頭に置いています。それらの1つは、モデルトレーニングを完了した後、これらすべてのコンピューティングインフラストラクチャを処理する方法です。次のモデルをトレーニングしますか?もちろん、あなたはそれを行うことができますが、GPUの速度と容量の急速な増加、および経済コンピューティングにおけるその他の運用コストの重要性を考えると、2年前のクラスターを使用して新しいモデルを訓練することは本当に理にかなっていますか?もちろん、構築したばかりの新しいデータセンターを使用することを好みます。これには、古いデータセンターのコストの10倍かかり、その高度なテクノロジーのために、古いデータセンターの20倍のパフォーマンスを実行します。問題は、ある時点で、これらの投資の前払いコストを償却し、(できれば肯定的な)営業利益ストリームを通じてコストを回収する必要があることです。
市場は人工知能に非常に興奮しているため、この点を無視しているため、Openaiのような企業は最初から営業損失を蓄積することができますが、同時にその後の投資でより高い評価を得ることができます(もちろん、賞賛に値します。また、非常に急速に成長している収益を示しています)。しかし、最終的に、市場サイクル全体でこれを維持するには、これらのデータセンターのコストを最終的に回復する必要があり、利益を上げることが最善です。調整。
新しいパラダイム
わかりました、これはトレーニング前の拡張の法則です。それで、この「新しい」拡張法は何ですか?まあ、これは人々が過去1年間に焦点を合わせ始めたものです:推論時間計算拡張。この前に、プロセスに費やした計算のほとんどを使用して、モデルの予備トレーニング計算を作成しました。訓練されたモデルを取得したら、そのモデルについて推論する(つまり、質問をするか、LLMに何らかのタスクを実行するようにすること)を推論するだけで、一定数の計算を使用します。
重要なことに、推論計算の合計量(フロップ、GPUメモリフットプリントなど、さまざまな方法で測定)は、トレーニング前フェーズで必要な計算量よりもはるかに低いことです。もちろん、モデルのコンテキストウィンドウサイズと一度に生成される出力を増やすと、推論計算が増加します(ただし、研究者はこの点で驚くべきアルゴリズムの改善を行っており、元々予想していた拡大の規模は2次でした)。しかし、基本的には、推論計算がトレーニングの計算よりもはるかに低く、処理された要求の数に本質的に比例していました。
昨年発売された革新的なチェーンチェーン(COT)モデルの出現により、最も注目すべきものはOpenaiのフラッグシップモデルO1です(しかし、最近Deepseekの新しいモデルR1もこのテクノロジーを使用しています。変化しました。これらの新しいCOTモデルは、モデルによって生成された出力テキストの長さに直接比例しなくなります(コンテキストウィンドウ、モデルサイズなどの場合、比例して増加します)問題を解決したり、指定されたタスクを完了しようとするときに、モデルのメモリ「または「内部モノローグ」。
これは、推論コンピューティングの方法の真の変化を表しています。これで、この内部思考プロセスで使用するトークンが多いほど、ユーザーに提供する最終出力の品質が向上します。実際、労働者にタスクを完了するためにより多くの時間とリソースを提供し、繰り返し、同じ基本的なタスクをさまざまな方法で完了し、結果が同じであることを確認できます式に、実際に方程式などを解決したかどうかを確認します。
結局のところ、このアプローチの効果はほとんど驚くべきものです。トランスモデルの最大の弱点の1つ、つまり「幻覚を作成する」傾向の1つを直接解決します。
基本的に、各ステップの次のマーカーを予測するときの変圧器の動作は、最初の応答で間違った「パス」に進み始めた場合、彼らが彼らがなぜであるかを説明するためにストーリーを作り上げようとするshirい子供のようになるということです。実際に正しいのは、たとえ彼らが彼らの言うことが正しいことではないという方法で実現するために常識を使用する必要がある場合でも。
モデルは常に本質的な一貫性を維持し、前のマーカーとコンテキストから各連続的に生成されたマーカーを自然にしようとするため、補正とバックトラックをルーティングすることは困難です。推論プロセスを多くの中間段階に分解することにより、彼らは多くの異なる方法を試し、どの方法を動作させるかを確認し、彼らがでたらめではないというかなり高いレベルの自信に達するまで、ルートの修正やその他の方法を試してみることができます。
このアプローチで最も特別なことは、その実際の効果に加えて、使用するロジック/COTトークンが多いほど効果が向上することです。突然、余分なターンテーブルがあり、COT推論のトークンの数が増加すると(これは、それが浮動小数点操作であろうとメモリであろうと、より多くの推論計算が必要です)、正しい答えを与える確率が高くなります – コードはエラーがありません。最初の実行時、またはロジック問題の解決策は、推論手順に明らかなエラーがありません。
多くの直接的な経験から、AnthropicのClaude3.5 SonnetモデルはPythonプログラミングが優れている(非常に優れています)が、長くて複雑なコードを生成する必要がある場合は常に1つになります。これで、これらのエラーは通常簡単に修正できます。実際、Pythonインタープリターによって生成されたエラーをその後の推論ヒントとして使用する必要があることがよくあります(または、より実際には、コードエディターで見つかった完全な「問題」が使用されています。いわゆるリナーセットはコードに貼り付けられ、さらに説明せずに修正できます。コードが非常に長くなったり、非常に複雑になったりすると、修正に時間がかかることがあり、手動のデバッグが必要になる場合があります。
OpenaiのO1モデルを初めて試したとき、それは啓示のようでした。コードが初めてどれほど完璧だったかに驚きました。これは、COTプロセスがモデルによって与えられた回答のトークンに最終的に応答する前に、問題を自動的に発見して修正するためです。
実際、OpenaiのChatGPT Plusサブスクリプションサービス(月額20ドル)で使用されているO1モデルは、新しいChatGPT Proサブスクリプションサービス(前者の10倍、つまり、開発者コミュニティで大騒ぎを引き起こした月額200ドル)と協力しています。 O1-ProモデルでO1-Proモデルで使用されるモデルは、基本的に同じです。主な違いは、O1-Proが応答する前により長く考え、より多くのCOTロジックマークを生成し、各応答が多くの推論コンピューティングリソースを消費することです。
これは非常に印象的です。なぜなら、Claude3.5ソネットまたはGPT4Oであっても、約400kb以上のコンテキストが与えられたとしても、非常に冗長で複雑なヒントは通常、応答を開始するのに10秒未満で、しばしば5秒未満です。また、O1-Proの同じプロンプトは、応答を得るのに5分以上かかる場合があります(Openaiは待機プロセス中に生成された「推論ステップ」の一部を示しています。それがあなたから生成する正確な理由は、代わりに非常に簡素化された要約を示します)。
ご想像のとおり、多くの場合、正確性が重要です。むしろ、簡単に間違っていることが証明されるかもしれない答えを与えることや、事実や他のもっともっともらしいが、理由ではないという幻想を与えるよりも、あなたはそれをすることができないことをあきらめて伝えたいと思います回答。ほんの数例を挙げると、お金/取引、医療、法律を伴うもの。
基本的に、推論コストがAIシステムと相互作用する人間の知識労働者の完全な1時間ごとの報酬に対して些細なことである限り、この場合、COT計算を呼び出すことは完全に不必要になります(主な欠点は、これが応答遅延を大幅に増加させることです、したがって、場合によっては、より短いレイテンシ、より低い精度、またはより低い正しさで応答を取得することにより、反復をスピードアップすることをお勧めします。
数週間前、OpenAIによってまだリリースされていないO3モデルを含む人工知能の分野でいくつかのエキサイティングなニュースが出てきました。近い将来。Openaiは、これらの最も困難な問題(非常に熟練したプロの数学者にとっても困難な非常に困難な「基本的な」数学的問題を含む)を解決できます。これは、Openaiが多くのコンピューティングリソースを投資するためです。 (対照的に、従来の変圧器モデルを使用して、単一のタスクの従来の推論コストは、思考チェーンなしで数ドルを超える可能性は低い)。
AIの天才は、この進捗が、元の訓練を受けた拡張法とはまったく異なる完全に新しい拡張法則を作成することを認識する必要はありません。今では、できるだけ多くのコンピューティングリソースとできるだけ多くの高品質のトレーニングデータを巧みに活用することで、最高のモデルをトレーニングしたいと考えていますが、これはこの新しい世界のストーリーの始まりに過ぎません非常に高い信頼レベルを得るためにこれらのモデルからのみ推測するコンピューティングリソースの数、または通常の法律マスターにつながる可能性のあるすべての潜在的な落とし穴を回避するために「天才レベル」の推論を必要とする非常に困難な問題を解決しようとすることを試みました。
しかし、なぜNvidiaはすべての利益を得なければならないのでしょうか?
あなたが私のように信じていたとしても、人工知能の将来の見通しはほとんど想像もできません。しかし、主な勝者は、初期段階で最も有望に見える企業ではありません。Wright Brothersの航空機会社はテクノロジーを発明し、完成させましたが、複数の企業に進化したにもかかわらず、同社は現在100億ドル未満の市場価値を持っています。フォードは現在400億ドルのかなりの市場価値を持っていますが、これはNVIDIAの現在の市場価値のわずか1.1%です。
これを理解するには、Nvidiaがこのような大きな市場シェアを占める理由を本当に理解する必要があります。結局のところ、GPUを製造している会社だけではありません。AMDは、データから判断してGPUを生成します。もちろん、AMD GPUはnvidia GPUほど高速で高度ではありませんが、Nvidia GPUは10倍高速または類似していません。実際、AMD GPUは、フロップあたりの生のコストに関してNvidia GPUの半分しかありません。
DRAM市場などの他の半導体市場の観点からは、市場は非常に集中していますが、3つのグローバル企業(Samsung、Micron、Sk-Hynix)のみが実際的に重要であるため、DRAM市場の総利益率はマイナスですサイクルの一番下は約60%で、平均は約20%です。対照的に、最近の四半期におけるNvidiaの全体的な総利益率は約75%であり、主に低い利益率と高い商品を備えた消費者グレードの3Dグラフィックス製品によって引き下げられました。
それで、これはどのように可能ですか?まあ、主な理由はソフトウェアに関係しています – Linux上の「直接利用可能」で高度にテストされ、非常に信頼性の高いドライバー(Linuxドライバーが低品質で不安定な品質で有名なAMDとは異なります)、および高度に最適化されたオープンPytorchなどのソースコードは、調整後にNvidia GPUでうまく機能します。
それだけでなく、GPUに最適化された低レベルのコードを作成するためにプログラマーが使用するプログラミングフレームワークであるCudaは、Nvidiaが完全に所有しており、事実上の標準になっています。GPUを使用する方法を知っている非常に才能のあるプログラマーのグループを雇いたい場合は、仕事をスピードアップし、年間650,000ドルの給与、またはこの特定のスキルを持っている人の現在の給与レベルを支払うことをいとわない場合、彼らはそうする可能性があります「考え」、Cudaと一緒に働きます。
ソフトウェアの利点とは別に、NVIDIAのもう1つの大きな利点は、いわゆる相互接続です。本質的に、それは数千のGPUを一緒に効率的に接続して、今日の最先端の基本モデルを訓練するために一緒に使用できる帯域幅です。要するに、効率的なトレーニングの鍵は、トレーニングの次のステップに必要な次のデータバッチが受信されるまで、アイドリングと待機するのではなく、常にすべてのGPUを完全に使用することです。
帯域幅の要件は非常に高く、従来のデータセンターアプリケーションに必要な典型的な帯域幅よりもはるかに高くなっています。この相互接続は、従来のネットワークデバイスやファイバーを使用することはできません。なぜなら、それらはあまりにも多くの遅延をもたらし、テラバイトの帯域幅を毎秒提供できないため、すべてのGPUを常に忙しく保つために必要なものです。
Nvidiaは、2019年にイスラエルの会社Mellanoxを69億ドルで買収しました。これは非常に賢明な決定であり、業界をリードするインターコネクトテクノロジーを提供したのはこの買収でした。相互接続速度は、推論プロセス(COT推論を含む)よりもトレーニングプロセス(同時に数千のGPUの出力を同時に利用する必要がある)により密接に関連しており、推論プロセスには少数のGPUのみが必要であることに注意してください。訓練されたモデルの量子化(圧縮)モデルの重みを保存するのに十分なVRAMが必要です。
これらはNvidiaの「堀」の主要なコンポーネントであり、そのような高い利益率を長期間維持できる理由であると言えます(「フライホイール効果」もあります。研究開発の量は、競合他社よりも速くテクノロジーを改善するのに役立つため、常に生のパフォーマンスに邪魔をしています)。
しかし、前述のように、同じ条件が多くの場合、1ドルあたりのパフォーマンス(デバイスの前払い資本支出コスト、つまりワットあたりのパフォーマンスを含む)である他のすべてのケースでは、NvidiaのGPUは最速のものですが、フロップだけで、それらは最も費用対効果が高いわけではありません。
しかし、問題は、他の要因が同じではなく、AMDのドライバーはひどく、人気のあるAIソフトウェアライブラリがAMD GPUでうまく動作しないことです。ゲームフィールドの外では、AMD GPUが本当に得意なGPUの専門家を見つけることができません。 (なぜ彼らは、CUDAの専門家に対するより大きな需要があるのですか?)AMDの不十分な相互接続技術のために、何千ものGPUを効果的に接続することはできません。基本的に競争力がなく、短期的には良い開発の見通しを持っていないようです。
OK、Nvidiaには素晴らしい見方があるようですね。今、あなたはその株がそんなに評価されている理由を知っています!しかし、他の隠れた心配はありますか?まあ、私は大きな注目に値する多くの隠れた心配があるとは思わない。過去数年間、いくつかの問題が舞台裏で潜んでいますが、成長率を考えると、その影響は最小限です。しかし、彼らは上方に移動する準備をしています。他の問題は最近(過去2週間など)出現しており、GPU需要の最近の成長の軌跡を大幅に変える可能性があります。
大きな脅威
マクロの観点からは、Nvidiaは非常にニッチな分野で非常に限られており、これらの競合他社は利益を上げていませんNvidiaのような市場のリーダーに本当に圧力をかけるのに十分な資本を持っていません。ゲーム市場は大きく成長していますが、驚くべき利益や特に驚くべき年間成長率をもたらしません。
2016年から2017年頃、一部の大規模なハイテク企業は、機械学習と人工知能の採用と支出を増やし始めましたが、全体として、これは実際に重要なプロジェクトではありませんでした。しかし、2022年にChatGptがリリースされた後、人工知能の分野での競争は実際に始まっていますが、開発の速度から長い時間がかかっているようです。
突然、大企業は驚くべき速度で数十億を投資する準備ができています。ニューリップやICMLなどの大規模な研究会議に参加している研究者の数が急増しています。以前に金融デリバティブを研究した可能性のある賢い学生は、変圧器に頼り、非執行エンジニアリングポジション(つまり、チームを管理していない独立した貢献者)の100万ドル以上の補償がAIラボの主要な標準になりました。
大型クルーズ船の方向を変更するには、非常に迅速に移動して数十億ドルを費やしていても、すべての機器を注文するには1年以上かかります(リードタイムは延長されます) 、そしてすべてのセットアップとデバッグを完了します。最も賢いプログラマーでさえ、実際に州に入り、既存のコードベースやインフラストラクチャに精通するまでに長い時間がかかります。
しかし、この分野に投資されたお金、人材、エネルギーが絶対に天文学的であると想像できます。Nvidiaは、人工知能が私たちの生活を決定する将来ではなく、今日の利益への最大の貢献者であるため、すべての参加者の最大のターゲットです。
したがって、最も重要な結論は、「市場は常に道を見つける」ということであり、彼らは、新しいアイデアを使用して障害物をバイパスし、それによってNvidiaの堀を統合するために、ハードウェアを作成するための代替の完全に革新的な新しい方法を見つけるだろうということです。
ハードウェアレベルの脅威
たとえば、セレブラスのいわゆる「ウェーハレベル」人工知能トレーニングチップは、300mmシリコンウェーハ全体を使用して、1つのチップにより多くのトランジスタとコアを含む絶対に巨大なチップを使用します(最近のブログ投稿を参照して、どのように学ぶかを学ぶ彼らは、このアプローチが経済的に実用的になることを妨げていた出力の問題に対処しました)。
これを説明するために、Cerebrasの最新のWSE-3チップをNvidiaのフラッグシップデータセンターGPU H100と比較すると、セレブラスチップの総チップエリアは46225平方ミリメートル、H100はわずか814平方ミリメートルです(業界の基準では、 H100それはそれ自体が巨大なチップです);H100のようなチップ上の132の「ストリーミングマルチプロセッサ」コアを有効にする代わりに、セレブラスチップには約900,000のコアがあります(もちろん、各コアは小さく、機能が少なくなりますが、比較すると、この数はまだ非常に大きいです)。具体的には、人工知能の分野では、セレブラスチップのフロップコンピューティングパワーは、単一のH100チップの約32倍です。H100チップの価格は40,000米ドルに近いため、WSE-3チップの価格も安くないと考えられます。
それで、ポイントは何ですか?同様のアプローチでNvidiaと正面と戦おうとするか、Mellanoxの相互接続技術に匹敵する代わりに、Cerebrasは相互接続問題をバイパスするためのまったく新しいアプローチを採用しました。それほど重要ではありません。巨大なチップはH100のトンを置き換えることができるため、同じレベルの相互接続さえ必要ありません。
さらに、セレブラスチップは、人工知能の推論タスクでも非常にうまく機能します。実際、今日はここで無料で試してみて、メタの非常に有名なLlama-3.3-70Bモデルを使用できます。その応答速度は基本的に瞬時で、1秒あたり約1500トークンです。比較の観点から、ChatGptやClaudeと比較して、ユーザーにとっては30トークン以上の速度が比較的高速であり、応答を生成しながら基本的に応答を生成するのに十分な速さです。
Cerebrasは唯一の会社ではありません。Groqのような他の会社(Elon MuskのX AIトレーニングを受けたGrokモデルシリーズと混同しないでください)。GROQは、同じ基本的な問題に対処するために別の革新的なアプローチを取ります。NVIDIAのCUDAソフトウェアスタックと直接競争しようとする代わりに、ディープラーニングモデルに必要な正確な数学操作のために「テンソル処理ユニット」(TPU)として知られるものを開発しました。それらのチップは、「決定論的コンピューティング」の概念を中心に設計されています。つまり、従来のGPUとは異なり、チップは毎回完全に予測可能な方法で操作を実行します。
これは小さな技術的な詳細のように聞こえるかもしれませんが、実際にはチップ設計とソフトウェア開発に大きな影響を与えます。時間が完全に確実であるため、GROQはチップを最適化できます。これは、従来のGPUアーキテクチャにはできないことです。したがって、過去6か月間、彼らは、Llamaシリーズモデルやその他のオープンソースモデルの1秒あたり500トークを超えるトークンの推論速度を示しており、従来のGPU設定が達成できる速度をはるかに上回っています。セレブラスのように、この製品が利用可能になりました。ここで無料で試すことができます。
「投機的デコード」関数を備えたLLAMA3モデルを使用して、GROQは1秒あたり1320トークンを生成することができます。これはセレブラスに匹敵し、通常のGPUの使用のパフォーマンスをはるかに超えています。これで、ユーザーがChatGptの速度(1秒あたり1000トークン未満)に非常に満足しているように見えるときに、1秒あたり1000トークを超えるトークンに到達することの意味を尋ねることができます。実際、これは実際に非常に重要です。すぐにフィードバックを得ると、より速く繰り返されると、人間の知識労働者のように焦点を失うことはありません。APIを介してプログラムでモデルを使用する場合、マルチステージの推論を必要とするアプリケーションの完全に新しいカテゴリのアプリケーションを有効にすることができます(前のフェーズの出力は、後続の位相プロンプト/推論の入力として使用されます)、または低遅量応答が必要です。例えば、コンテンツレビュー、詐欺検出、動的価格設定
しかし、より基本的には、リクエストへの応答が速いほど、サイクルが速く、ハードウェアがより速くなります。GROQのハードウェアは非常に高価で、サーバーのコストは最大200万ドルから300万ドルですが、需要が常にハードウェアを忙しくするのに十分な大きさである場合、各リクエストのコストは大幅に削減されます。
NvidiaのCUDAのように、GROQの強みの大部分は、その独自のソフトウェアスタックから来ています。彼らは、Meta、Deepseek、Mistralなどの他の企業によって開発および無料で開発およびリリースされたオープンソースモデルを採用し、特定のハードウェアでより速く実行するために特別な方法でそれらを分解することができました。
セレブラスのように、彼らはプロセスの特定の側面を最適化するためにさまざまな技術的決定を下し、したがって、彼らの仕事をまったく異なる方法で実行します。GROQを例にとると、彼らはトレーニングではなく、推論レベルのコンピューティングに完全に焦点を合わせています。すべての特別なハードウェアとソフトウェアは、すでに訓練されたモデルに推論する場合にのみ、大きな速度と効率の利点を及ぼすことしかできません。
しかし、人々が期待する次の主要な拡張法則が推論レベルのコンピューティングであり、COTモデルの最大の不利な点は、すべての中間論理マーカーを生成して応答するために生成する必要があることであり、その結果、推論コンピューティングのみを行う企業でさえ、過度の遅延が得られることです。 、その速度と効率がNvidiaよりもはるかに優れている限り、今後数年間で深刻な競争の脅威をもたらすでしょう。少なくとも、セレブラスとGROQは、現在の株式評価におけるNvidiaの収益成長に対する高い期待を侵食する可能性があります。
これらの特に革新的だが比較的未知の新興企業の競合他社とは別に、Nvidiaの最大の顧客自身が深刻な競争をもたらし、AIトレーニングと推論ワークロードに特化したカスタマイズされたチップを作成しています。これらの中で最も有名なのはGoogleです。これは、2016年以来独自のTPUを開発しています。興味深いことに、GoogleはTPUを外部顧客に簡単に販売しましたが、Googleは過去数年間、すべてのTPUを内部的に使用しており、第6世代のTPUハードウェアを発売しました。
Amazonはまた、Trainium2およびImedentia2と呼ばれる独自のカスタムチップを開発しています。Amazonは、Nvidia GPUに数十億ドルのデータセンターを建設していますが、これらの内部チップを使用する他のデータセンターに数十億ドルを投資しています。現在、400,000を超えるチップを備えた人類のためにオンラインになっているクラスターがあります。
Amazonは、内部AIモデル開発を完全に台無しにし、最終的に競争力のないモデルに多くの内部コンピューティングリソースを無駄にしていると批判されていますが、カスタムチップは別の問題です。繰り返しますが、Nvidiaのチップよりも優れて速くなるために、必ずしも独自のチップを必要とするわけではありません。彼らが必要とするのは十分なチップだけですが、NvidiaがH100ビジネスで獲得している約90%の総マージンではなく、壊れている総マージンでチップを作ることです。
Openaiはまた、カスタムチップを作成する計画を発表しました。彼ら(Microsoftを使用)は、明らかにNvidiaのデータセンターハードウェアの最大のユーザーです。これで十分ではないようです、Microsoft自体は独自のカスタムチップを発表しました!
世界で最も価値のあるテクノロジー企業として、Appleは長年にわたって非常に革新的で破壊的なカスタムチップビジネスを混乱させてきましたパフォーマンスは、モバイル(電話/タブレット/ラップトップ)アプリケーションで最も重要な要素です。何年もの間、彼らは独自の社内で設計されたGPUと「ニューラルプロセッサ」を生産してきましたが、iPhoneカメラで使用される高度なソフトウェアベースの画像処理など、これらのチップの実用性をカスタムアプリケーション以外で実用性を実際に証明していません。 。
Appleはこれらの他のプレーヤーとは異なるようですが、モバイルファースト、消費者向け、「エッジコンピューティング」に焦点を当てていますが、AppleがOpenaiとの新しい契約に十分なお金を投資することになった場合、iPhoneユーザーはAIサービスを提供します。彼らが推論/トレーニングのために独自のカスタムチップを作成する方法に取り組んでいるチームがあると想像するために(あなたは彼らの機密性を考えると、あなたはこれを直接知らないかもしれませんが!)。
現在、Nvidiaのスーパーエクステンダーの顧客ベースが強力な電力法の分布を示していることは秘密ではありません。いくつかのトップ顧客が高い利益収益の大部分を占めています。これらの各VIP顧客がAIトレーニングと推論のために特別に独自のカスタムチップを作成している場合、このビジネスの未来をどのように見るべきですか?
これらの問題について考えるとき、あなたは非常に重要な事実を覚えておくべきです:Nvidiaは主に知的財産ベースの会社です。彼らは独自のチップを作りません。これらの信じられないほどのデバイスを作成する秘secretは、おそらくTSMCとASMLからのものであり、これらの最先端のプロセスノードチップを作成するための特別なEUVリソグラフィマシンを製造しています。TSMCは、十分な前払い投資を提供し、一定数の顧客を保証する意思のある顧客に最先端のチップを販売するため、これは非常に重要です。彼らは、これらのチップがビットコインマイニング固有の統合回路、グラフィックスプロセッサ、熱可塑性ポリウレタン、携帯電話システムベースのチップなどに使用されることを気にしません。
シニアNvidiaチップデザイナーの年間収入は何ですか、そしてこれらのハイテク大手は、仕事をジャンプするために最高の才能のいくつかを引き付けるのに十分な現金と株を確実に出すでしょう。チームとリソースを手に入れると、2〜3年で革新的なチップを設計できます(H100の高度な50%もありませんが、Nvidiaの総利益率では、開発の余地がたくさんあります)。 TSMCのおかげで、NVIDIAとまったく同じプロセスノードテクノロジーを使用して、これらのチップを実際のシリコンウェーハに変換できます。
ソフトウェアの脅威
これらの差し迫ったハードウェアの脅威は十分に悪くなく、過去数年間ソフトウェアセクターでもある程度の進歩がなされているようであり、それは遅いスタートを切っていますが、今では強く、NvidiaのCUDAに深刻な脅威をもたらす可能性があります。ソフトウェアの優位性。最初は、AMD GPUの悪いLinuxドライバーです。なぜAMDがこれらのドライバーが何年もひどく悪くなることを不当に許可したのかを議論したときのことを覚えていますが、座ってたくさんのお金がなくなるのを見ていますか?
興味深いことに、オリジナルのiPhoneをティーンエイジャーとして侵入することで知られる悪名高いハッカーのジョージ・ホッツは、現在、自動運転のスタートアップComma.AIおよび人工知能コンピューター会社Tiny CorpのCEOであり、最近オープンソースのTiny Aiソフトウェアフレームワークを開発しました)彼はAMDの悪いドライバーに対処することにうんざりしており、彼のTinybox AIコンピューターでより安価なAMD GPUを使用できることを熱望していたと発表しました(さまざまなモデルであり、その一部はNvidia GPUを使用し、他の人はAMD GPUを使用しています)。
実際、彼はAMDの助けを借りずにAMD GPUの独自のドライバーとソフトウェアスタックを作成しました。彼の過去の記録とスキルを考えると、私たちは自分のドライバー、ランタイム、ライブラリ、エミュレーターを持っています。さまざまなアプリケーションのニーズを満たすためのGPUであり、企業は現在NVIDIA GPUの支払いをしなければなりません。
まあ、これはAMDの単なるドライバーであり、まだ完了していません。ほかに何か?まあ、ソフトウェアに大きな影響を与える他の領域があります。まず第一に、多くの大規模なテクノロジー企業とオープンソースソフトウェアコミュニティが協力して、より一般的なAIソフトウェアフレームワークを開発しています。その中には、CUDAは多くの「コンピレーション目標」の1つにすぎません。
つまり、高レベルの抽象化を使用してソフトウェアを記述し、システム自体はこれらの高レベルの構造を自動的に最適化された低レベルのコードに変換できます。しかし、この高レベルの抽象化で行われるため、低レベルのコードに簡単にコンパイルでき、そのため、多数のカスタマイズされたチップが主要なベンダーなど、さまざまなベンダーから来る他の多くのGPUやTPUでうまく実行されます。テクノロジー企業によって開発されています。
これらのフレームワークの最も有名な例は、MLX(主にAppleがスポンサー)、Triton(主にOpenaiがスポンサー)、Jax(主にGoogleが開発)です。MLXは、Appleシリコンで効率的に実行できるPytorchのようなAPIを提供し、これらの抽象化層がAIワークロードがまったく異なるアーキテクチャで実行される方法を示すため、特に興味深いです。一方、Tritonは、開発者が各プラットフォームの基礎となる詳細を理解することなく、さまざまなハードウェア目標を実行するためにコンパイルできる高性能コードを作成できるため、ますます人気が高まっています。
これらのフレームワークにより、開発者は強力な抽象化を使用してコードを作成し、多数のプラットフォームに対して自動的にコンパイルできます。これはより効率的ではありませんか?このアプローチは、実際にコードを実行するときに柔軟性を高めます。
1980年代には、最も人気のあるベストセラーのすべてのソフトウェアは、手作業のアセンブリ言語で書かれていました。たとえば、PKZIP圧縮ユーティリティは速度を最大化するために非常に手作りされているため、標準のCプログラミング言語で記述され、その時点で最高の最適化コンパイラでコンパイルされたコードのバージョンは、手動チューニングアセンブリコードの半分でのみ実行できます。Wordstar、visicalcなどの他の人気のあるソフトウェアパッケージにも同じことが言えます。
時間が経つにつれて、コンパイラはますます強力になり、CPUアーキテクチャが変更されるたびに(例:Intelリリース486からPentiumなど)、手書きのアセンブラーを廃棄および書き直す必要があります。仕事をしてください(CUDAの専門家のように、雇用市場の「通常の」ソフトウェア開発者よりも優れています)。最終的に物事は徐々に一貫しており、手動アセンブリの速度の利点は、CやC ++などの高レベルの言語でコードを書くことの柔軟性によって大きく上回りました。 CPUが与えられた。
今日、アセンブリ言語で新しいコードを書く人はほとんどいません。AIトレーニングと推論コードは最終的にほぼ同じ理由で同様のシフトを受けると信じています。コンピューターは最適化に優れていますが、柔軟性と開発速度はますます重要な要素です。 「CUDA税」の支払いを継続する必要があります。これにより、Nvidiaは利益の90%以上をもたらします。
しかし、劇的に変化する可能性のあるもう1つの領域は、CUDA自体が高レベルの抽象化、つまり熟練した開発者が高度なアルゴリズムを説明するために使用できるVerilog(チップレイアウトを説明するための業界標準として)に似た「標準言語」になる可能性があることです。大規模な並列性を含む(すでにそれに精通しているため、十分に構造化されており、共通言語などがあります)が、通常のプラクティスとは異なり、これらのコードはNVIDIA GPU用にコンパイルされていませんが、LLMに入力されます。ソースコード、LLMは、新しいセレブラスチップ、新しいAmazon Trainium2、または新しいGoogle TPUV6で理解できる低レベルコードに変換できます。これはあなたが思うほど遠くない。
理論的な脅威
おそらく、最も衝撃的な発展は前の週に起こったでしょう。このニュースはAIの世界に完全に衝撃を与え、主流のメディアはそれについて言及していませんでしたが、それはTwitterの知識人にとってホットなトピックになりました。 Openaiおよび人類(Meta Llama3モデルを超えて、Mistralのような他の小規模なオープンソースモデル)。これらのモデルは、DeepSeek-V3(基本的にGPT-4OおよびClaude3.5 Sonnetへの応答)およびDeepSeek-R1(基本的にOpenaiのO1モデルへの応答)と呼ばれます。
なぜそんなに衝撃的なのですか?第一に、Deepseekは200人未満の従業員がいると言われている小さな会社です。彼らは、TwosigmaやRentecと同様の定量的取引ヘッジファンドとして始まったと言われていますが、中国がフィールドの規制を強化した後、数学と工学の専門知識を使用してAIの研究に目を向けました。しかし、実際には、2つの非常に詳細な技術レポート、つまりDeepSeek-V3とDeepSeekR1をリリースしたということです。
これらはハイテクレポートであり、線形代数について何も知らない場合、理解するのは難しいかもしれません。ただし、AppStoreでDeepSeekアプリを無料でダウンロードし、Googleアカウントでログインしてインストールしてから、試してみるか(Androidにインストールすることもできます)、デスクトップで直接試してみることです。ブラウザ付き。「DeepHink」オプションを選択して、思考チェーン(R1モデル)を有効にし、テクニカルレポートの内容の一部を簡単な言語で説明させてください。
これはまた、いくつかの重要なことを教えてくれます:
まず第一に、このモデルは絶対に合法です。AIベンチマークには多くの誤ったコンポーネントがあり、モデルをベンチマークでうまく機能させるように操作されることがよくありますが、実際のテストでは機能しません。Googleは間違いなくこの点で最大の犯人であり、LLMがどれほど魔法であるかについて常に自慢していますが、実際、これらのモデルは現実世界のテストではパフォーマンスが低く、最も単純なタスクを確実に完了することさえできません。 。DeepSeekモデルは異なり、その応答は一貫性があり強力であり、Openaiおよび人類モデルと同じレベルです。
第二に、DeepSeekはモデルの品質に大きな進歩を遂げただけでなく、さらに重要なことに、モデルトレーニングと推論効率に大きな進歩を遂げています。ハードウェアに非常に近く、ユニークで非常に巧妙な最適化をまとめることにより、DeepSeekはこれらの信じられないほどのモデルをGPUで非常に効率的な方法でトレーニングすることができます。一部の測定によると、DeepSeekは他の最先端モデルの約45倍効率が高くなっています。
Deepseekは、DeepSeek-V3のトレーニングの全費用は500万ドルを超えていると主張しています。Openai、人類、その他の企業の基準によると、これらの企業は2024年には1億ドルを超える単一のモデルトレーニングコストのレベルに達したため、これはまったく何もありません。
これはどのように可能ですか?この小さな中国企業は、リソース、従業員数、給与、資本、GPUなどの100倍以上の主要なAIラボで最も賢い人たちをすべて完全に上回ることができますか?GPU輸出に関するバイデンの制限により、中国は弱体化するべきではありませんか?さて、詳細は非常に技術的ですが、少なくとも一般的な方法でそれらを説明することができます。おそらく、DeepSeekの比較的弱いGPU処理能力は、「需要は発明の母親である」ため、その創造性と知性を改善する重要な要因であることがわかります。
主要な革新は、トレーニングプロセス全体で8ビットの浮動小数点数(FP8)を使用できるようにする高度なハイブリッド精密トレーニングフレームワークです。「完全精度」32ビット数を使用してほとんどの西部AIラボ列車は、人工ニューロンの出力を記述するときに可能な勾配の数を基本的に指定します。FP8の8ビットは、あなたが思っているよりも広い範囲の数字を保存できます – それはそうではありません。通常の整数では256の等量の異なるサイズに制限されていますが、巧妙な数学的トリックを使用して非常に少ない数字と非常に多数を保存しますが、自然な精度は32ビットほど良くありません。)幅広い範囲で驚くべき精度で保存されていますが、FP8は多くのAIワークロードで十分な精度を維持しながら、メモリを保存し、パフォーマンスを向上させるためのある程度の精度を犠牲にします。
Deepseekは、数値をアクティブ化のために小さなチャンクに分解し、重みのためにチャンクに分解し、ネットワーク内のキーポイントで高精度計算を戦略的に使用する巧妙なシステムを開発することにより、この問題を解決します。最初に高精度トレーニングを行い、次に圧縮する他のラボ(プロセスである程度の品質を失う)とは異なり、DeepSeekのFP8ネイティブアプローチは、パフォーマンスを損なうことなく多くのメモリを保存できることを意味します。数千のGPUでトレーニングすると、各GPUのメモリ要件が大幅に削減されます。つまり、必要なGPUの総数が大幅に削減されます。
もう1つの大きなブレークスルーは、マルチマーカー予測システムです。ほとんどのトランスベースのLLMモデルは、次のタグ(一度に1つのタグ)を予測することにより推測します。
Deepseekは、単一のマーカー予測の品質を維持しながら、複数のマーカーを予測する方法を見つけました。それらの方法は、これらの追加のマーカー予測で約85〜90%の精度を達成し、あまりにも多くの品質を犠牲にすることなく、推論速度を効果的に2倍にします。巧妙なことは、彼らが完全な因果的な予測チェーンを維持することです。したがって、モデルは単なる推測ではなく、構造化されたコンテキストに敏感な予測です。
彼らの最も革新的な開発の1つは、彼らが長い潜在的な注意(MLA)と呼ぶものです。これは、いわゆるキー価値インデックスを扱う際のブレークスルーです。これは、基本的に、トランスアーキテクチャの注意メカニズムで単一のトークンがどのように表されるかです。これは技術的な観点からは少し複雑すぎますが、これらのKVインデックスは、トレーニングと推論中のVRAMの主要な用途の1つであり、これらのモデルをトレーニングするために何千ものGPUが必要である理由の一部であると言えます。同時に、GPUの最大VRAMはそれぞれ96GBであり、これらのインデックスはこのメモリのすべてを消費します。
彼らのMLAシステムは、基本情報をキャプチャしながらより少ないメモリを使用するこれらのインデックスの圧縮バージョンを保存する方法を見つけました。最良の部分は、この圧縮がモデルが学習されるように直接構築されることです – それは彼らがする必要がある単一のステップではありませんが、エンドツーエンドのトレーニングパイプラインに直接構築されます。これは、メカニズム全体が「微分可能」であり、標準のオプティマイザーを使用して直接トレーニングできることを意味します。それが成功した理由は、これらのモデルで見つかった基礎となるデータ表現がいわゆる「環境次元」よりもはるかに低かったからです。したがって、完全なKVインデックスを保存することは無駄ですが、他の誰もが基本的に行います。
実際の需要を超える膨大な量のデータを保存するために多くのスペースが浪費されているだけでなく、トレーニングメモリフットプリントと効率が大幅に増加します(繰り返しますが、世界クラスモデルのトレーニングに必要なGPUの数は大きくなります削減)、しかし、モデルの品質を実際に改善することができます。なぜなら、モデルは「レギュレータ」として機能して、トレーニングデータのノイズに適応するために無駄な能力を使用するのではなく、本当に重要なことに集中するように強制することができるからです。したがって、多くのメモリを保存するだけでなく、モデルのパフォーマンスも良くなる可能性があります。少なくとも、多くのメモリを保存することでパフォーマンスに深刻な影響を与えることはありません。これは通常、AIトレーニングで直面しているトレードオフです。
また、デュアルパイプアルゴリズムとカスタム通信コアを通じてGPU通信効率に大きな進歩を遂げています。システムは、コンピューティングと通信をインテリジェントに重複させ、タスク間のGPUリソースのバランスを慎重にバランスさせます。通信するには、約20 GPUのストリームマルチプロセッサ(SM)のみが必要であり、残りはコンピューティングに使用されます。その結果、GPUの使用率は一般的なトレーニング設定よりもはるかに高くなります。
彼らが行うもう1つの非常に賢いことは、いわゆるハイブリッドエキスパート(MOE)トランスアーキテクチャを使用することですが、主要な革新はロードバランシングについて行われます。おそらくご存知のように、AIモデルのサイズまたは容量は通常、モデルに含まれるパラメーターの数によって測定されます。パラメーターは、モデルの特定の特性を保存する数字です。 、など
Metaの最新のLLAMA3モデルには、10億パラメーターバージョン(最小)、70Bパラメーターモデル(最も一般的に使用されている)、405Bパラメーターを備えた大きなモデルなど、いくつかのサイズがあります。ほとんどのユーザーにとって、この最大のモデルには、少なくとも元の全文バージョンを展開する場合は、許容速度で推論を実行するために、コンピューターに数万ドル相当のGPUを装備する必要があるため、実用性は限られています。したがって、現実世界のこれらのオープンソースモデルの使用と興奮のポイントのほとんどは、8Bパラメーターまたは高量子化された70Bパラメーターレベルにあります。これは、消費者グレードのNVIDIA 4090 GPUが対応できるため、今は1,000ドル未満です。
それで、これらのポイントは何ですか?ある意味では、パラメーターの数と精度は、モデル内にどのくらいの生の情報またはデータが保存されているかを知ることができます。私は推論能力、またはモデルの「IQ」について話しているのではないことに注意してください。パラメーターが非常に少ないモデルでさえ、複雑な論理問題を解決し、平面形状の定理を証明し、数学的な問題を証明するという点で解決できることがわかります。など。優れた認知能力を示します。
しかし、これらの小さなモデルは必ずしもStendhalの小説のあらゆるプロットのひねりのあらゆる側面を伝えるわけではなく、実際の大型モデルにはそれを行う可能性があります。この極端なレベルの知識の「コスト」は、モデルについて推論するためには、常に405Bパラメーター(または任意の数のパラメーター)を保存する必要があるため、モデルを非常にかさばってトレーニングと推論が困難になることです。同時にGPUのVRAMで。
MOEモデルアプローチの利点は、大規模なモデルを一連の小さなモデルに分解できることです。Deepseekのイノベーションは、ロードバランスが通常もたらすパフォーマンスの劣化なしに専門家を効率的に利用し続ける「補助損失なし」と呼ばれる負荷分散戦略を開発しています。次に、推論要求の性質に応じて、質問に最もよく答えたり、タスクを解決したりするセットの小さなモデルの「エキスパート」モデルへの推論をインテリジェントにルーティングできます。
あなたはそれを独自の専門分野を持っている専門家の委員会と考えることができます。1つは法的専門家であり、もう1つはコンピューターサイエンスの専門家である可能性があり、もう1つはビジネス戦略の専門家である可能性があります。したがって、誰かが線形代数について質問した場合、法律専門家にそれを与えることはありません。もちろん、これは非常に大まかな類推であり、実際にはこのようなものではありません。
このアプローチの本当の利点は、すべての専門家のパラメーターの総数が高い場合でも、それらのわずかな割合だけが「アクティブ」にあるため、モデルが非常にかさばらずに多くの知識を封じ込めることを可能にすることです。時間が与えられます。つまり、推論を行うためにVRAMに重量の小さなサブセットを保存するだけです。DeepSeek-V3を例にとると、671Bパラメーターを備えた絶対に巨大なMOEモデルがあります。これは最大のLLAMA3モデルよりもはるかに大きいですが、消費者グレードに2つのVRAMを収容するために、いつでもアクティブにアクティブになるのは37Bパラメーターのみです。 NVIDIA 4090 GPU(総費用は2,000ドル未満)1つ以上のH100 GPUがあり、それぞれ約40,000ドルで販売されています。
ChatGptとClaudeは両方ともMOEアーキテクチャを使用しているという噂があります。GPT-4には、それぞれが2,200億パラメーターを含む8つのモデルに分布していると報告されています。これは、1.8兆個すべてのパラメーターをVRAMに入れるよりもはるかに簡単ですが、使用されるメモリの量が多いため、モデルを単独で実行するには複数のH100レベルのGPUが必要です。
上記のコンテンツに加えて、テクニカルペーパーでは、他のいくつかの主要な最適化についても言及しています。これには、テンソルの並列性を回避し、それらを保存するのではなく、バックプロパゲーション中の特定の操作を再計算する非常にメモリ節約トレーニングフレームワークが含まれ、メインモデルと補助予測モジュールの間でパラメーターを共有します。これらすべてのイノベーションの合計は、一緒に階層化されたときに、オンラインで循環する効率改善数の約45倍につながり、これらの数字が正しいと完全に信じています。
DeepSeekのAPIのコストは強力な証拠です。DeepSeekのモデルパフォーマンスはクラスでほぼ最高ですが、APIを介した推論要求を行うコストは、Openaiおよび人類の同様のモデルよりも95%低いです。ある意味では、NvidiaのGPUを競合他社の新しいカスタムチップと比較するようなものです。あなたの要件を満たすのに十分であり、APIの可用性とレイテンシーは十分であり、これまでのところ、これらの新しいモデルのパフォーマンスのために需要が非常に急増しているにもかかわらず、人々はDeepseekのインフラストラクチャのパフォーマンスに驚いています)。
しかし、Nvidiaのケースとは異なり、Nvidiaのコストの差は、データセンター製品の独占的な粗利益の90%以上の獲得によるものですが、Deepseek APIのコストの差はOpenaiおよび人類のAPIと比較して、コンピューティング効率が50近く改善されたからといっている可能性があります。時代(おそらく推論の点ではそれよりもはるかに多く、トレーニングの点で約45倍効率的です)。実際、Openaiと人類がAPIサービスから膨大な利益を上げているかどうかは不明です。彼らは、受信したすべてのAPI要求を分析することにより、収益の成長とより多くのデータを収集することについてより懸念している可能性があります。
続行する前に、多くの人がDeepseekがGPUの数と、これらのモデルの訓練にかかった時間について嘘をついていると推測していると指摘しなければなりません。自分自身にトラブルを引き起こしたい、また、彼らはこれらのカードをもっと手に入れる機会を傷つけたくない。これは確かに可能ですが、彼らは真実を語る可能性が高いと思いますが、トレーニングと推論方法で非常に高い知性と創造性を示すことによってのみ、これらの信じられないほどの結果を達成しました。彼らは彼らのアプローチを説明しました、そして、私は彼らの結果が他の研究室の他の研究者によって広く再現され、確認されるのは時間の問題だったと思います。
本当に思慮深いモデル
更新されたR1モデルと技術レポートは、思考チェーンで人類を打ち負かすため、さらに衝撃的なものになる可能性がありますが、現在、Openaiを除くテクノロジーを大規模に機能させるのは基本的なものです。ただし、OpenAIは2024年9月中旬にO1プレビューモデルをリリースしないことに注意してください。それはちょうど約4か月前でした!覚えておく必要があることの1つは、Openaiがこれらのモデルが実際に低レベルでどのように動作するかについて非常に秘密であり、厳格な機密性契約に署名したMicrosoftなどのパートナーを除いて、実際のモデルの重みを誰にも開示しないことです。Deepseekのモデルは完全に異なり、完全にオープンソースであり、ライセンスが緩いです。彼らは、これらのモデルがどのように機能するかを説明する非常に詳細な技術レポートを公開し、誰もが表示してコピーしようとするコードを提供しました。
R1を使用すると、DeepSeekは基本的に人工知能の分野で問題を解決します。大きな監視されたデータセットに依存することなく、モデルを徐々に推論することです。DeepSeek-R1-Zeroの実験はこれを示しています。適切に設計された報酬機能を備えた純粋な強化学習を使用して、モデルが複雑な推論機能を完全に自律的に開発できるようにします。それは単なる問題解決ではありません。モデルは、長鎖思考を生成し、その仕事を自己検証し、より困難な問題により多くの計算時間を割り当てることを有機的に学びます。
ここでの技術的ブレークスルーは、彼らの新しい報酬モデリング方法です。複雑なニューラル報酬モデルを使用する代わりに、ルールに基づいて巧妙なシステムを開発し、「報酬ハッカー」につながる可能性があります(つまり、モデルは誤った方法で報酬を改善しますが、実際にモデルの実際のパフォーマンスを改善しません)。 、精度の報酬(最終回答を確認)とフォーマットの報酬(構造化された思考を奨励します)を組み合わせます。このより単純なアプローチは、他の人が試したプロセスベースの報酬モデルよりも強力でスケーラブルであることが証明されました。
特に魅力的なのは、トレーニングプロセス中に、いわゆる「突然の瞬間」を観察したことです。モデルは、不確実性に遭遇したときに途中で思考プロセスを自然に変更することを学びます。この種の突然の行動は、事前に書かれたプログラムではありませんが、モデルと強化学習環境との相互作用によって自然に生成されます。モデルは本当に停止し、推論において潜在的な問題をマークし、その後、異なるアプローチからやり直しますが、どれも明示的に訓練されていません。
完全なR1モデルは、これらの洞察に基づいて構築され、「コールドスタート」データと呼ばれるものを導入します。これは、強化学習技術を適用する前に、高品質の例の小さなセットです。また、推論モデルの主要な問題、つまり言語の一貫性も解決します。以前にチェーンの推論を考えることを試みたことが多いことが多く、複数の言語を混合したり、一貫性のない出力を生成したりするモデルがモデルになります。Deepseekは、RLトレーニング中に言語の一貫性に微妙に報いることでこの問題を解決し、より読みやすく、より一貫した出力のためにパフォーマンスの低下を取引します。
結果は信じられないほどです。R1は、AIME 2024で79.8%の精度を持っています。これは、OpenaiのO1モデルに匹敵する最も挑戦的な高校数学大会の1つです。Math-500では、CodeForcesプログラミングコンペティションで97.3%に達し、96.3%を獲得しました。しかし、おそらく最も印象的なのは、これらの能力をより小さなモデルに拡張することができたことです。14Bパラメーターバージョンは、数倍大きい多くのモデルよりも優れたパフォーマンスを発揮し、推論能力が元のパラメーターの数に関連しているだけでなく、情報を処理するためにモデルをトレーニングする方法と関係があります。
余波
企業の噂のウェブサイトであるTwitterとBlindで流通している最近の噂は、これらのモデルはメタの期待を完全に超えており、まだ訓練されている新しいLlama4モデルを上回ることさえあります。どうやら、メタ内のラマプロジェクトは上級技術リーダーの注目を集めているため、ラマを勉強している約13人がいます。 -v3モデルはラマよりも優れています。Zuckerbergに真剣にどのように説明しますか?より良いモデルが2,000 H100だけでトレーニングされ、500万ドル未満の費用がかかる場合、ZuckerbergはNvidiaに10億を投資して100,000 H100を購入しました。
しかし、メタや他の大規模なAIラボがこれらのDeepSeekモデルを取り壊し、テクニカルレポートのすべての単語と、公開するオープンソースコードのあらゆる行を調査し、これらの同じトリックと最適化を独自のものに必死に統合しようとしていると信じています。トレーニングと推論プロセス。それで、これらすべての影響は何ですか?さて、トレーニングと推論の計算に対する総需要は、多数だけ分けられるべきであると素朴に考えてください。たぶん45ではなく、25または30さえ?あなたが以前に必要なものをどれだけ考えていたとしても、今でははるかに少ないからです。
楽観主義者は、「単一の比例定数、単一の倍数について話しているだけです。指数関数的な成長曲線に直面している場合、これらのことはそれほど重要ではありません。」真実:AIが私が予想したほど変革的である場合、このテクノロジーの実際のユーティリティが数兆で測定されている場合、推測された時間の計算が拡張の新しい法則である場合、多数のヒューマノイドロボットがある場合、それらは継続します多くの推論を行うために、成長曲線はまだ非常に急で極端である可能性がありますが、Nvidiaはまだはるかに先を行っていますが、それでも成功します。
しかし、Nvidiaは今後数年間で評価を維持するために多くの良いニュースを持っています。これらすべての要因を考慮すると、2025年の予想売上の20倍で株式を購入することに非常に腹を立て始めています。 。売り上げの成長がわずかに減少した場合はどうなりますか?成長率が100%を超えていない場合、85%の場合はどうなりますか?総マージンが75%から70%に低下するとどうなりますか?
要約します
マクロの観点から見ると、Nvidiaは前例のない競争上の脅威に直面しており、20倍の前進販売と75%の総利益率を高評価を正当化することがますます困難になります。ハードウェア、ソフトウェア、効率における同社の利点はすべて、心配な亀裂で浮上しています。世界は、数十億ドルの資本資源に支えられて、地球上で最も賢い人々の何千人もの人々が、あらゆる角度から彼らを攻撃しようとしています。
ハードウェア側では、セレブラスとGROQの革新的なアーキテクチャは、NVIDIAの相互接続された利点であるデータセンターの優位性の基礎が、急進的な再設計によって回避できることを示しています。CerebrasのウェーハレベルのチップとGROQの決定論的コンピューティング方法は、NVIDIAの複雑な相互接続ソリューションを必要とせずに魅力的なパフォーマンスを提供します。より伝統的に、すべての主要なNvidiaの顧客(Google、Amazon、Microsoft、Meta、Apple)は、高プロフィットデータセンターの収益を食べることができるカスタムチップを開発しています。これらはもはや実験的なプロジェクトではありません。アマゾンだけで、400,000を超えるカスタムチップを含む人類向けの大規模なインフラストラクチャを構築しています。
ソフトウェア堀は同様に壊れやすいようです。MLX、Triton、Jaxなどの新しい高度なフレームワークはCUDAの重要性を損ない、AMDドライバーを改善する努力により、より安いハードウェアの代替品が開発される可能性があります。高度な抽象化の傾向は、アセンブリ言語がC/C ++にどのように道を譲るかを反映しており、CUDAの優位性が予想よりも短くなる可能性があることを示唆しています。最も重要なことは、LLMベースのコード翻訳テクノロジーの台頭が見られることです。これは、CUDAコードを自動的にポートしてハードウェアターゲットで実行することができ、Nvidiaの最も強力なロック効果の1つを排除する可能性があります。
おそらく最も破壊的なことは、DeepSeekによる効率の最近のブレークスルーであり、計算コストの約1/45でモデルパフォーマンスに匹敵するパフォーマンスを達成します。これは、業界全体が多数の方法でコンピューティングリソースを過剰に割り当てていることを示しています。思考チェーンモデルを介したより効率的な推論アーキテクチャの出現と相まって、計算の合計需要は現在の予測よりもはるかに低い場合があります。ここでの経済学は説得力があります:DeepSeekがGPT-4レベルのパフォーマンスを達成できる場合、APIコール料金は95%削減されますが、NVIDIAの顧客が不必要に燃焼しているか、利益率が大幅に低下する必要があることを示唆しています。
TSMCは、資金提供された顧客のために競争力のあるチップを生産し、Nvidiaの建築上の利点に上限を設けます。しかし、より基本的には、歴史は、市場が最終的に人工ボトルネックをバイパスする方法を見つけることを示しており、その結果、過剰な利益が生じています。全体として、これらの脅威は、Nvidiaが、評価が示唆するよりも現在の成長軌道と利益率を維持するためのはるかに頑丈な道に直面していることを示しています。5つの異なる攻撃の方向性があります。アーキテクチャイノベーション、顧客垂直統合、ソフトウェアの抽象化、効率のブレークスルー、民主化の製造 – 少なくとも1つの成功がNVIDIAの利益率または成長率に大きな影響を与える可能性が高くなります。現在の評価から判断すると、市場はこれらのリスクを考慮していません。