Der 10.000-Wörter-Bericht an der Wall Street: Hinter dem Sprung von Bitcoin und Nvidia

Ein professioneller Investor, der als Analyst und Software -Ingenieur gearbeitet hat, schrieb einen Artikel, der über Nvidia bärisch war, der von Twitters großem V retweetet wurde, und wurde zu einem wichtigen „Täter“ beim Tauch von Nvidias Aktien.Der Marktwert von NVIDIA wurde um fast 600 Milliarden US-Dollar verdunstet, der bisher größte Eintägigkeitsrückgang für ein bestimmtes Unternehmen.

Der Hauptpunkt dieses Jeffrey Emanuel -Investors besteht darin, dass Deepseek das von Wall Street, große Technologieunternehmen und NVIDIA, das überbewertete Kuhpferd enthüllt hat, enthüllt.“Jede Investmentbank empfiehlt, Nvidia zu kaufen, wie ein Blinder, der einen Leitfaden gibt, und hat keine Ahnung, was sie sagen.“

Jeffrey Emanuel sagte, dass Nvidia einen viel raueren Weg zur Aufrechterhaltung seiner aktuellen Wachstumskuro und der Gewinnmargen ausgesetzt sei, als dies vorliegt.Es gibt fünf verschiedene Anweisungen, um NVIDIA anzugreifen – Architekturinnovation, vertikale Integration der Kunden, Softwareabstraktion, Effizienzbrüche und Fertigungsdemokratisierung – mindestens eine Erfolgschance hat einen erheblichen Einfluss auf die Gewinnmargen oder Wachstumsraten von NVIDIA scheint sehr gut zu sein.Nach der aktuellen Bewertung zu urteilen, hat der Markt diese Risiken nicht berücksichtigt.

Nach Angaben einiger Brancheninvestoren wurde Emanuel aufgrund dieses Berichts plötzlich eine Berühmtheit der Wall Street, und viele Hedgefonds zahlten ihm 1.000 US -Dollar pro Stunde, um seine Ansichten zu Nvidia und KI zu hören.Mein Hals war so beschäftigt, dass ich rauchte, aber ich war versucht, Geld zu zählen.

Das Folgende ist der vollständige Text des Berichts.Vollständiger Referenzlernen.

Als Investmentanalyst seit etwa 10 Jahren in verschiedenen langen/kurzen Hedgefonds, einschließlich der Arbeit in Millennium und Balyasny sowie einem Mathematik- und Computerfan, der seit 2010 Deep Learning studiert Maschinen, alles war noch programmiert mit MATLAB, Forscher versuchten immer noch zu beweisen, dass sie bessere Ergebnisse bei der Klassifizierung handgeschriebener Zahlen als die Verwendung von Support -Vektor -Maschinen erzielen konnten. Technologie und ihre Beziehung zur Eigenkapitalbewertung am Aktienmarkt.

In den letzten Jahren habe ich eher als Entwickler gearbeitet und habe mehrere beliebte Open -Source -Projekte für den Umgang mit verschiedenen Formen von KI -Modellen/-diensten Inferenzschicht usw.).Grundsätzlich verwende ich diese modernen Modelle intensiv jeden Tag.Ich habe 3 Claude -Accounts, damit ich keine Anfragen mehr ausgeht, und ich habe mich ein paar Minuten nach dem Live -Chatgpt Pro für sie angemeldet.

Ich bemühe mich auch, den neuesten Forschungsfortschritt zu verstehen und alle wichtigen technischen Berichtspapiere sorgfältig von Laboratorien für künstliche Intelligenz zu lesen.Deshalb denke ich, ich habe ein ziemlich gutes Verständnis für dieses Gebiet und wie die Dinge laufen.In der Zwischenzeit habe ich viele Aktien in meinem Leben kurzgeschlossen und den Value Investor Club zweimal den besten Kreativitätspreis gewonnen (TMS Longs und PDH -Shorts, wenn Sie folgen).

Ich sage das, um nicht zu zeigen, aber um zu beweisen, dass ich zu diesem Thema sprechen kann, ohne Techniker oder professionelle Investoren zu machen, das Gefühl, ich bin hoffnungslos kindisch.Natürlich gibt es definitiv viele Menschen, die Mathematik/Naturwissenschaften besser vertreten als ich, und es gibt viele Menschen, die in langen/kurzen Investitionen in die Börse besser sind als ich, aber ich denke, es gibt nicht viele Menschen, die es sein können In der Mitte des Venn -Diagramms wie ich.

Immer wenn ich mit Freunden und ehemaligen Kollegen in der Hedgefondsbranche treffe und mit ihnen chatte, wendet sich das Thema schnell an Nvidia.Das Phänomen eines Unternehmens, das von Dunkelheit zu einem Marktwert wächst, der die kombinierten Aktienmärkte Großbritanniens, Frankreichs oder Deutschlands übersteigt, können Sie nicht jeden Tag begegnen!Diese Freunde wollen natürlich wissen, was ich über dieses Problem denke.Weil ich fest davon überzeugt bin, dass diese Technologie einen langfristigen transformativen Einfluss haben wird-ich glaube wirklich Nvidia Der Entwicklungsimpuls verlangsamt sich kurzfristig oder stoppt kurzfristig.

Aber obwohl ich denke, dass die Bewertung für mich im vergangenen Jahr zu hoch ist, haben mich die jüngste Reihe von Entwicklungen ein wenig zu meiner Intuition gemacht, die Aussichten vorsichtiger zu machen und im Konsens zu befragen, wenn sie überteuert wurden.Wie das Sprichwort sagt: „Die Weisen glauben am Anfang, und die Dummheit glauben am Ende.“

Bullenmarktfall

Bevor wir über die Fortschritte diskutieren, die mich zögern ließen, überprüfen wir kurz den Bullenmarkt der NVDA -Aktien.深度学习和人工智能是自互联网以来最具变革性的技术，并有望从根本上改变我们社会中的所有事物。就行业总资本支出中用于训练和推理基础设施的部分而言，英伟达几乎已经处于以某种方式接近垄断的地位。

Some of the world’s largest and most profitable companies, such as Microsoft, Apple, Amazon, Meta, Google, Oracle, etc., have decided to stay competitive in this field at all costs because they simply cannot afford the consequences of falling behind others. .资本支出金额、用电量、新建数据中心的面积，当然还有GPU的数量，都出现了爆炸式增长，而且似乎没有放缓的迹象。NVIDIA kann mit High-End-Produkten für Rechenzentren erstaunliche Bruttogewinnmargen von bis zu 90% erzielen.

Wir haben gerade die Oberfläche des Bullenmarktes berührt.Es gibt jetzt mehr Aspekte, selbst diejenigen, die bereits sehr optimistisch sind, werden optimistischer.除了类人机器人的崛起（我怀疑当它们能够迅速完成大量目前需要非熟练（甚至熟练）工人完成的任务时，大多数人会感到惊讶，例如洗衣、清洁、整理和烹饪；在工人团队中完成装修浴室或建造房屋等建筑工作；管理仓库和驾驶叉车等），还有其他大多数人甚至还没有考虑过的其他因素。

聪明人谈论的一个主要话题是「新扩展定律」的兴起，它为人们思考计算需求将如何随时间推移而增长提供了新的范式。Since the emergence of AlexNet in 2012 and the invention of Transformer architecture in 2017, the original expansion law that drives the advancement of artificial intelligence is the pre-training expansion law: the higher the value of the token we use as training data (now to Billionen), das Modell, das wir trainiert haben, je mehr Parameter wir verwenden, desto höher ist die Rechenleistung (FLOPS), mit der wir diese Modelle mit diesen Token trainieren, und je besser die Leistung des endgültigen Modells in einer Vielzahl von sehr nützlichen nachgeschalteten Aufgaben erfolgt .

Nicht nur das, diese Verbesserung ist in gewissem Maße so vorhersehbar, dass führende KI -Labors wie OpenAI und Anthrope sogar genau wissen können, wie gut ihre neuesten Modelle sein werden, bevor sie in einigen Fällen sogar zu trainieren beginnen. Der Benchmark -Wert des endgültigen Modells mit einem Fehler von nicht mehr als ein paar Prozentpunkten.Dieses „primitive Expansionsgesetz“ ist sehr wichtig, aber es macht Menschen, die es verwenden, um die Zukunft vorherzusagen.

Erstens scheinen wir die hochwertigen Trainingsdatensätze in der Welt erschöpft zu haben.Natürlich ist dies nicht ganz wahr – es gibt immer noch viele alte Bücher und Zeitschriften, die nicht ordnungsgemäß digitalisiert wurden, selbst wenn sie digitalisiert werden, ohne die richtige Erlaubnis als Trainingsdaten.Das Problem besteht darin Eine große Anzahl und die Skala des Trainingskorpus ist die Skala des aktuellen modernsten Modells.

Um schnell die Authentizität dieser Zahlen zu überprüfen: Google Books hat bisher etwa 40 Millionen Bücher digitalisiert; Natürlich wurde ein großer Teil in den Trainingskorpus in großen Labors aufgenommen, unabhängig davon, ob es streng legal ist oder nicht.Es gibt auch viele akademische Papiere, und allein auf der Arxiv -Website gibt es mehr als 2 Millionen Papiere.Die Kongressbibliothek hat mehr als 3 Milliarden Seiten digitaler Zeitungen.Durch das Zusatz kann die Gesamtsumme bis zu 7T -Token sein, aber da das meiste davon tatsächlich im Trainingskorpus enthalten ist, sind die verbleibenden „inkrementellen“ Trainingsdaten im Gesamtplan möglicherweise nicht so wichtig.

Natürlich gibt es andere Möglichkeiten, mehr Trainingsdaten zu sammeln.Beispielsweise können Sie jedes YouTube -Video automatisch transkribieren und diese Texte verwenden.Dies mag zwar hilfreich sein, ist jedoch sicherlich viel niedriger als ein hoch angesehenes Lehrbuch der organischen Chemie, die eine nützliche Wissensquelle ist, um die Welt zu verstehen.In Bezug auf das ursprüngliche Maßstab haben wir immer der Gefahr einer „Data -Mauer“ ausgesetzt. Wissen Es ist viel schwieriger und dieses Wissen ist die richtige Ergänzung zum bestehenden Wissen.Eine interessante Möglichkeit, damit umzugehen, ist der Aufstieg von „synthetischen Daten“, dh der Text selbst ist die Ausgabe von LLM.Dies mag zwar etwas lächerlich erscheinen, ist es in der Praxis sehr effektiv, die Qualität des Modells durch Ihre eigene Versorgung zu verbessern, zumindest in den Bereichen Mathematik, Logik und Computerprogrammierung.

Der Grund dafür ist natürlich, dass wir die Richtigkeit der Dinge in diesen Bereichen mechanisch überprüfen und beweisen können.So können wir aus einem riesigen mathematischen Theorem- oder Python -Skript probieren und dann tatsächlich prüfen, ob sie korrekt sind. Nur die richtigen Daten werden in unserer Datenbank enthalten.Auf diese Weise können wir die Sammlung hochwertiger Schulungsdaten zumindest in diesen Bereichen erheblich erweitern.

Zusätzlich zum Text können wir verschiedene andere Daten verwenden, um künstliche Intelligenz zu schulen.Was würde beispielsweise passieren, wenn wir alle Genomsequenzierungsdaten von 100 Millionen Menschen (die Menge an unkomprimierten Daten einer Person etwa 200 GB bis 300 GB) verwenden würden, um künstliche Intelligenz auszubilden?Dies ist offensichtlich eine große Datenmenge, obwohl das meiste davon fast genau gleich zwischen zwei Personen ist.Der Vergleich mit Textdaten in Büchern und dem Internet kann natürlich aus verschiedenen Gründen irreführend sein:

Die ursprüngliche Genomgröße kann nicht direkt mit der Anzahl der Marker verglichen werden

Der Informationsinhalt genomischer Daten unterscheidet sich stark von dem des Textes

Der Trainingswert von hoch redundanten Daten ist noch nicht klar

Die Berechnungsanforderungen für die Verarbeitung genomischer Daten sind ebenfalls unterschiedlich

Aber es ist noch eine weitere große Informationsquelle, die wir in Zukunft trainieren können, weshalb ich sie einbeziehe.

Während wir also erwartet werden, dass wir in den letzten Jahren immer mehr Trainingsdaten erhalten, werden wir feststellen, dass wir in den letzten Jahren Engpässe bei der Verfügbarkeit von „universellen“ Wissensdaten begegnen werden Die Art von Wissen kann uns helfen, unserem ultimativen Ziel näher zu kommen, dh es besteht die Erreichung der künstlichen Super-Intelligenz 10-mal schlauer als John von Neumann und werden in jedem professionellen Bereich, dem Menschen bekannt, Weltklasse-Experten.

Zusätzlich zu den begrenzten verfügbaren Daten haben Befürworter des Expansionsgesetzes vor der Ausbildung immer einige andere Bedenken im Auge.Einer von ihnen ist, wie man mit all diesen Berechnungsinfrastrukturen nach dem Modelltraining umgeht?Training das nächste Modell?Natürlich können Sie das tun, aber angesichts der raschen Zunahme der Geschwindigkeit und Kapazität von GPU sowie der Bedeutung von Strom und anderen Betriebskosten im Wirtschaftscomputer ist es wirklich sinnvoll, Cluster von vor 2 Jahren zu verwenden, um neue Modelle auszubilden?Natürlich bevorzugen Sie es, ein brandneues Rechenzentrum zu verwenden, das Sie gerade erstellt haben, das das 10 -fache der Kosten eines alten Rechenzentrums kostet, und aufgrund seiner fortschrittlicheren Technologie führt sie die 20 -fache Leistung eines alten Rechenzentrums durch.Das Problem ist, dass Sie irgendwann die Vorabkosten dieser Anlagen amortisieren und die Kosten durch (hoffentlich positive) Betriebsgewinnströme zurückerhalten müssen, oder?

Der Markt ist so begeistert von der künstlichen Intelligenz, dass er diesen Punkt ignoriert und es Unternehmen wie OpenAI ermöglicht, von Anfang an Betriebsverluste zu sammeln, während gleichzeitig bei nachfolgenden Investitionen immer höhere Bewertungen gewonnen werden (natürlich ist er lobend. Sie zeigen auch sehr schnell wachsende Einnahmen).Um dies während des gesamten Marktzyklus aufrechtzuerhalten, müssen die Kosten dieser Rechenzentren jedoch letztendlich wiederhergestellt werden und es ist am besten, profitabel zu sein, so dass sie nach einem bestimmten Zeitraum mit anderen Anlagemöglichkeiten kombiniert werden können, die auf dem Risiko beruhen Anpassungen.

Neues Paradigma

OK, dies ist das Gesetz der Expansion vor dem Training.Was ist das „neue“ Expansionsgesetz?Nun, darauf haben die Menschen im vergangenen Jahr erst begonnen: Extensionen für Inferenzzeitberechnung.Zuvor wurden die meisten Berechnungen, die Sie im Prozess ausgegeben haben, verwendet, um die vorläufigen Trainingsberechnungen des Modells zu erstellen.Sobald Sie ein geschultes Modell haben, verwendet die Argumentation über dieses Modell (d. H. Eine Frage zu stellen oder die LLM für Sie eine Art Aufgabe auszuführen) nur eine bestimmte Anzahl von Berechnungen.

Wichtig ist, dass die Gesamtmenge der Inferenzberechnungen (auf verschiedene Weise gemessen wird, wie Flops, GPU-Speicher Fußabdruck usw.) viel niedriger als die in der Vorinstallationsphase erforderliche Berechnungen.Natürlich nimmt die Inferenzberechnung zu, wenn Sie die Kontextfenstergröße des Modells und die auf einmal erzeugte Ausgabe erhöhen (obwohl die Forscher diesbezüglich erstaunliche algorithmische Verbesserungen vorgenommen haben und die von Menschen ursprünglich erwartete Expansionsumfang quadratisch war).Im Grunde genommen waren die Inferenzberechnungen häufig viel niedriger als die Trainingsberechnungen und waren im Wesentlichen linear proportional zur Anzahl der verarbeiteten Anforderungen – desto mehr Anforderungen an ChatGPT -Textabschluss, desto mehr Inferenzberechnungen wurden konsumiert.

Mit der Entstehung des im letzten Jahr ins Leben gerufenen Modells der revolutionären Kette (COT) ist das Flaggschiff-Modell O1 von OpenAI. hat sich verändert.Diese neuen COT -Modelle werden nicht mehr direkt zu der vom Modell erzeugten Ausgangstextlänge (für größere Kontextfenster, Modellgrößen usw. erhöht, sondern erzeugt stattdessen intermediäre „logische Markierungen“. Speicher „oder“ interner Monolog „des Modells beim Versuch, Ihr Problem zu lösen oder eine bestimmte Aufgabe zu erledigen.

Dies stellt eine echte Veränderung in der Art und Weise dar, wie Inference Computing: Je mehr Token Sie in diesem internen Denkprozess verwenden, desto besser die Qualität der endgültigen Ausgabe, die Sie dem Benutzer zur Verfügung stellen.Tatsächlich ist es so, als würde er einem Arbeiter mehr Zeit und Ressourcen geben, um eine Aufgabe zu erledigen, damit er seine Arbeit wiederholt überprüfen kann, dieselbe grundlegende Aufgabe auf verschiedene Arten erledigen und überprüft, ob die Ergebnisse gleich sind in die Formel, um zu überprüfen, ob sie die Gleichung tatsächlich gelöst hat, usw.

Wie sich herausstellt, ist der Effekt dieses Ansatzes fast erstaunlich.Es löst direkt eine der größten Schwächen im Transformatormodell, nämlich die Tendenz, „Halluzinationen zu schaffen“.

Grundsätzlich funktioniert die Art und Weise, wie Transformatoren bei der Vorhersage des nächsten Markers für jeden Schritt vorhersagen, dass sie, wenn sie in der ersten Reaktion auf einen falschen „Pfad“ gehen Eigentlich korrekt, auch wenn sie den gesunden Menschenverstand verwenden sollten, um zu erkennen, wie das, was sie sagen, nicht korrekt sein kann.

Da die Modelle immer versuchen, eine intrinsische Konsistenz aufrechtzuerhalten und jeden kontinuierlich erzeugten Marker auf natürliche Weise aus dem vorhergehenden Marker und Kontext zu machen, sind sie schwer zu korrigieren und zu Backtracks zu leiten.Indem sie den Argumentationsprozess in viele Zwischenstadien unterteilen, können sie viele verschiedene Methoden ausprobieren, sehen, welche funktionieren, und versuchen Sie es weiterhin mit Korrekturen und anderen Methoden aus, bis sie ein ziemlich hohes Maß an Vertrauen erreichen können, dass sie kein Bullshit sind.

Das Besondere an diesem Ansatz ist, dass zusätzlich zu seinem tatsächlichen Effekt umso besser der Effekt, je mehr Logik-/Cot -Token Sie verwenden.Plötzlich haben Sie einen zusätzlichen Plattenspieler und mit zunehmender Anzahl von Cot -Inferenz -Token (dies erfordert mehr Inferenzberechnungen, unabhängig davon Beim ersten Lauf oder die Lösung für das Logikproblem hat keine offensichtlichen Fehler in den Inferenzschritten.

Ich kann Ihnen aus vielen Erfahrungen aus erster Hand erzählen, dass das Claude3.5-Sonnet-Modell von Anthrop in der Python-Programmierung ausgezeichnet ist, aber immer einen, wenn Sie einen langen und komplexen Code erzeugen müssen.Diese Fehler sind normalerweise in der Regel leicht zu beheben, und tatsächlich ist es oft nur erforderlich, den vom Python -Dolmetscher generierten Fehler als nachfolgender Argumentationshinweis zu verwenden (oder praktischer das vollständige „Problem“, das im Code -Editor verwendet wird Die sogenannten Lintersätze, die in den Code eingefügt wurden) und können ohne weitere Erläuterung behoben werden.Wenn der Code sehr lang oder sehr komplex wird, dauert es manchmal länger, bis er das Problem behebt, und es erfordert möglicherweise sogar ein manuelles Debuggen.

Als ich das O1 -Modell von Openais zum ersten Mal ausprobierte, war es wie eine Offenbarung: Ich war erstaunt, wie perfekt der Code das erste Mal war.Dies liegt daran, dass der COT -Prozess das Problem automatisch entdeckt und behebt, bevor er schließlich auf das Token in der vom Modell gegebenen Antwort reagiert.

Tatsächlich ist das O1 -Modell, das im OpenAI -ChatGPT Plus -Abonnement -Service (20 USD pro Monat) verwendet wird, in Verbindung mit dem neuen ChatGPT Pro -Abonnementdienst (Preise 10 -mal der erstere, d. H. 200 USD pro Monat, was einen Aufruhr in der Entwicklergemeinschaft verursachte) die Modelle, die vom O1-Pro-Modell im O1-Pro-Modell verwendet werden, sind im Grunde genommen der Hauptunterschied, dass O1-Pro länger nach dem Ansprechen nachdacht und mehr COT-Logikmarken erzeugt, und jede Antwort verbraucht viele Inferenzressourcen.

Dies ist sehr auffällig, da selbst bei Claude3.5 Sonett oder GPT4O auch bei einem Kontext von etwa 400 KB oder mehr ein sehr ausführlicher und komplexer Hinweis in der Regel weniger als 10 Sekunden dauert, um zu reagieren, und oft weniger als 5 Sekunden.Die gleiche Aufforderung für O1-Pro kann mehr als 5 Minuten dauern, bis eine Antwort erhalten wird (obwohl OpenAI Ihnen einige der während des Wartenprozesses erzeugten „Argumentationsschritte“ zeigt; vor allem ist Openai aus heimlich verwandten Gründen kommerziell, entscheiden Sie sich, sich zu verstecken Die genauen Argumentation markiert es von Ihnen und zeigen Ihnen stattdessen eine stark vereinfachte Zusammenfassung).

Wie Sie sich vorstellen können, ist die Genauigkeit in vielen Fällen entscheid Antworten.Alles, was Geld/Transaktionen, medizinische Versorgung und Recht beinhaltet, um nur einige zu nennen.

Im Grunde genommen, solange die Inferenzkosten im Verhältnis zur vollen stündlichen Entschädigung menschlicher Wissensarbeiter, die mit KI -Systemen interagieren, trivial sind, wird in diesem Fall die Aufruf von COT -Berechnungen völlig unnötig (der Hauptnachteil ist, dass dies die Antwortlatenz erheblich erhöht In einigen Fällen bevorzugen Sie möglicherweise die Iteration, indem Sie eine Antwort mit kürzerer Latenz, geringerer Genauigkeit oder geringerer Korrektheit erhalten.

Vor einigen Wochen kamen einige aufregende Neuigkeiten im Bereich der künstlichen Intelligenz heraus, an dem das O3 -Modell beteiligt war, das noch nicht von OpenAI veröffentlicht wurde, das eine Reihe von Problemen lösen kann, die zuvor angenommen wurden, nicht mit vorhandenen Methoden für künstliche Intelligenz in den Nahe Zukunft.OpenAI kann diese schwierigsten Probleme lösen (einschließlich extrem schwieriger „grundlegender“ mathematischer Probleme, die für selbst sehr qualifizierte mathematische Mathematiker schwierig sind), da OpenAI eine Menge Rechenressourcen investiert – in einigen Fällen mehr als 3.000 US -Dollar für die Lösung einer Aufgabe ausgeben (Im Gegensatz dazu ist es unwahrscheinlich, dass die herkömmlichen Inferenzkosten für eine einzelne Aufgabe einige Dollar ohne eine Denkkette überschreiten.)

Es ist nicht notwendig, dass KI-Genies erkennen, dass dieser Fortschritt ein völlig neues Expansionsgesetz schafft, das sich völlig von dem ursprünglichen vorgebrachten Expansionsgesetz unterscheidet.Jetzt möchten Sie immer noch die besten Modelle schulen, indem Sie so viele Rechenressourcen wie möglich nutzen, und so viele Billionen hochwertige Trainingsdaten wie möglich, aber dies ist nur der Beginn dieser neuen Weltgeschichte. Anzahl der Rechenressourcen, die nur aus diesen Modellen schließen, um ein sehr hohes Konfidenzniveau zu erhalten, oder um extrem schwierige Probleme zu lösen, die „geniale“ Argumentation erfordern, um alle potenziellen Fallstricke zu vermeiden, die zu einem gewöhnlichen Master of Law führen können, wurden in die Irre gezogen.

Aber warum muss Nvidia alle Vorteile nutzen?

Selbst wenn Sie wie ich glauben, sind die Zukunftsaussichten künstlicher Intelligenz fast unvorstellbar, die Frage bleibt: „Warum macht ein Unternehmen die meisten Gewinne aus dieser Technologie?“ Aber die Hauptsieger sind nicht die Unternehmen, die in den Anfangsphasen am vielversprechendsten aussehen.Obwohl das Flugzeugunternehmen von Wright Brothers die Technologie erfunden und perfektioniert hat, hat das Unternehmen jetzt einen Marktwert von weniger als 10 Milliarden US -Dollar, obwohl es sich zu mehreren Unternehmen entwickelt hat.Obwohl Ford jetzt einen beträchtlichen Marktwert von 40 Milliarden US -Dollar hat, sind dies nur 1,1% des aktuellen Marktwerts von NVIDIA.

Um dies zu verstehen, müssen Sie wirklich verstehen, warum Nvidia einen so großen Marktanteil belegen kann.Schließlich sind sie nicht das einzige Unternehmen, das GPUs macht.AMD erzeugt GPUs mit guter Leistung.Natürlich sind AMD -GPUs nicht so schnell und fortgeschritten wie NVIDIA -GPUs, aber Nvidia gpus ist nicht zehnmal schneller oder ähnlich.Tatsächlich sind AMD -GPUs in Bezug auf die Rohkosten pro Flop nur halb so stark wie Nvidia -GPUs.

Aus Sicht anderer Halbleitermärkte wie dem DRAM-Markt, obwohl der Markt stark konzentriert ist, haben nur drei globale Unternehmen (Samsung, Micron, SK-Hynix) eine praktische Bedeutung. Die Bruttogewinnmarge des DRAM-Marktes ist negativ im Markt Boden des Zyklus.Im Gegensatz dazu betrug die Brutto-Gewinnspanne von NVIDIA in den letzten Quartalen etwa 75%und wurde hauptsächlich von 3D-Grafikprodukten der Verbraucherqualität mit niedrigen Gewinnmargen und hoher Vermarktung zurückgezogen.

Wie ist das möglich?Der Hauptgrund hat mit der Software zu tun – einem „direkt verfügbaren“ und hoch getesteten und sehr zuverlässigen Treiber unter Linux (im Gegensatz zu AMD, dessen Linux -Treiber für ihre qualitativ minderwertige und instabil Der Quellcode wie Pytorch funktioniert nach der Optimierung gut für Nvidia GPUs.

Nicht nur das, CUDA, ein Programmierrahmen, das von Programmierern zum Schreiben von Code mit niedrigem Niveau verwendet wird, das für GPUs optimiert ist, gehört NVIDIA vollständig und ist zum De-facto-Standard geworden.Wenn Sie eine Gruppe äußerst talentierter Programmierer einstellen möchten, die wissen, wie man mit GPUs ihre Arbeit beschleunigt, und bereit sind, ihr Gehalt von 650.000 US Sei wird „denken“ und mit Cuda arbeiten.

Abgesehen von Softwarevorteilen ist ein weiterer Hauptvorteil von NVIDIA die sogenannte Zusammenfassung. Im Wesentlichen ist es eine Bandbreite, die Tausende von GPUs effizient miteinander verbindet, damit sie zusammen verwendet werden können, um die modernen fundamentalen Modelle von heute zu trainieren.Kurz gesagt, der Schlüssel zum effizienten Training besteht darin, alle GPUs ständig im vollen Gebrauch zu halten, anstatt bis zur nächsten Daten zu warten, die für den nächsten Schritt des Trainings erforderlich sind.

Die Bandbreitenanforderungen sind sehr hoch, weit höher als die typische Bandbreite, die für herkömmliche Rechenzentrumsanwendungen erforderlich ist.Diese Vernetzung kann keine herkömmlichen Netzwerkgeräte oder Ballaststoffe verwenden, da sie zu viel Latenz bringen und keine terabyte Bandbreite pro Sekunde liefern können, was erforderlich ist, um alle GPUs ständig zu beschäftigen.

NVIDIA hat 2019 das israelische Unternehmen Mellanox für 6,9 Milliarden US-Dollar erworben, eine sehr kluge Entscheidung, und diese Akquisition lieferte ihnen die branchenführende Verbindungstechnologie.Beachten Sie, dass die Verbindungsgeschwindigkeit enger mit dem Trainingsprozess zusammenhängt (muss gleichzeitig den Ausgang von Tausenden von GPUs verwenden) als mit dem Inferenzprozess (einschließlich COT -Inferenz), und der Inferenzprozess verwendet nur eine kleine Anzahl von GPUs – was Sie benötigen gerade genug VRAM, um die quantisierten (komprimierten) Modellgewichte des geschulten Modells zu speichern.

Es kann gesagt werden, dass dies die Hauptkomponenten von Nvidias „Wassergraben“ sind und der Grund, warum es für eine lange Zeit so hohe Gewinnmargen aufrechterhalten kann (es gibt auch einen „Schwungrad -Effekt“, dh sie investieren aktiv außergewöhnliche Gewinne in große Gewinne in Große Mengen an Forschung und Entwicklung, die wiederum ihre Technologie schneller als ihre Konkurrenten verbessern und dabei immer den Weg in der Rohleistung voraus sind).

Wie bereits erwähnt, sind in allen anderen Fällen, in denen dieselben Bedingungen häufig die Leistung pro Dollar sind (einschließlich der Kosten für die Investitionskosten des Geräts und des Energieverbrauchs, d. H. Die Leistung pro Watt), obwohl die GPU von NVIDIA die schnellsten ist, aber wenn sie von gemessen werden Allein Flops, sie sind nicht die kostengünstigsten.

Das Problem ist jedoch, dass andere Faktoren nicht gleich sind. Die Treiber von AMD sind schreckliche, beliebte AI -Software -Bibliotheken, die bei AMD -GPUs nicht gut laufen, und außerhalb des Spielfelds finden Sie keine GPU -Experten, die wirklich gut in AMD -GPUs sind (Warum stören sie, es gibt eine größere Nachfrage nach CUDA -Experten auf dem Markt?) Sie können Tausende von GPUs aufgrund der schlechten Verbindungstechnologie von AMD nicht effektiv verbinden – dies bedeutet, dass AMD in hochwertigen Rechenzentren ist. Das Feld ist Grundsätzlich unwommert und scheint kurzfristig keine guten Entwicklungsaussichten zu haben.

Ok, es klingt so, als hätte Nvidia einen tollen Ausblick, oder?Jetzt wissen Sie, warum der Bestand so wert ist!Aber gibt es noch andere versteckte Sorgen?Nun, ich glaube nicht, dass es viele versteckte Sorgen gibt, die große Aufmerksamkeit verdienen.Einige Probleme lauten in den letzten Jahren hinter den Kulissen, aber ihre Auswirkungen sind angesichts der Wachstumsrate minimal.Aber sie bereiten sich darauf vor, nach oben zu gehen.Andere Themen sind erst in letzter Zeit aufgetreten (wie in den letzten zwei Wochen) und können den Verlauf des jüngsten Wachstums der GPU -Nachfrage erheblich verändern.

Hauptbedrohungen

Aus Makroperspektive können Sie so denken: Nvidia ist seit langem in einem sehr Nischenbereich. Sie haben nicht genug Kapital, um Marktführer wie Nvidia wirklich Druck auszuüben.Der Gaming -Markt ist groß und wächst, bringt aber keine erstaunlichen Gewinne oder besonders erstaunliche jährliche Wachstumsraten erzielt.

Um 2016-2017 begannen einige große Technologieunternehmen, die Rekrutierung und Ausgaben für maschinelles Lernen und künstliche Intelligenz zu erhöhen, aber insgesamt war dies nie wirklich ein Projekt, das sie wichtig waren-eher wie die F & E-Ausgaben „Mond Exploration Program“.Aber nach der Veröffentlichung von Chatgpt im Jahr 2022 hat der Wettbewerb im Bereich der künstlichen Intelligenz wirklich begonnen.

Plötzlich sind große Unternehmen bereit, Milliarden zu einem alarmierenden Satz zu investieren.Die Zahl der Forscher, die an großen Forschungskonferenzen wie Neurips und ICML teilnehmen, ist gestiegen.Intelligente Studenten, die zuvor finanzielle Derivate untersucht haben, wandten sich an Transformatoren, und die Vergütung für mehr als eine Million Dollar an nicht geschäftsführenden Ingenieurpositionen (d. H. Unabhängige Mitwirkende, die die Teams nicht verwalten) wurden zur Norm für führende KI-Labors.

Ändern Sie die Richtung eines großen Kreuzfahrtschiffs. Auch wenn Sie sich sehr schnell umgehen und Milliarden von Dollar ausgeben, dauert es ein Jahr oder länger, um ein brandneues Rechenzentrum zu erstellen. Bestellen Sie alle Geräte (die Vorlaufzeit wird verlängert). und vervollständigen Sie alle Setups und Debuggen.Es dauert lange, bis selbst die intelligentesten Programmierer wirklich in den Staat eingehen und mit vorhandenen Codebasen und Infrastruktur vertraut sind.

Aber Sie können sich vorstellen, dass Geld, Arbeitskräfte und Energie, die in diesen Bereich investiert sind, absolut astronomisch sind.Nvidia ist das größte Ziel aller Teilnehmer, da sie die größten Mitwirkenden für die heutigen Gewinne leisten, nicht in der Zukunft, in der künstliche Intelligenz unser Leben diktiert.

Die wichtigste Schlussfolgerung ist daher, dass „der Markt immer einen Ausweg finden wird“ und alternative, gründlich innovative neue Möglichkeiten finden, Hardware herzustellen, wobei brandneue Ideen verwendet werden, um Hindernisse zu umgehen, wodurch der Wassergraben von Nvidia konsolidiert wird.

Bedrohungen auf Hardwareebene

Zum Beispiel verwenden künstliche Intelligenz-Training-Chips von Cerebras den gesamten 300-mm-Siliziumwafer für einen absolut riesigen Chip, der Größenordnungen mehr Transistoren und Kerne auf einem einzelnen Chip enthält (siehe ihre neuesten Blog-Beiträge, um zu erfahren, wie Sie befassten sich mit den Output -Problemen, die verhindert hatten, dass dieser Ansatz wirtschaftlich praktisch war.

Um dies zu veranschaulichen: Wenn Sie den neuesten WSE-3-Chip von Cerebras mit dem Flaggschiff-GPU H100 von NVIDIA vergleichen, beträgt die gesamte Chip-Fläche des Cerebras-Chips 46225 Quadratmillimeter, während der H100 nur 814 Quadratmillimeter beträgt (nach Branchenstandards, die der H100, die der Branchenstandards, die H100 Es ist ein großer Chip an sich;Anstatt 132 „Streaming -Multiprozessor“ -Kerne auf dem Chip wie dem H100 zu aktivieren, hat der Cerebras -Chip etwa 900.000 Kerne (natürlich ist jeder Kern kleiner und hat weniger Funktionen, aber im Vergleich ist diese Zahl immer noch sehr groß).Insbesondere im Bereich der künstlichen Intelligenz beträgt die Flops -Computerleistung von Cerebras -Chips etwa das 32 -fache eines einzelnen H100 -Chips.Da der Preis des H100-Chips nahe bei 40.000 US-Dollar liegt, ist es denkbar, dass der Preis des WSE-3-Chips auch nicht billig ist.

Also, worum geht es?Anstatt zu versuchen, NVIDIA mit einem ähnlichen Ansatz direkt zu bekämpfen oder mit der Interconnect-Technologie von Mellanox zu konkurrieren, hat Cerebras einen völlig neuen Ansatz zur Umgehung des Verbindungsproblems verfolgt wird weniger wichtig.Sie benötigen nicht einmal die gleiche Verbindung, da ein riesiger Chip Tonnen von H100 ersetzen kann.

Darüber hinaus funktionieren Cerebras -Chips auch bei Aufgaben der künstlichen Inferenzinferenz sehr gut.Tatsächlich können Sie es heute kostenlos hier ausprobieren und Metas sehr berühmtes Lama-3.3-70b-Modell verwenden.Die Reaktionsgeschwindigkeit ist im Grunde genommen sofort mit etwa 1500 Token pro Sekunde.Aus Vergleichssicht ist die Geschwindigkeit von mehr als 30 Token pro Sekunde für Benutzer relativ schnell im Vergleich zu Chatgpt und Claude, und sogar 10 Token pro Sekunde ist schnell genug, um eine Antwort zu erzeugen, während sie eine Antwort erzeugen.

Cerebras sind nicht das einzige Unternehmen, es gibt andere wie GREI (nicht zu verwechseln mit Elon Musks X Ai-ausgestrahlter Grok-Modellserie).GREQ verfolgt einen weiteren innovativen Ansatz, um dasselbe grundlegende Problem zu lösen.Anstatt zu versuchen, direkt mit dem CUDA -Software -Stack von Nvidia zu konkurrieren, entwickelten sie eine sogenannte „Tensor -Verarbeitungseinheit“ (TPU), speziell für die genauen mathematischen Operationen, die für Deep -Learning -Modelle erforderlich sind.Ihre Chips richten sich um das Konzept des „deterministischen Computing“, was bedeutet, dass ihre Chips im Gegensatz zu herkömmlichen GPUs jedes Mal vollständig vorhersehbare Operationen durchführen.

Dies mag nach einem kleinen technischen Detail klingen, hat jedoch einen enormen Einfluss auf das Chip -Design und die Softwareentwicklung.Da die Zeit völlig sicher ist, kann CRQ seine Chips optimieren, was herkömmliche GPU -Architekturen nicht tun können.In den letzten sechs Monaten haben sie also die Inferenzgeschwindigkeit von über 500 Token pro Sekunde für die Modelle der LLAMA -Serie und andere Open -Source -Modelle gezeigt, was die Geschwindigkeit weit überschreitet, die herkömmliche GPU -Einstellungen erreichen können.Wie Cerebras ist dieses Produkt jetzt verfügbar und Sie können es hier kostenlos ausprobieren.

Unter Verwendung des LLAMA3 -Modells mit der Funktion „spekulativer Decodierung“ kann GRQ 1320 Token pro Sekunde erzeugen, was mit Cerebras vergleichbar ist und die Leistung einer regulären GPU weit überschreitet.Jetzt fragen Sie sich vielleicht, was es bedeutet, über 1000 Token pro Sekunde zu erreichen, wenn Benutzer mit der Geschwindigkeit von Chatgpt ziemlich zufrieden zu sein scheinen (weniger als 1000 Token pro Sekunde).Tatsächlich ist dies in der Tat sehr wichtig.Wenn Sie ein sofortiges Feedback erhalten, iteriert schneller und Sie verlieren den Fokus nicht wie ein menschlicher Wissensarbeiter.Wenn Sie das Modell programmgesteuert über die API verwenden, können Sie vollständig neue Kategorien von Anwendungen ermöglichen, die eine mehrstufige Inferenz erfordern (die Ausgabe der vorherigen Phase wird als Eingabe für nachfolgende Phasenaufforderungen/Schlussfolgerungen verwendet) oder Reaktionen mit geringer Latenz erfordern, z.

Aber im Grunde genommen, je schneller die Antwort auf Anfragen ist, desto schneller der Zyklus und je geschäftiger die Hardware.Während die Hardware von GREQ sehr teuer ist und ein Server bis zu 2 bis 3 Millionen US -Dollar kostet. Wenn die Nachfrage groß genug ist, um die Hardware ständig zu beschäftigen, werden die Kosten für jede Anfrage stark reduziert.

Wie die Cuda von Nvidia stammt ein großer Teil der Stärken von GREQ von seinem proprietären Software -Stack.Sie konnten Open -Source -Modelle nehmen, die von anderen Unternehmen wie Meta, Deepseek und Mistral kostenlos entwickelt und freigelassen wurden, und sie auf besondere Weise aufschlüsseln, damit sie auf bestimmten Hardware schneller laufen.

Wie Cerebras treffen sie unterschiedliche technische Entscheidungen, um bestimmte Aspekte des Prozesses zu optimieren und so ihre Arbeit auf eine ganz andere Weise durchzuführen.Nehmen wir COE als Beispiel, sie konzentrieren sich vollständig auf Computing auf Inferenzebene und nicht auf das Training: Alle speziellen Hardware und Software können nur eine große Geschwindigkeits- und Effizienzvorteile ausüben, wenn bereits geschultes Modelle inferenziert werden.

Wenn jedoch das nächste große Expansionsgesetz, das die Menschen erwarten Solange seine Geschwindigkeit und Effizienz Nvidia weit überlegen sind, wird es in den nächsten Jahren auch ernsthafte Wettbewerbsbedrohungen mit sich bringen.Zumindest können Cerebras und GREQ die hohen Erwartungen des Umsatzwachstums von NVIDIA in der aktuellen Aktienbewertung untergraben.

Abgesehen von diesen besonders innovativen, aber relativ unbekannten Start-up-Konkurrenten haben einige der größten Kunden von NVIDIA selbst einen ernsthaften Wettbewerb mit sich gebracht, die speziell für KI-Schulungen und Argumentation der Arbeitsbelastungen maßgeschneiderte Chips vorgenommen haben.Das berühmteste davon ist Google, das seit 2016 eine eigene proprietäre TPU entwickelt.Interessanterweise, obwohl Google TPUs kurz an externe Kunden verkauft hat, nutzt Google in den letzten Jahren alle TPUs intern und hat seine TPU-Hardware der sechsten Generation gestartet.

Amazon entwickelt auch eigene kundenspezifische Chips namens Trainium2 und Inferentia2.Amazon baut Rechenzentren mit Milliarden von Dollar an Nvidia -GPUs, während sie auch Milliarden von Dollar in andere Rechenzentren investieren, die diese internen Chips verwenden.Sie haben einen Cluster, der jetzt online für Anthropic ist, das über 400.000 Chips verfügt.

Amazon wurde dafür kritisiert, dass sie die interne KI -Modellentwicklung vollständig vermasselt und viele interne Computerressourcen für Modelle verschwendet haben, die letztendlich keine Wettbewerbsfähigkeit haben, aber benutzerdefinierte Chips sind eine andere Angelegenheit.Auch hier brauchen sie nicht unbedingt ihre eigenen Chips, um besser und schneller zu sein als Nvidia.Alles, was sie brauchen, sind gut genug Chips, aber um Chips mit Break-Even-Bruttomargen zu machen, anstatt die rund 90% ige Bruttomarge, die Nvidia für das H100-Geschäft verdient.

OpenAI kündigte auch ihre Pläne zur Herstellung von benutzerdefinierten Chips an, und sie (mit Microsoft) sind offensichtlich die größten Benutzer der NVIDIA -Hardware von Rechenzentrum.Es scheint, dass dies nicht genug ist, Microsoft selbst kündigte einen eigenen benutzerdefinierten Chip an!

Als weltweit wertvollste Technologieunternehmen hat Apple die Erwartungen der Menschen seit vielen Jahren mit seinem äußerst innovativen und disruptiven Custom -Chip -Geschäft gestört. Die Leistung ist der wichtigste Faktor für mobile (Telefon/Tablet/Laptop).Seit Jahren produzieren sie ihre eigenen Inhouse-entworfenen GPUs und „neuronalen Prozessoren“, obwohl sie die Praktikabilität dieser Chips außerhalb ihrer benutzerdefinierten Anwendungen nicht wirklich bewiesen haben .

Während Apple sich von diesen anderen Spielern unterscheidet, konzentriert sich der Fokus auf Mobilfunk, Verbraucherorientierter und „Edge Computing“. Stellen Sie sich vor, dass sie Teams haben, die daran arbeiten, wie sie ihre eigenen individuellen Chips für Argumentation/Training herstellen können (obwohl Sie dies angesichts ihrer Vertraulichkeit möglicherweise nie direkt kennen!).

Jetzt ist es kein Geheimnis, dass NVIDIAs Super Extender -Kundenbasis eine starke Verteilung des Stromrechts aufweist, wobei einige Top -Kunden die überwiegende Mehrheit der hohen Gewinneinnahmen ausmachen.Wie sollten wir die Zukunft dieses Unternehmens betrachten, wenn jeder dieser VIP -Kunden speziell für KI -Schulungen und Argumentation seine eigenen individuellen Chips herstellt?

Wenn Sie über diese Themen nachdenken, sollten Sie sich an eine sehr wichtige Tatsache erinnern: Nvidia ist größtenteils ein Unternehmen an geistigem Eigentum.Sie machen keine eigenen Chips.Das Geheimnis dieser unglaublichen Geräte ist wahrscheinlich mehr von TSMC und ASML, die spezielle EUV-Lithographiemaschinen für diese hochmodernen Prozessknotenchips herstellen.Dies ist von entscheidender Bedeutung, da TSMC an jedem Kunden, der bereit ist, eine ausreichende Investition im Voraus zu liefern, hochmoderne Chips verkaufen und eine bestimmte Anzahl von Kunden garantieren.Es ist ihnen egal, dass diese Chips für Bitcoin-Mining spezifische integrierte Schaltkreise, Grafikprozessoren, thermoplastisches Polyurethan, mobile systembasierte Chips usw. verwendet werden.

Was ist das jährliche Einkommen von Senior NVIDIA -Chip -Designern, und diese Tech -Giganten werden sicherlich genug Bargeld und Aktien veröffentlichen, um einige der besten Talente für die Jagdarbeit zu gewinnen.Sobald sie das Team und die Ressourcen haben, können sie in 2 bis 3 Jahren innovative Chips entwerfen (vielleicht gibt es nicht einmal die fortgeschrittenen 50% des H100, aber mit NVIDIAs Bruttogewinnmarge haben sie immer noch viel Raum für die Entwicklung). Und dank TSMC können sie genau die gleiche Prozessknotentechnologie wie NVIDIA verwenden, um diese Chips in tatsächliche Siliziumwafer umzuwandeln.

Software Bedrohung

Es scheint, dass diese bevorstehenden Hardware -Bedrohungen nicht schlimm genug sind, und in den letzten Jahren wurden auch einige Fortschritte im Softwaresektor erzielt, und obwohl es einen langsamen Start hat, ist es jetzt stark und kann eine ernsthafte Bedrohung für die Cuda von Nvidia darstellen Softwaredominanz.Erstens ist der schlechte Linux -Treiber für AMD -GPUs.Erinnern Sie sich, als wir diskutierten, warum AMD diesen Fahrern unklug erlaubt hat, jahrelang so schlimm zu sein, aber sich zurücklehnen und sehen, wie viel Geld verschwindet?

Interessanterweise ist der berüchtigte Hacker George Hotz, der als Teenager für das ursprüngliche iPhone bekannt ist, derzeit CEO von Self-Driving Startup Comma.ai und künstlicher Intelligenz Computer Company Tiny Corp, die kürzlich auch eine Open-Source-Tinygrad-AI-Software-Framework entwickelt hat) kündigte an, dass er es satt hatte, mit AMDs schlechten Treibern umzugehen, und es war bestrebt, die günstigere AMD -GPU in seinem Tinybox AI -Computer zu verwenden (sind eine Vielzahl von Modellen, von denen einige Nvidia -GPUs verwenden, während andere AMD -GPUs verwenden).

Tatsächlich machte er ohne AMD -Hilfe seinen eigenen Treiber und Software -Stack für AMD GPUs. Wir haben unsere eigenen Fahrer, Laufzeiten, Bibliotheken und Emulatoren. GPUs, um die Anforderungen verschiedener Anwendungen zu erfüllen, und Unternehmen müssen derzeit für NVIDIA GPUs bezahlen.

Nun, das ist nur ein Treiber für AMD und es ist noch nicht gemacht.Was noch?Nun, es gibt andere Bereiche, die einen größeren Einfluss auf die Software haben.Erstens arbeiten viele große Technologieunternehmen und Open -Source -Software -Communities zusammen, um allgemeinere AI -Software -Frameworks zu entwickeln, von denen CUDA nur eines von vielen „Kompilierungszielen“ ist.

Das heißt, Sie schreiben Software mit höheren Abstraktionen auf höherer Ebene, und das System selbst kann diese Strukturen auf hoher Ebene automatisch in einen Code auf niedrig optimiertem Niveau umwandeln, was bei CUDA hervorragend funktioniert.Da es jedoch bei dieser höheren Abstraktionsniveau erfolgt, kann es leicht in Code mit niedrigem Niveau zusammengestellt werden, so von Technologieunternehmen entwickelt werden.

Die berühmtesten Beispiele dieser Frameworks sind MLX (hauptsächlich von Apple), Triton (hauptsächlich von OpenAI gesponsert) und Jax (hauptsächlich von Google entwickelt).MLX ist besonders interessant, da es eine pytorchähnliche API bietet, die auf Apple Silicon effizient ausgeführt wird, um zu zeigen, wie diese Abstraktionsebenen die KI-Workloads ermöglichen, auf völlig unterschiedlichen Architekturen zu laufen.In der Zwischenzeit wird Triton immer beliebter, da es Entwicklern ermöglicht, Hochleistungscode zu schreiben, der für eine Vielzahl von Hardwarezielen zusammengestellt werden kann, ohne die zugrunde liegenden Details jeder Plattform verstehen zu müssen.

Diese Frameworks ermöglichen es Entwicklern, Code mit leistungsstarken Abstraktionen zu schreiben und dann automatisch für eine große Anzahl von Plattformen zu kompilieren – klingt das nicht effizienter?Dieser Ansatz bietet eine größere Flexibilität, wenn der Code tatsächlich ausgeführt wird.

In den 1980er Jahren wurde die beliebteste und meistverkaufte Software in handgemachte Montagesprache geschrieben.Zum Beispiel ist das PKZIP -Komprimierungsmittelprogramm so handgefertigt, dass die Geschwindigkeit maximiert wird, dass die Version des Codes, die in der Standard -C -Programmiersprache geschrieben und mit dem zu diesem Zeitpunkt bester Optimierungskompiler zusammengestellt wurde, nur bei der Hälfte des manuellen Tuning -Montage -Codes ausgeführt werden kann.Gleiches gilt für andere beliebte Softwarepakete wie WordStar, VisiCalC usw.

Im Laufe der Zeit sind Compiler immer leistungsfähiger geworden, und wenn sich die CPU-Architektur ändert (z. B. von Intel Release 486 bis Pentium usw.), müssen handgeschrieben Machen Sie den Job (wie ein CUDA -Experte ist besser als ein „gewöhnlicher“ Softwareentwickler auf dem Arbeitsmarkt).Schließlich wurden die Dinge allmählich konsistent, und der Geschwindigkeitsvorteil der manuellen Montage wurde durch die Flexibilität des Schreibens von Code in hochrangigen Sprachen wie C oder C oder C ++ stark überwogen Gegebener CPU.

Heutzutage schreiben nur wenige Leute einen neuen Code in der Montagesprache.Ich glaube, dass KI -Trainings- und Inferenzcode aus ungefähr den gleichen Gründen eine ähnliche Verschiebung durchlaufen wird „Ich muss nicht weiterhin die“ CUDA -Steuer „zahlen, die Nvidia mehr als 90% ihres Gewinns bringt.

Ein weiterer Bereich, der sich jedoch dramatisch verändern könnte Ein Großteil der Parallelität (weil sie bereits damit vertraut sind, ist es gut strukturiert, ist eine gemeinsame Sprache usw.), aber im Gegensatz zu der üblichen Praxis werden diese Codes nicht für NVIDIA-GPUs kompiliert, sondern werden als LLM als LLM eingegeben Source Code, LLM kann ihn in jeden Code auf niedrigem Niveau umwandeln, der von neuen Cerebras-Chips, neuem Amazon-Trainium2 oder neuem Google TPUV6 verstanden werden kann.Dies ist nicht so weit weg, wie Sie denken.

Theoretische Bedrohung

Die vielleicht schockierendste Entwicklung ereignete sich in den vergangenen Wochen.Die Nachrichten schockierten die KI -Welt völlig, und obwohl die Mainstream -Medien sie nicht erwähnten, wurde sie auf Twitter zu einem heißen Thema für Intellektuelle: Ein chinesisches Startup namens Deepseek veröffentlichte zwei neue Modelle. OpenAI und Anthropic (jenseits des Meta llama3 -Modells und anderen kleineren Open -Source -Modellen wie Mistral).Diese Modelle werden als Deepseek-V3 (im Grunde eine Antwort auf GPT-4O und Claude3.5 Sonett) und Deepseek-R1 (im Grunde eine Antwort auf das O1-Modell von OpenAI) bezeichnet.

Warum ist das so schockierend?Erstens ist Deepseek ein kleines Unternehmen, das weniger als 200 Mitarbeiter haben soll.Sie sollen als quantitativer Handels -Hedgefonds ähnlich wie Twosigma oder Rentec begonnen haben, aber nachdem China seine Regulierung des Fachgebiets verstärkt hatte, verwendeten sie ihr Expertise für Mathematik und Ingenieurwissenschaften, um sich der KI -Forschung zuzuwenden.Tatsache ist jedoch, dass sie zwei sehr detaillierte technische Berichte veröffentlicht haben, nämlich Deepseek-V3 und Deepseekr1.

Dies sind High-Tech-Berichte, und wenn Sie nichts über lineare Algebra wissen, kann es schwierig zu verstehen sein.Sie sollten jedoch versuchen, die Deepseek -App kostenlos im AppStore herunterzuladen, sich anzumelden und mit Ihrem Google -Konto zu installieren und sie dann auszuprobieren (Sie können sie auch auf Android installieren) oder direkt auf Ihrem Desktop versuchen mit einem Browser.Stellen Sie sicher, dass Sie die Option „DeeptHink“ auswählen, um die Denkkette (R1 -Modell) zu aktivieren, und lassen Sie sie einige der Inhalte des technischen Berichts in einfacher Sprache erläutern.

Dies wird Ihnen auch einige wichtige Dinge sagen:

Zunächst ist dieses Modell absolut legal.Es gibt viele falsche Komponenten in KI-Benchmarks, die oft manipuliert werden, um das Modell in Benchmarks gut abzubauen, jedoch nicht in realen Tests.Google ist zweifellos der größte Schuldige in dieser Hinsicht, und sie rühmen sich immer darüber, wie magisch ihr LLM ist, aber diese Modelle funktionieren in realen Tests schlecht und können die einfachsten Aufgaben nicht einmal zuverlässig erledigen, geschweige denn eine herausfordernde Codierungsaufgabe haben .Das Deepseek -Modell ist unterschiedlich und seine Reaktion ist kohärent und leistungsstark und ist auf dem gleichen Niveau wie die OpenAI- und Anthropic -Modelle.

Zweitens hat Deepseek nicht nur erhebliche Fortschritte in der Modellqualität erzielt, sondern auch, sondern auch erhebliche Fortschritte bei der Modelltraining und der Inferenz -Effizienz erzielt.In der Hardware und durch die Zusammenstellung einiger einzigartiger und sehr cleverer Optimierungen ist Deepseek in der Lage, diese unglaublichen Modelle mit GPUs auf eine wesentlich effizientere Weise zu schulen.Nach einigen Messungen ist Deepseek etwa 45-mal effizienter als andere modernste Modelle.

Deepseek behauptet, dass die gesamten Kosten für die Ausbildung von Deepseek-V3 nur über 5 Millionen US-Dollar betragen.Nach den Standards von OpenAI, Anthropic und anderen Unternehmen ist dies überhaupt nichts, da diese Unternehmen bereits 2024 das Niveau eines einzelnen Modelltrainingskostens von mehr als 100 Millionen US -Dollar erreichten.

Wie ist das möglich?Wie könnte dieses kleine chinesische Unternehmen alle klügsten Menschen in unseren führenden KI -Labors, die mehr als das 100 -fache der Ressourcen, der Anzahl der Mitarbeiter, Gehälter, Kapital, GPUs und mehr haben, vollständig übertreffen?Sollte China nicht durch Bidens Beschränkungen für GPU -Exporte geschwächt werden?Nun, die Details sind ziemlich technisch, aber wir können sie zumindest allgemein beschreiben.Vielleicht stellt sich heraus, dass Deepseeks relativ schwache GPU -Verarbeitungskraft genau der Schlüsselfaktor für die Verbesserung seiner Kreativität und Intelligenz ist, da „die Nachfrage die Mutter der Erfindung ist“.

Eine wichtige Innovation ist ihr fortschrittlicher Hybrid-Präzisions-Trainingsrahmen, mit dem sie während des gesamten Trainingsprozesses 8-Bit-Schwimmpunktzahlen (FP8) verwenden können.Die meisten westlichen AI-Labors trainieren mit „vollständigen Präzision“ 32-Bit-Zahlen (dies gibt im Grunde die Anzahl der möglichen Gradienten an Begrenzt auf 256 gleiche Mengen an verschiedenen Größen in regulären Ganzzahlen, verwendet aber clevere mathematische Tricks, um sehr kleine und sehr große Zahlen zu speichern – obwohl die natürliche Präzision nicht so gut ist wie 32 Bit.) Der Hauptkompromiss besteht darin Speichert mit erstaunlicher Präzision über einen großen Bereich, aber FP8 opfert einige Präzision, um den Gedächtnis zu sparen und die Leistung zu verbessern und gleichzeitig für viele KI -Workloads eine ausreichende Präzision aufrechtzuerhalten.

Deepseek löst dieses Problem, indem es ein cleveres System entwickelt, das Zahlen für Aktivierung und Stücke für Gewichte in kleine Teile zerlegt und an wichtigen Punkten im Netzwerk strategisch hochpräzise Berechnungen verwendet.Im Gegensatz zu anderen Labors, die zuerst ein hohes Training durchführen und dann komprimieren (was dabei eine gewisse Qualität verliert), kann Deepseeks nativer Ansatz von Deepseek viel Speicher sparen, ohne die Leistung zu beeinträchtigen.Wenn Sie mit Tausenden von GPUs trainieren, wird die Speicheranforderung für jede GPU stark reduziert, was bedeutet, dass die Gesamtzahl der erforderlichen GPUs stark reduziert wird.

Ein weiterer großer Durchbruch ist ihr Multi-Marker-Vorhersagesystem.Die meisten transformatorbasierten LLM-Modelle schließen durch Vorhersage des nächsten Tags-ein Tag jeweils vor.

Deepseek fand heraus, wie mehrere Marker vorhergesagt werden können und gleichzeitig die Qualität von Einzelmarker -Vorhersagen beibehalten werden.Ihre Methode erreicht eine Genauigkeit von etwa 85-90% in diesen zusätzlichen Markierungsvorhersagen und verdoppelt die Inferenzgeschwindigkeit effektiv, ohne zu viel Qualität zu beeinträchtigen.Das Kluge ist, dass sie die vollständige kausale Kette von Vorhersagen beibehalten, sodass das Modell nicht nur eine Vermutung, sondern eine strukturierte, kontextsensitive Vorhersage ist.

Eine ihrer innovativsten Entwicklungen ist das, was sie als lange potenzielle Aufmerksamkeit (MLA) bezeichnen.Dies ist ihr Durchbruch im Umgang mit sogenannten Schlüsselwertindizes, die im Grunde genommen ein einzelnes Token im Aufmerksamkeitsmechanismus in der Transformatorarchitektur dargestellt werden.Dies ist zwar aus technischer Sicht etwas zu komplex, aber es kann gesagt werden Gleichzeitig beträgt jeweils das maximale VRAM der GPU 96 GB, und diese Indizes werden all diesen Speicher auffressen.

Ihr MLA -System fand eine Möglichkeit, komprimierte Versionen dieser Indizes zu speichern, die weniger Speicher verwenden, während grundlegende Informationen erfasst wurden.Das Beste daran ist, dass diese Komprimierung direkt in der Art und Weise erstellt wird, wie das Modell gelernt wird-es ist kein einziger Schritt, den sie tun müssen, aber es ist direkt in eine End-to-End-Trainingspipeline aufgebaut.Dies bedeutet, dass der gesamte Mechanismus „differenzierbar“ ist und direkt mit Standardoptimierern trainiert werden kann.Der Grund, warum es erfolgreich war, ist, dass die von diesen Modellen festgestellten zugrunde liegenden Datendarstellungen viel niedriger waren als die sogenannte „Umweltdimension“.Das Speichern eines vollständigen KV -Index ist also eine Verschwendung, obwohl alle anderen es im Grunde genommen tun.

Es gibt nicht nur viel Platzverschwendung, da eine massive Mengen an Daten, die den tatsächlichen Nachfrage übersteigt reduziert), aber es kann die Modellqualität tatsächlich verbessern, da es als „Regulator“ dienen kann, um das Modell zu zwingen, sich auf das zu konzentrieren, was wirklich wichtig ist, anstatt die Verschwendung zu verwenden, um sich an Rauschen in den Trainingsdaten anzupassen.Sie sparen also nicht nur viel Gedächtnis, sondern Ihr Modell kann sogar besser abschneiden.Zumindest werden Sie die Leistung nicht ernsthaft beeinflussen, indem Sie viel Gedächtnis sparen, was normalerweise der Kompromiss ist, dem Sie im KI -Training konfrontiert sind.

Sie haben auch erhebliche Fortschritte bei der GPU -Kommunikationseffizienz durch den Dualpipe -Algorithmus und benutzerdefinierten Kommunikationskerne erzielt.Das System überlappt intelligent über das Computer und die Kommunikation und balanciert sorgfältig die GPU -Ressourcen zwischen Aufgaben.Sie benötigen nur etwa 20 GPUs Stream -Multiprozessoren (SM), um zu kommunizieren, und der Rest wird für das Computer verwendet.Das Ergebnis ist, dass die GPU -Nutzung viel höher ist als die typischen Trainingseinstellungen.

Eine andere sehr kluge Sache, die sie tun, ist die Verwendung der sogenannten Architektur von Hybrid Expert (MOE) -Transformator, aber wichtige Innovationen werden im Rahmen des Lastausgleichs durchgeführt.Wie Sie wahrscheinlich wissen, wird die Größe oder Kapazität eines KI -Modells normalerweise an der Anzahl der Parameter gemessen, das das Modell enthält.Der Parameter ist nur eine Zahl, die bestimmte Eigenschaften des Modells speichert; , usw.

Das neueste LLAMA3 -Modell von Meta gibt es in mehreren Größen, wie z.Für die meisten Benutzer hat dieses größte Modell nur eine begrenzte Praktikabilität, da Ihr Computer mit einer GPU im Wert von Zehntausenden von Dollar ausgestattet sein muss, um Inferenz mit akzeptabler Geschwindigkeit auszuführen, zumindest wenn Sie die ursprüngliche Version der vollständigen Präzision bereitstellen.Der größte Teil der Verwendung und der Aufregung dieser Open-Source-Modelle in der realen Welt befindet sich also auf dem 8B-Parameter oder einer stark quantisierten Parameterebene mit 70B Weniger als 1.000 US -Dollar jetzt.

Also, was ist der Sinn von diesen?In gewissem Sinne kann die Anzahl und Präzision von Parametern feststellen, wie viel Rohinformationen oder Daten im Modell gespeichert sind.Bitte beachten Sie, dass ich nicht über die Argumentationsfähigkeit oder den „IQ“ des Modells spreche: Es stellt sich heraus, dass selbst Modelle mit sehr wenigen Parametern gelöst werden können, um komplexe logische Probleme zu lösen, wobei die Ebene der Ebene geometrische Theoreme, mathematische Sat -Probleme, nachweisen, die Ebene der Ebene beweisen, mathematische Probleme, satische Probleme, usw. zeigen hervorragende kognitive Fähigkeiten.

Diese kleinen Modelle erzählen Ihnen jedoch nicht unbedingt jeden Aspekt jeder Handlung in Stendhals Roman, und wirklich große Modelle haben das Potenzial, dies zu tun.Die „Kosten“ dieses extremen Wissens sind, dass das Modell sehr sperrig und schwer zu trainieren und zu begründen, denn um das Modell zu begründen, müssen Sie immer jede der 405B -Parameter (oder eine beliebige Anzahl von Parametern) speichern. zur gleichen Zeit im VRAM der GPU.

Der Vorteil des MOE-Modellansatzes besteht darin, dass Sie große Modelle in eine Reihe kleinerer Modelle mit unterschiedlichem, nicht überlappenden (zumindest nicht vollständig überlappenden) Wissen unterteilen können.Die Innovation von Deepseek entwickelt eine Lastausgleichsstrategie, die sie als „nicht unterstützte Verluste“ bezeichnen, die Experten effizient nutzen, ohne dass die Leistungsverschlechterung, die das Lastausgleich normalerweise bringt, effizient nutzt.Abhängig von der Art der Inferenzanforderung können Sie dann in der Set intelligent die Inferenz an das „Experten“ -Modell im kleineren Modell weiterleiten, das die Frage am besten beantwortet oder die Aufgabe löst.

Sie können es als Expertenkomitee betrachten, die ihre eigenen Fachgebiete haben: Einer könnte ein Rechtsexperte sein, der andere könnte ein Informatikexperte sein und der andere könnte ein Experte für Geschäftsstrategie sein.Wenn also jemand eine Frage zur linearen Algebra stellt, werden Sie sie einem Rechtsexperten nicht geben.Natürlich ist dies nur eine sehr grobe Analogie, und das ist nicht wirklich so.

Der eigentliche Vorteil dieses Ansatzes besteht darin, dass das Modell viel Wissen enthält, ohne sehr sperrig zu sein, denn selbst wenn die Gesamtzahl der Parameter für alle Experten hoch ist, ist nur ein kleiner Prozentsatz von ihnen bei jedem „aktiv“ Mit der Zeit, was bedeutet, dass Sie nur eine kleine Teilmenge von Gewichten in VRAM aufbewahren müssen, um Schluss zu führen.Nehmen Sie Deepseek-V3 als Beispiel, es hat ein absolut großes MOE-Modell mit 671B-Parametern, das viel größer ist als das größte LLAMA3 NVIDIA 4090 GPU (Gesamtkosten weniger als 2.000 US -Dollar) ohne einen oder mehrere H100 -GPUs, jeweils etwa 40.000 US -Dollar.

Es gibt Gerüchte, dass Chatgpt und Claude beide Moe-Architektur verwenden.Obwohl dies viel einfacher ist, als alle 1,8-Billionen-Parameter in VRAM zu bringen, dauert es aufgrund der enormen Menge an Speicher, die mehrere GPUs auf H100-Stufe benötigen, um das Modell alleine auszuführen.

Zusätzlich zu den oben genannten Inhalten erwähnt das technische Papier auch einige andere wichtige Optimierungen.Dies schließt den extrem speichersparenden Trainingsrahmen ein, der die Parallelität des Tensors vermeidet, bestimmte Operationen während des Backpropagation neu berechnet, anstatt sie zu speichern, und teilt Parameter zwischen dem Hauptmodell und dem Hilfsvorhersagemodul.Die Summe all dieser Innovationen führt, wenn sie zusammengeschichtet wird, zu etwa dem 45 -fachen der Online -Zahlen der Effizienzverbesserung, und ich bin völlig bereit zu glauben, dass diese Zahlen korrekt sind.

Die Kosten für Deepseeks API sind ein starker Beweis: Obwohl Deepseeks Modellleistung fast die beste der Klasse ist, sind die Kosten für Inferenzanfragen durch seine API 95% niedriger als ähnliche Modelle in OpenAI und Anthrop.In gewissem Sinne ist es ein bisschen so, als würde man den GPUs von Nvidia mit den neuen benutzerdefinierten Chips der Wettbewerber vergleichen Genug erfüllen Ihre Anforderungen, und die Verfügbarkeit und Latenz von API sind gut genug (bisher sind die Menschen trotz eines unglaublichen Anstiegs der Nachfrage aufgrund der Leistung dieser neuen Modelle von Deepseeks Leistung überrascht).

Aber im Gegensatz zu Nvidias Fall ist der Kostenunterschied von NVIDIA auf die Erfassung von mehr als 90% des Bruttogewinns von Monopolen für Rechenzentrumsprodukte zurückzuführen, während die Kostenunterschiede von Deepseek API im Vergleich zu OpenAI- und Anthropic -APIs nur daran liegen, dass ihre Recheneffizienz um fast 50 verbessert wird Zeiten (vielleicht weit mehr als das in Bezug auf die Argumentation – etwa 45 -mal effizienter in Bezug auf das Training).Tatsächlich ist unklar, ob OpenAI und Anthropic enorme Gewinne aus API -Diensten erzielen – sie sind möglicherweise mehr besorgt über das Umsatzwachstum und das Sammeln mehr Daten, indem sie alle empfangenen API -Anfragen analysieren.

Bevor ich weitergeht, muss ich darauf hinweisen, dass viele Menschen spekulieren, dass Deepseek über die Anzahl der GPUs und die Zeit, die für die Ausbildung dieser Modelle benötigt wurde Ich möchte Schwierigkeiten für sich selbst verursachen, noch wollen sie ihren Chancen schaden, mehr von diesen Karten zu bekommen.Obwohl dies sicherlich möglich ist, denke ich, dass sie eher die Wahrheit sagen, haben sie diese unglaublichen Ergebnisse nur erzielt, indem sie extrem hohe Intelligenz und Kreativität in den Trainings- und Argumentationsmethoden zeigen.Sie erklärten ihren Ansatz, und ich denke, es war nur eine Frage der Zeit, bis ihre Ergebnisse weit verbreitet wurden und von anderen Forschern in anderen Labors bestätigt wurden.

Ein wirklich nachdenkliches Modell

Das aktualisierte R1 -Modell und die technischen Berichte sind möglicherweise noch schockierender, da sie in der Denkkette anthropisch schlagen, und jetzt ist es im Grunde das einzige, das die Technologie in großem Maßstab funktioniert, außer OpenAI.Bitte beachten Sie jedoch, dass OpenAI das O1-Vorschau-Modell Mitte September 2024 nicht veröffentlichen wird.Das war vor ungefähr 4 Monaten!Eine Sache, an die Sie sich erinnern müssen, ist, dass OpenAI sehr geheim ist, wie diese Modelle tatsächlich auf einem niedrigen Niveau arbeiten, und die tatsächlichen Modellgewichte an niemanden weitergeben, außer für Partner wie Microsoft, die strenge Vertraulichkeitsvereinbarungen unterschrieben haben.Die Modelle von Deepseek sind völlig anders, sie sind vollständig Open Source und haben lose Lizenzen.Sie veröffentlichten sehr detaillierte technische Berichte, in denen erläutert wurde, wie diese Modelle funktionieren, und Code bereitgestellt, den jeder anzeigen und versuchen kann zu kopieren.

Mit R1 löst Deepseek im Grunde genommen ein Problem im Bereich der künstlichen Intelligenz: Modelle zu lassen, ohne sich auf große, überwachte Datensätze zu verlassen.Ihre Deepseek-R1-Null-Experimente zeigen Folgendes: Die Verwendung von Lernen für das reine Verstärkung mit gut gestalteten Belohnungsfunktionen ermöglicht es, dass das Modell komplexe Inferenzfunktionen vollständig autonom entwickeln.Es ist nicht nur eine Problemlösung-das Modell lernt organisch, langkettiges Denken zu generieren, seine Arbeit selbst zu überprüften und mehr rechnerische Zeit für schwierigere Probleme zuzuordnen.

Die technologischen Durchbrüche hier sind ihre neuartigen Methoden zur Belohnungsmodellierung.Anstatt komplexe Modelle für neuronale Belohnungen zu verwenden, entwickelten sie ein cleveres System, das auf Regeln basiert, was zu „Belohnungshackern“ führen könnte (d. H. Das Modell verbessert die Belohnungen auf falsche Weise, verbessert jedoch nicht die tatsächliche Leistung des Modells). , Kombinieren Sie die Genauigkeitsbelohnungen (Überprüfen Sie die endgültigen Antworten) mit Formatbelohnungen (fördern Sie strukturiertes Denken).Dieser einfachere Ansatz erwies sich als leistungsfähiger und skalierbarer als das prozessbasierte Belohnungsmodell, das andere ausprobiert haben.

Besonders faszinierend ist, dass sie während des Trainingsprozesses die sogenannten „plötzlichen Momente“ beobachteten, in denen das Modell spontan lernt, seinen Denkprozess auf halbem Weg zu ändern, wenn sie auf Unsicherheit stoßen.Diese Art von plötzlichem Verhalten ist kein vorgeschriebenes Programm, sondern wird natürlich durch die Interaktion zwischen dem Modell und der Verstärkungslernenumgebung erzeugt.Das Modell wird wirklich aufhören, potenzielle Probleme beim Argumentieren markieren und dann mit einem anderen Ansatz von vorne beginnen, von denen keiner explizit geschult wird.

Das vollständige R1-Modell baut auf diesen Erkenntnissen auf und stellt so ein, wie sie als „Kaltstart“ -Daten bezeichnet werden-eine kleine Reihe hochwertiger Beispiele, bevor die Technologie zur Verstärkungslernen angewendet wird.Sie lösen auch ein großes Problem im Inferenzmodell: Sprachkonsistenz.Zuvor versuchtes Denkketten -Argumentieren führt häufig dazu, dass Modelle mehrere Sprachen mischen oder inkohärente Ausgabe erzeugen.Deepseek löst dieses Problem durch subtil lohnende Sprachkonsistenz während des RL -Trainings und des Handels mit kleineren Leistungsverlusten für lesbare und konsequentere Ausgaben.

Die Ergebnisse sind unglaublich: R1 hat eine Genauigkeit von 79,8% bei Aime 2024, einem der anspruchsvollsten Mathematikwettbewerbe der High School, das mit dem O1 -Modell von OpenAI vergleichbar ist.Im Math-500 erreichte es 97,3% und erzielte im Programmierwettbewerb Codeforces 96,3%.Am beeindruckendsten ist jedoch, dass sie es geschafft haben, diese Fähigkeiten in kleinere Modelle zu destillieren: Ihre 14B -Parameterversion ist besser als viele Modelle, die ein Vielfaches größer sind, was darauf hindeutet Etwas zu tun, um das Modell zu trainieren, um Informationen zu verarbeiten.

Nachwirkungen

Das jüngste Gerücht, das auf Twitter und Blind, einer Firmengerücht -Website, im Umlauf ist, ist, dass diese Modelle die Erwartungen von Meta völlig über die Erwartungen von Meta liegen und das neue LLAMA4 -Modell, das noch immer geschult wird, sogar übertreffen.Anscheinend hat das Lama-Projekt im Inside Meta die Aufmerksamkeit der hochrangigen technischen Führer auf sich gezogen, sodass etwa 13 Personen, die Lama studieren -V3 -Modell ist besser als Lama.Wie erklären Sie Zuckerberg ernsthaft?Wenn bessere Modelle mit nur 2.000 H100s geschult werden und weniger als 5 Millionen US -Dollar kosten, investierte Zuckerberg Milliarden in Nvidia, um 100.000 H100s zu kaufen, wie konnte er weiter lächeln?

Sie sollten jedoch besser glauben, dass Meta und andere große KI -Labors diese Deepseek -Modelle niederreißen, jedes Wort im technischen Bericht und jede Zeile im von ihnen veröffentlichten Open -Source -Code erforschen und verzweifelt versuchen, diese Tricks und Optimierungen in ihre eigenen zu integrieren Trainings- und Argumentationsprozess.Was hat also die Auswirkungen von all dem?Nun, naiv denken Sie, dass die Gesamtnachfrage nach Schulungs- und Inferenzberechnungen durch eine große Anzahl geteilt werden sollte.Vielleicht nicht 45, sondern 25 oder sogar 30?Denn egal wie sehr Sie gedacht haben, Sie brauchten vorher, jetzt gibt es viel weniger.

Optimisten könnten sagen: „Sie sprechen nur über eine einfache proportionale Konstante, ein einzelnes Vielfachen. Wenn Sie einer exponentiellen Wachstumskurve ausgesetzt sind, verschwinden diese Dinge schnell und werden am Ende nicht so wichtig sein.“ Die Wahrheit: Wenn die KI wirklich so transformativ ist, wie ich es erwartet hatte, wenn der tatsächliche Nutzen dieser Technologie in Billionen gemessen wird, wenn abgeleitete Zeitberechnung das neue Gesetz der Expansion ist, werden sie weiterhin fortgesetzt Um viele Schlussfolgerungen zu ziehen, dann ist die Wachstumskurve vielleicht immer noch sehr steil und extrem, Nvidia ist immer noch weit voraus, es wird immer noch erfolgreich sein.

Aber Nvidia wird in den kommenden Jahren viele gute Nachrichten haben, um seine Bewertung aufrechtzuerhalten, und wenn Sie all diese Faktoren berücksichtigen, fange ich zumindest sehr verärgert über den Kauf seiner Aktien im 20 -fachen des erwarteten Umsatzes im Jahr 2025 an .Was ist, wenn das Umsatzwachstum leicht sinkt?Was ist, wenn die Wachstumsrate nicht über 100%, sondern 85%liegt?Was passiert, wenn die Bruttomarge von 75% auf 70% sinkt, was für Halbleiterunternehmen immer noch hoch ist?

Zusammenfassen

Aus Makroperspektive ist Nvidia beispiellose Wettbewerbsbedrohungen ausgesetzt, wodurch der Umsatz von 20 -fachen und 75% der Bruttogewinnspanne zunehmend schwierig ist, seine hohe Bewertung zu rechtfertigen.Die Vorteile des Unternehmens in Bezug auf Hardware, Software und Effizienz sind alle mit besorgniserregenden Rissen hervorgegangen.Die Welt – die Tausenden der klügsten Menschen der Erde, unterstützt von unzähligen Milliarden Dollar an Kapitalressourcen – versuchen, sie aus allen Blickwinkeln anzugreifen.

Auf der Hardware -Seite zeigen Cerebras und innovative Architekturen von GREQ, dass die miteinander verbundenen Nvidia -Vorteile, der Eckpfeiler seiner Dominanz des Rechenzentrums, durch radikale Neugestaltung umgangen werden können.Cerebras-Wafer-Level-Chips und deterministische Computermethoden für GROQ bieten eine überzeugende Leistung, ohne dass die komplexen Verbindungslösungen von NVIDIA erforderlich sind.Traditionell entwickelt traditionell jeder große NVIDIA-Kunde (Google, Amazon, Microsoft, Meta, Apple) benutzerdefinierte Chips, die hoch gewinnorientierte Umsatzerlöse in Rechnung stellen könnten.Dies sind keine experimentellen Projekte mehr-Allazon allein baut eine groß angelegte Infrastruktur für Anthropic, die mehr als 400.000 individuelle Chips enthält.

Der Softwaregraben scheint gleich fragil zu sein.Neue fortschrittliche Frameworks wie MLX, Triton und Jax untergraben die Bedeutung von CUDA, und die Bemühungen zur Verbesserung der AMD -Treiber können billigere Hardwarealternativen entwickeln.Der Trend der fortgeschrittenen Abstraktion spiegelt wider, wie die Montagesprache C/C ++ Platz macht, was darauf hindeutet, dass die Dominanz von CUDA kürzer sein kann als erwartet.Am wichtigsten ist, dass wir den Anstieg der LLM-basierten Code-Übersetzungstechnologie sehen, mit der COUDA-Code automatisch auf einem Hardware-Ziel ausgeführt werden kann, wodurch eine der leistungsstärksten Sperreffekte von NVIDIA entfällt.

Das vielleicht destruktivste ist der jüngste Durchbruch in der Effizienz von Deepseek, der die Leistung erzielt, die mit der Modellleistung bei etwa 1/45 der Berechnungspfusse vergleichbar ist.Dies zeigt, dass die gesamte Branche in vielerlei Hinsicht die Rechenressourcen überträgt.In Verbindung mit der Entstehung einer effizienteren Architektur durch das Denkkettenmodell kann der Gesamtbedarf nach Berechnung viel niedriger sein als die aktuelle Prognose.Die Wirtschaft hier ist überzeugend: Wenn Deepseek in der Lage ist, die Leistung der GPT-4-Ebene zu erzielen, während die API-Anrufgebühren um 95%gesenkt werden, schlägt dies vor, dass entweder NVIDIA-Kunden unnötig Geld verbrennen oder die Gewinnmargen erheblich sinken müssen.

TSMC produziert wettbewerbsfähige Chips für jeden gut finanzierten Kunden und setzt eine Obergrenze für die architektonischen Vorteile von Nvidia.Im Grunde genommen zeigt die Geschichte jedoch, dass der Markt letztendlich Wege finden wird, um künstliche Engpässe zu umgehen, was zu übermäßigen Gewinnen führt.Insgesamt zeigen diese Bedrohungen, dass Nvidia einen viel raueren Weg zur Aufrechterhaltung seiner aktuellen Wachstumskuro und der Gewinnmargen ausgesetzt ist als die Bewertung.Es gibt fünf verschiedene Angriffsrichtungen – architekturale Innovation, vertikale Integration der Kunden, Software -Abstraktion, Effizienzbrüche und Herstellungsdemokratisierung – ist eine hohe Chance, dass mindestens ein Erfolg einen erheblichen Einfluss auf die Gewinnmargen oder Wachstumsraten von NVIDIA hat.Nach der aktuellen Bewertung zu urteilen, hat der Markt diese Risiken nicht berücksichtigt.