Le rapport de 10 000 mots sur Wall Street: derrière le plongeon de Bitcoin et Nvidia

Un investisseur professionnel qui a travaillé comme analyste et ingénieur logiciel a écrit un article qui a été baissier sur Nvidia, qui a été retweeté par le Big V de Twitter, devenant un « coupable » majeur dans le plongeon des actions de Nvidia.La valeur marchande de Nvidia s’est évaporée de près de 600 milliards de dollars, la plus grande baisse d’une journée pour une entreprise cotée particulière à ce jour.

Le point principal de cet investisseur de Jeffrey Emanuel est que Deepseek expose la cuve de vache fabriquée par Wall Street, les grandes entreprises technologiques et Nvidia, qui est surfaite. »Chaque banque d’investissement recommande d’acheter Nvidia, comme un aveugle donnant un guide, et n’a aucune idée de ce qu’ils disent. »

Jeffrey Emanuel a déclaré que Nvidia est confrontée à une voie beaucoup plus rugueuse pour maintenir sa trajectoire de croissance actuelle et ses marges bénéficiaires que son évaluation ne le suggère.Il existe cinq directions différentes pour attaquer NVIDIA – l’innovation en architecture, l’intégration verticale des clients, l’abstraction des logiciels, les percées d’efficacité et la démocratisation de la fabrication – au moins une chance de succès a un impact significatif sur les marges bénéficiaires ou les taux de croissance de Nvidia semble être très bien élevé.À en juger par l’évaluation actuelle, le marché n’a pas pris en considération ces risques.

Selon certains investisseurs de l’industrie, Emanuel est soudainement devenu une célébrité de Wall Street à cause de ce rapport, et de nombreux fonds spéculatifs lui ont payé 1 000 $ de l’heure pour entendre ses opinions sur Nvidia et l’IA.Ma gorge était tellement occupée que je fume, mais j’ai été tenté de compter de l’argent.

Ce qui suit est le texte intégral du rapport.Apprentissage complet de référence.

En tant qu’analyste d’investissement depuis environ 10 ans dans divers hedge funds longs / courts, notamment en travaillant chez Millennium et Balyasny, et un fan de mathématiques et d’ordinateur qui étudie l’apprentissage en profondeur depuis 2010 (à l’époque, Geoff Hinton parlait toujours de Boltzmann restreint Machines, tout programmait encore en utilisant MATLAB, les chercheurs essayaient toujours de prouver qu’ils pouvaient obtenir de meilleurs résultats pour classer les nombres manuscrits que d’utiliser des machines vectorielles de support), je pense que j’étais sur l’artificiel, il y a une vision plutôt unique sur le développement de l’intelligent La technologie et sa relation avec l’évaluation des actions en bourse.

Au cours des dernières années, j’ai travaillé davantage en tant que développeur et j’ai plusieurs projets open source populaires pour gérer diverses formes de modèles / services d’IA (voir LLM Aided OCR, Swiss Army Llama par exemple, Fast Vector Simility, source to prompt and pastel Couche d’inférence, etc.).Fondamentalement, j’utilise ces modèles de pointe intensivement tous les jours.J’ai 3 comptes Claude, donc je ne suis pas à court de demandes et je me suis inscrit quelques minutes après que Chatgpt Pro soit mis en ligne.

Je m’efforce également de comprendre les derniers progrès de la recherche et de lire attentivement tous les articles importants de rapports techniques publiés par les principaux laboratoires de renseignement artificiel.Par conséquent, je pense que j’ai une assez bonne compréhension de ce domaine et de la façon dont les choses se passent.Pendant ce temps, j’ai court-circuité beaucoup d’actions dans ma vie et remporté le prix de la meilleure créativité du Value Investor Club deux fois (TMS Longs et PDH Shorts si vous avez suivi).

Je dis cela pour ne pas se montrer, mais pour prouver que je peux parler de cette question sans que les techniciens ou les investisseurs professionnels aient l’impression que je suis désespérément enfantin.Bien sûr, il y a certainement beaucoup de gens qui sont plus compétents en mathématiques / sciences que moi, et il y a beaucoup de gens qui sont meilleurs à un investissement long / court en bourse que moi, mais je pense qu’il n’y a pas beaucoup de gens qui peuvent être Au milieu du graphique de Venn comme moi.

Néanmoins, chaque fois que je me rencontre et que je discute avec des amis et d’anciens collègues de l’industrie des fonds spéculatifs, le sujet se tourne rapidement vers Nvidia.Le phénomène d’une entreprise passant de l’obscurité à une valeur marchande dépassant les marchés boursiers combinés du Royaume-Uni, de la France ou de l’Allemagne n’est pas quelque chose que vous pouvez rencontrer chaque jour!Ces amis veulent naturellement savoir ce que je pense de cette question.Parce que je crois fermement que cette technologie aura un impact transformateur à long terme – je crois vraiment qu’elle changera complètement tous les aspects de notre économie et de notre société au cours des 5 à 10 prochaines années, ce qui est fondamentalement sans précédent – il est donc difficile pour moi d’affirmer Nvidia L’élan de développement ralentira ou s’arrêtera à court terme.

Mais même si je pense que l’évaluation est trop élevée pour moi au cours de la dernière année, la récente série de développements m’a fait un peu pencher vers mon intuition d’être plus prudent sur les perspectives et dans le consensus, il semble être remis en question lorsqu’il est trop cher.Comme le dit le dicton, « les sages croient au début, et les stupides croient en fin de compte. » Il y a une raison pour laquelle cette phrase est célèbre.

Cas du marché haussier

Avant de discuter des progrès qui m’ont fait hésiter, passons brièvement le marché haussier des actions NVDA.L’apprentissage en profondeur et l’intelligence artificielle sont les technologies les plus transformatrices depuis Internet et devraient changer fondamentalement tout dans notre société.En ce qui concerne la partie du total des dépenses en capital de l’industrie utilisées pour la formation et le raisonnement des infrastructures, Nvidia est presque en mesure d’être proche du monopole d’une manière ou d’une autre.

Certaines des entreprises les plus grandes et les plus rentables du monde, telles que Microsoft, Apple, Amazon, Meta, Google, Oracle, etc., ont décidé de rester compétitive dans ce domaine à tout prix car elles ne peuvent tout simplement pas se permettre les conséquences de prendre du retard sur les autres. .Le montant des dépenses en capital, la consommation d’électricité, le domaine des nouveaux centres de données et bien sûr le nombre de GPU, ont tous explosé et il ne semble pas y avoir de signe de ralentissement.NVIDIA peut gagner des marges bénéficiaires brutes incroyables jusqu’à 90% avec des produits haut de gamme pour les centres de données.

Nous venons de toucher la surface du marché haussier.Il y a maintenant plus d’aspects, même ceux qui sont déjà très optimistes deviendront plus optimistes.Outre la montée des robots humanoïdes (je soupçonne que la plupart des gens seront surpris lorsqu’ils pourront rapidement accomplir des tâches qui nécessitent actuellement des travailleurs non qualifiés (ou même qualifiés), comme la lessive, le nettoyage, la rangement et la cuisson; fait dans un travail de construction d’équipe de travailleurs comme la décoration d’une salle de bain ou la construction d’une maison; gérer un entrepôt et conduire un chariot élévateur, etc.), et il y a d’autres facteurs que la plupart des gens n’ont même pas pris en compte.

Un sujet majeur dont les gens intelligents parlent est la montée en puissance de la «nouvelle loi de l’expansion», qui fournit un nouveau paradigme pour que les gens réfléchissent à la façon dont la demande informatique augmentera au fil du temps.Depuis l’émergence d’Alexnet en 2012 et l’invention de l’architecture des transformateurs en 2017, la loi d’agrandissement originale qui stimule l’avancement de l’intelligence artificielle est la loi d’expansion avant la formation: plus la valeur du jeton que nous utilisons comme données de formation (maintenant pour Tillions), plus nous avons formé, plus nous utilisons paramètres, plus la puissance de calcul (flops) est élevée pour former ces modèles avec ces jetons, et plus les performances du modèle final seront dans une variété de tâches en aval très utiles .

Non seulement cela, cette amélioration est si prévisible dans une certaine mesure que les principaux laboratoires d’IA comme OpenAI et anthropic peuvent même savoir à quel point leurs derniers modèles seront bons avant qu’ils ne commencent à s’entraîner. the benchmark value of the final model with an error of no more than a few percentage points.这种「原始扩展定律」非常重要，但总是让那些用它来预测未来的人心存疑虑。

首先，我们似乎已经用尽了世界上积累的高质量训练数据集。Bien sûr, ce n’est pas entièrement vrai – il y a encore de nombreux vieux livres et revues qui n’ont pas été correctement numérisés, même s’ils sont numérisés, sans autorisation appropriée comme données de formation.Le problème est que, même si vous vous attribuez tout cela – dites la somme de l’anglais écrit écrit « produit » de 1500 à 2000, lorsque vous parlez d’un corpus de formation de près de 15 billions de notes, du pourcentage d’un point de vue, ce n’est pas a huge number, and the scale of the training corpus is the scale of the current cutting-edge model.

Pour vérifier rapidement l’authenticité de ces chiffres: Google Books a jusqu’à présent numérisé environ 40 millions de livres; Bien sûr, dont une grande partie a été incluse dans le corpus de formation utilisé dans les grands laboratoires, qu’il soit strictement légal ou non.还有很多学术论文，仅arXiv网站就有超过200万篇论文。美国国会图书馆有超过30亿页的数字化报纸。Additionné, le total peut être aussi élevé que les jetons 7t, mais comme la plupart sont en fait inclus dans le corpus de formation, les données de formation « incrémentielles » restantes peuvent ne pas être si importantes dans le plan global.

Bien sûr, il existe d’autres moyens de collecter plus de données de formation.Par exemple, vous pouvez transcrire automatiquement chaque vidéo YouTube et utiliser ces textes.Bien que cela puisse aider, il est certainement beaucoup plus faible en qualité qu’un manuel très apprécié de chimie organique, qui est une source de connaissances utile pour comprendre le monde.Par conséquent, en termes de loi d’origine de l’échelle, nous avons toujours fait face à la menace d’un «mur de données»; bien que nous sachions que nous pouvons continuer à investir plus de dépenses en capital dans les GPU et à construire plus de centres de données, la production de masse de nouveaux humains utiles knowledge It is much more difficult, and this knowledge is the correct complement to existing knowledge.现在，一个有趣的应对方法是「合成数据」的兴起，即文本本身就是LLM的输出。Bien que cela puisse sembler un peu ridicule, «l’amélioration de la qualité du modèle grâce à votre propre approvisionnement» est en effet très efficace dans la pratique, du moins dans les domaines des mathématiques, de la logique et de la programmation informatique.

当然，原因在于这些领域我们可以机械地检查和证明事物的正确性。Nous pouvons donc goûter à partir d’un énorme théorème mathématique ou script Python, puis vérifier s’ils sont corrects, seules les données correctes seront incluses dans notre base de données.通过这种方式，我们可以极大地扩展高质量训练数据的集合，至少在这些领域是如此。

除了文本，我们还可以用其他各种数据来训练人工智能。Par exemple, que se passerait-il si nous utilisons toutes les données de séquençage du génome de 100 millions de personnes (la quantité de données non compressées d’une personne est d’environ 200 Go à 300 Go) pour former l’intelligence artificielle?这显然是一个很大的数据量，尽管其中绝大部分数据在两个人之间几乎完全相同。当然，由于各种原因，与书籍和互联网上的文本数据进行比较可能会产生误导：

La taille du génome d’origine ne peut pas être comparée directement avec le nombre de marqueurs

Le contenu de l’information des données génomiques est très différent de celui du texte

La valeur d’entraînement des données hautement redondantes n’est pas encore claire

Les exigences de calcul pour le traitement des données génomiques sont également différentes

Mais c’est toujours une autre énorme source d’informations que nous pouvons la former à l’avenir, c’est pourquoi je l’inclut.

Ainsi, alors que nous devons obtenir de plus en plus de données de formation, si vous examinez le taux de croissance du corpus de formation ces dernières années, nous constaterons bientôt que nous rencontrerons des goulots d’étranglement dans la disponibilité des données de connaissances «universelles». Le type de connaissance peut nous aider à nous rapprocher de notre objectif ultime, qui est d’obtenir une super intelligence artificielle 10 fois plus intelligente que John von Neumann, et de devenir des experts de classe mondiale dans tous les domaines professionnels connus des humains.

En plus des données disponibles limitées, les partisans de la loi d’expansion avant la formation ont toujours caché d’autres préoccupations.L’un d’eux est de savoir comment gérer toutes ces infrastructures de calcul après avoir terminé la formation du modèle?Formation du prochain modèle?Bien sûr, vous pouvez le faire, mais compte tenu de l’augmentation rapide de la vitesse et de la capacité du GPU, et de l’importance de l’énergie et d’autres coûts d’exploitation en informatique économique, est-il vraiment logique d’utiliser des clusters il y a 2 ans pour former de nouveaux modèles?Bien sûr, vous préférez utiliser un tout nouveau centre de données que vous venez de construire, ce qui coûte 10 fois le coût d’un ancien centre de données, et en raison de sa technologie plus avancée, elle effectue 20 fois les performances d’un ancien centre de données.Le problème est que, à un moment donné, vous devez amortir les coûts initiaux de ces investissements et récupérer les coûts grâce à des flux de bénéfices opérationnels (, espérons-le positifs), non?

Le marché est tellement enthousiasmé par l’intelligence artificielle qu’elle ignore ce point, permettant aux entreprises comme OpenAI d’accumuler des pertes d’exploitation dès le début, tout en obtenant des évaluations de plus en plus élevées dans les investissements ultérieurs (bien sûr, il est digne d’éloge., Ils montrent également des revenus à croissance très rapide).Mais en fin de compte, pour maintenir cela tout au long du cycle de marché, les coûts de ces centres de données devront éventuellement être récupérés et il est préférable d’être rentable, de sorte qu’après une période de temps, ils peuvent être combinés avec d’autres opportunités d’investissement en fonction du risque Ajustements.

Nouveau paradigme

OK, c’est la loi de l’expansion avant la formation.Alors, quelle est cette « nouvelle » loi d’expansion?Eh bien, c’est quelque chose sur lequel les gens n’ont commencé à se concentrer que au cours de la dernière année: les extensions de calcul du temps d’inférence.Avant cela, la plupart des calculs que vous avez dépensés dans le processus ont été utilisés pour créer les calculs de formation préliminaires du modèle.Une fois que vous avez un modèle formé, le raisonnement sur ce modèle (c’est-à-dire poser une question ou faire en sorte que le LLM effectue une sorte de tâche pour vous) utilise simplement un certain nombre de calculs.

Surtout, la quantité totale de calculs d’inférence (mesurée de diverses manières, telles que les flops, l’empreinte de la mémoire GPU, etc.) est bien inférieure à la quantité de calculs requis dans la phase pré-entraînement.Bien sûr, le calcul d’inférence augmente lorsque vous augmentez la taille de la fenêtre de contexte du modèle et la sortie générée à la fois (bien que les chercheurs aient apporté des améliorations algorithmiques incroyables à cet égard, et l’ampleur de l’expansion que les gens attendaient à l’origine était quadratique).Mais en gros, jusqu’à récemment, les calculs d’inférence étaient souvent beaucoup plus faibles en matière d’intensité que les calculs de formation et étaient essentiellement linéairement proportionnels au nombre de demandes traitées – par exemple, plus les demandes de complétion du texte de Chatgpt, plus les calculs d’inférence sont consommés.

Avec l’émergence du modèle révolutionnaire de la chaîne de réflexion (COT) lancée l’année dernière, la plus notable est le modèle phare d’Openai O1 (mais récemment le nouveau modèle de Deepseek utilise également cette technologie. Il sera discuté en détail plus tard), tout a changé.Ces nouveaux modèles de COT ne sont plus directement proportionnels à la longueur du texte de sortie généré par le modèle (pour les fenêtres de contexte plus grandes, les tailles de modèle, etc., il augmentera proportionnellement), mais génère plutôt des « marqueurs logiques » intermédiaires; mémoire « ou » monologue interne « du modèle lorsque vous essayez de résoudre votre problème ou de terminer une tâche spécifiée.

Cela représente un véritable changement dans la manière dont l’informatique d’inférence: maintenant, plus vous utilisez de jetons dans ce processus de réflexion interne, meilleure est la qualité de la sortie finale que vous fournissez à l’utilisateur.En fait, c’est comme donner à un travailleur plus de temps et de ressources pour terminer une tâche afin qu’ils puissent vérifier leur travail à plusieurs reprises, accomplir la même tâche de base de différentes manières et vérifier que les résultats sont les mêmes; dans la formule pour vérifier si elle a réellement résolu l’équation, etc.

Il s’avère que l’effet de cette approche est presque étonnant;Il résout directement l’une des plus grandes faiblesses du modèle de transformateur, à savoir la tendance à « créer des hallucinations ».

Fondamentalement, la façon dont les transformateurs fonctionnent lors de la prédiction du marqueur suivant pour chaque étape est que s’ils commencent à suivre un mauvais « chemin » dans la réponse initiale, ils deviennent presque comme un enfant qui se détache En fait, même, même s’ils devraient utiliser le bon sens pour réaliser sur la façon dont ce qu’ils disent ne peut pas être correct.

Étant donné que les modèles essaient toujours de maintenir la cohérence intrinsèque et de faire chaque marqueur généré en continu naturellement à partir du marqueur et du contexte précédent, ils sont difficiles à acheminer la correction et à revenir en arrière.En décomposant le processus de raisonnement en de nombreuses étapes intermédiaires, ils peuvent essayer de nombreuses méthodes différentes, voir lesquelles fonctionnent et continuer à essayer les corrections d’itinéraire et d’autres méthodes jusqu’à ce qu’elles puissent atteindre un niveau de confiance assez élevé qu’ils ne sont pas des conneries.

La chose la plus spéciale à propos de cette approche est que, en plus de son effet réel, plus vous utilisez les jetons logiques / COT, meilleur est l’effet.Soudain, vous avez une platine supplémentaire et à mesure que le nombre de jetons d’inférence du COT augmente (cela nécessite plus de calculs d’inférence, qu’il s’agisse d’opérations ou de mémoire de points flottants), plus la probabilité que vous donnerez la bonne réponse – code il n’y a pas d’erreurs à la première exécution, ou la solution au problème logique n’a pas d’erreurs évidentes dans les étapes d’inférence.

Je peux vous dire à partir de beaucoup d’expérience de première main que, bien que le modèle de sonnet Claude3.5 d’Anthropic soit excellent (très excellent) dans la programmation Python, cela en fait toujours un chaque fois que vous avez besoin de générer un code long et complexe.Maintenant, ces erreurs sont généralement faciles à corriger, et en fait, il est souvent nécessaire d’utiliser l’erreur générée par l’interprète Python comme indice de raisonnement ultérieur (ou, plus pratiquement, le « problème » complet trouvé dans l’éditeur de code en utilisant Les ensembles dits de linter sont collés dans le code) et ils peuvent être corrigées sans autre explication.Lorsque le code devient très long ou très complexe, il faut parfois plus de temps pour le réparer, et cela peut même nécessiter un débogage manuel.

Quand j’ai essayé le modèle O1 d’Openai pour la première fois, c’était comme une révélation: j’ai été étonné de voir à quel point le code était parfait la première fois.En effet, le processus COT découvre et résout automatiquement le problème avant de répondre enfin au jeton dans la réponse donnée par le modèle.

En fait, le modèle O1 utilisé dans le service d’abonnement ChatGpt Plus d’OpenAI (20 $ par mois) est en conjonction avec le nouveau service d’abonnement Chatgpt Pro (prix 10 fois le premier, c’est-à-dire 200 $ par mois, ce qui a provoqué un tumulte dans la communauté des développeurs) le Les modèles utilisés par le modèle O1-PRO dans le modèle O1-Pro sont fondamentalement les mêmes;

Ceci est très frappant car même pour Claude3.5 Sonnet ou GPT4O, même s’il est donné un contexte d’environ 400 Ko ou plus, un indice très verbeux et complexe prend généralement moins de 10 secondes pour commencer à répondre, et souvent moins de 5 secondes.Et la même invite pour O1-Pro peut prendre plus de 5 minutes pour obtenir une réponse (bien qu’Openai vous montre certaines des « étapes de raisonnement » générées pendant le processus d’attente; Les balises de raisonnement exact qu’il génère à partir de vous, vous montrent plutôt un résumé très simplifié).

Comme vous pouvez l’imaginer, dans de nombreux cas, la précision est cruciale – vous préférez abandonner et dire à l’utilisateur que vous ne pouvez tout simplement pas le faire plutôt que de donner une réponse qui pourrait être facilement prouvée, ou donner une illusion impliquée des faits ou d’autres plausibles mais pas de raisonnement réponses.Tout ce qui implique de l’argent / des transactions, des soins médicaux et du droit, pour n’en nommer que quelques-uns.

Fondamentalement, tant que le coût d’inférence est trivial par rapport à la compensation toutes les heures des travailleurs du savoir humain qui interagissent avec les systèmes d’IA, dans ce cas, appeler les calculs de COT devient complètement inutile (le principal inconvénient est que cela augmentera considérablement la latence de réponse de réponse , donc dans certains cas, vous préférez peut-être accélérer l’itération en obtenant une réponse avec une latence plus courte, une précision inférieure ou une correction inférieure).

Il y a quelques semaines, des nouvelles passionnantes sont sorties dans le domaine de l’intelligence artificielle, impliquant le modèle O3 qui n’a pas encore été publié par OpenAI, qui peut résoudre une série de problèmes qui ne pouvaient pas être résolus avec des méthodes d’intelligence artificielle existantes dans le avenir proche.OpenAI peut résoudre ces problèmes les plus difficiles (y compris les problèmes mathématiques « de base » extrêmement difficiles qui sont difficiles pour les mathématiciens professionnels même très qualifiés), car OpenAI investit beaucoup de ressources informatiques – dans certains cas, dépenser plus de 3 000 $ en puissance informatique pour résoudre une tâche (En revanche, en utilisant un modèle de transformateur conventionnel, le coût d’inférence traditionnel pour une seule tâche est peu susceptible de dépasser quelques dollars sans chaîne de pensée).

Il n’est pas nécessaire que les génies de l’IA se réalisent que ce progrès crée une toute nouvelle loi d’expansion qui est complètement différente de la loi originale pré-formée d’expansion.Maintenant, vous voulez toujours former les meilleurs modèles en tirant intelligemment le plus de ressources informatiques que possible et autant de milliards de données de formation de haute qualité, mais ce n’est que le début de cette nouvelle histoire du monde; Le nombre de ressources informatiques, en déduisant uniquement de ces modèles pour obtenir un niveau de confiance très élevé, ou en essayant de résoudre des problèmes extrêmement difficiles nécessitant un raisonnement de « génie » pour éviter tous les pièges potentiels qui peuvent entraîner un maître de droit ordinaire.

Mais pourquoi Nvidia doit-elle prendre tous les avantages?

Même si vous croyez comme moi, les perspectives d’avenir de l’intelligence artificielle sont presque inimaginables, la question demeure: « Pourquoi une entreprise fait-elle la plupart de ses bénéfices de cette technologie? » .Bien que la société d’avions de Wright Brothers ait inventé et perfectionné la technologie, la société a désormais une valeur marchande inférieure à 10 milliards de dollars, même si elle a évolué en plusieurs sociétés.Bien que Ford ait désormais une capitalisation boursière considérable de 40 milliards de dollars, ce qui représente seulement 1,1% de la capitalisation boursière actuelle de NVIDIA.

Pour comprendre cela, vous devez vraiment comprendre pourquoi Nvidia peut occuper une part de marché aussi importante.Après tout, ce ne sont pas la seule entreprise à faire des GPU.AMD produit des GPU avec de bonnes performances.Bien sûr, les GPU AMD ne sont pas aussi rapides et avancés que les GPU NVIDIA, mais les GPU NVIDIA ne sont pas 10 fois plus rapides ou similaires.En fait, les GPU AMD ne sont que la moitié autant que les GPU NVIDIA en termes de coût brut par flop.

Du point de vue des autres marchés de semi-conducteurs, comme le marché DRAM, bien que le marché soit très concentré, seules trois entreprises mondiales (Samsung, Micron, Sk-Hynix) ont une signification pratique, la marge bénéficiaire brute du marché DRAM est négative dans le Le bas du cycle.En revanche, la marge bénéficiaire brute globale de NVIDIA au cours des derniers trimestres était d’environ 75%, principalement entraînée par les produits graphiques 3D de qualité grand public avec des marges bénéficiaires faibles et une forte marchandisation.

Alors, comment est-ce possible?Eh bien, la raison principale a à voir avec le logiciel – un pilote « directement disponible » et hautement testé et très fiable sur Linux (contrairement à AMD, dont les pilotes Linux sont connus pour leur qualité de faible qualité et instable), ainsi que pour l’ouverture hautement optimisée Le code source, comme Pytorch, fonctionne bien sur les GPU Nvidia après un ajustement.

Non seulement cela, Cuda, un cadre de programmation utilisé par les programmeurs pour écrire du code de bas niveau optimisé pour les GPU, appartient entièrement à NVIDIA et est devenu la norme de facto.Si vous souhaitez embaucher un groupe de programmeurs extrêmement talentueux qui savent comment utiliser les GPU pour accélérer leur travail et sont prêts à payer leur salaire de 650 000 $ / an, ou le niveau de salaire actuel de toute personne ayant cette compétence particulière, alors ils sont susceptibles de être « penser » et travailler avec Cuda.

Outre les avantages logiciels, un autre avantage majeur de Nvidia est la soi-disant interconnexion – essentiellement, c’est une bande passante qui relie efficacement des milliers de GPUS afin qu’ils puissent être utilisés ensemble pour former des modèles fondamentaux de pointe d’aujourd’hui.En bref, la clé d’une formation efficace est de garder tous les GPU entièrement utilisés tout le temps, plutôt que de ralentir et d’attendre le prochain lot de données requis pour la prochaine étape de formation.

Les exigences de bande passante sont très élevées, bien supérieures à la bande passante typique requise pour les applications traditionnelles du centre de données.Cette interconnexion ne peut pas utiliser les périphériques de réseau traditionnels ou les fibres car ils apportent trop de latence et ne peuvent pas fournir de terabytes de bande passante par seconde, ce qui est nécessaire pour occuper tous les GPU constamment occupés.

NVIDIA a acquis la société israélienne Mellanox pour 6,9 milliards de dollars en 2019, une décision très sage, et c’est cette acquisition qui leur a fourni une technologie d’interconnexion de pointe.Notez que la vitesse d’interconnexion est plus étroitement liée au processus de formation (qui doit utiliser la sortie de milliers de GPU en même temps) que le processus d’inférence (y compris l’inférence du COT), et le processus d’inférence ne nécessite qu’un petit nombre de GPU – Ce dont vous avez besoin juste assez de VRAM pour stocker les poids du modèle quantifié (comprimé) du modèle formé.

On peut dire que ce sont les principales composantes du « fossé » de Nvidia et la raison pour laquelle il peut maintenir des marges bénéficiaires aussi élevées pendant une longue période (il y a aussi un « effet de volant », c’est-à-dire qu’ils investissent activement des bénéfices extraordinaires dans de grands bénéfices dans de grandes Questions de recherche et développement, qui à leur tour et les aident à améliorer leur technologie plus rapidement que leurs concurrents, ils sont donc toujours en avance sur les performances brutes).

Mais comme indiqué précédemment, dans tous les autres cas où les mêmes conditions sont souvent les performances par dollar (y compris les coûts de dépenses en capital initiaux de l’appareil et de la consommation d’énergie, c’est-à-dire les performances par watt), bien que le GPU de Nvidia soit le plus rapide, mais s’il est mesuré par Flops seuls, ils ne sont pas les plus rentables.

Mais le problème est que d’autres facteurs ne sont pas les mêmes, les pilotes d’AMD sont terribles, les bibliothèques de logiciels d’IA populaires ne fonctionnent pas bien sur les GPU AMD, et en dehors du domaine de jeu, vous ne trouvez pas d’experts GPU qui sont vraiment bons dans les GPU AMD (Pourquoi dérangent-ils, il y a une plus grande demande d’experts CUDA sur le marché?) Fondamentalement, non compétitif et ne semble pas avoir de bonnes perspectives de développement à court terme.

Ok, il semble que Nvidia ait une excellente perspective, non?Maintenant, vous savez pourquoi son stock est si valorisé!Mais y a-t-il d’autres soucis cachés?Eh bien, je ne pense pas qu’il y ait beaucoup de soucis cachés dignes d’une attention majeure.Certains problèmes se sont cachés dans les coulisses au cours des dernières années, mais leur impact est minime étant donné le taux de croissance.Mais ils se préparent à se déplacer vers le haut.D’autres problèmes n’ont fait qu’arriver récemment (comme les deux dernières semaines) et peuvent changer considérablement la trajectoire de la croissance récente de la demande de GPU.

Menaces majeures

Du point de vue macro, vous pouvez penser de cette façon: Nvidia fonctionne depuis longtemps dans un domaine très niche; Je n’ai pas assez de capital pour vraiment faire pression sur les leaders du marché comme Nvidia.Le marché des jeux est important et en croissance, mais il n’apporte pas de bénéfices incroyables ou particulièrement étonnants taux de croissance annuelle.

Vers 2016-2017, certaines grandes entreprises technologiques ont commencé à augmenter le recrutement et les dépenses en apprentissage automatique et en intelligence artificielle, mais dans l’ensemble, ce n’était jamais vraiment un projet qu’elles étaient importantes – plus comme les dépenses de R&D du « programme d’exploration lunaire ».Mais après la sortie de Chatgpt en 2022, la compétition dans le domaine de l’intelligence artificielle a vraiment commencé.

Soudain, les grandes entreprises sont prêtes à investir des milliards à un rythme alarmant.Le nombre de chercheurs participant à de grandes conférences de recherche tels que les Neirips et l’ICML a augmenté.Les étudiants intelligents qui pourraient avoir étudié les dérivés financiers se sont tournés vers Transformers, et la rémunération de plus d’un million de dollars de postes d’ingénierie non exécutifs (c’est-à-dire des contributeurs indépendants qui ne gèrent pas les équipes) sont devenus la norme pour les principaux laboratoires de l’IA.

Changez la direction d’un grand navire de croisière prend un certain temps; , et complétez toute la configuration et le débogage.Il faut beaucoup de temps pour que même les programmeurs les plus intelligents se mettent vraiment à l’état et connaissent les bases de code et les infrastructures existantes.

Mais vous pouvez imaginer que l’argent, la main-d’œuvre et l’énergie investis dans ce domaine sont absolument astronomiques.Nvidia est la plus grande cible de tous les participants, car ils contribuent les plus grands contributeurs aux bénéfices d’aujourd’hui, et non à l’avenir où l’intelligence artificielle dicte nos vies.

Par conséquent, la conclusion la plus importante est que « le marché trouvera toujours une issue », et ils trouveront de nouvelles façons alternatives et complètement innovantes de fabriquer du matériel, en utilisant de nouvelles idées pour contourner les obstacles, consolidant ainsi les douves de Nvidia.

Menaces au niveau matériel

Par exemple, les puces d’entraînement de l’intelligence artificielle de l’intelligence artificielle de Cerebras de Cerebras utilisent la tranche de silicium de 300 mm pour une puce absolument énorme qui contient des ordres de grandeur plus de transistors et de cœurs sur une seule puce (voir leurs articles de blog récents pour savoir comment Ils ont abordé les problèmes de sortie qui avaient empêché cette approche d’être économiquement pratique).

To illustrate this, if you compare Cerebras’ latest WSE-3 chip to Nvidia’s flagship data center GPU H100, the total chip area of Cerebras chip is 46225 square millimeters, while the H100 is only 814 square millimeters (by industry standards, the H100 C’est une énorme puce en soi);Au lieu d’activer des noyaux multiprocesseurs de 132 « streaming » sur la puce comme le H100, la puce Cerebras a environ 900 000 cœurs (bien sûr, chaque noyau est plus petit et a moins de fonctionnalités, mais en comparaison, ce nombre est encore très grand).Plus précisément, dans le domaine de l’intelligence artificielle, la puissance de calcul des flops des puces Cerebras est environ 32 fois celle d’une seule puce H100.Étant donné que le prix de la puce H100 est proche de 40 000 $ US, il est concevable que le prix de la puce WSE-3 ne soit pas bon marché non plus.

Alors, à quoi ça sert?Au lieu d’essayer de combattre de front Nvidia avec une approche similaire, ou de rivaliser avec la technologie d’interconnexion de Mellanox, Cerebras a adopté une approche complètement nouvelle pour contourner le problème d’interconnexion: lorsque tout fonctionne sur la même puce super-large lorsque le problème de la bande passante entre les processeurs devient moins important.Vous n’avez même pas besoin du même niveau d’interconnexion, car une puce géante peut remplacer des tonnes de H100.

De plus, les puces Cérebras fonctionnent également très bien dans les tâches d’inférence de l’intelligence artificielle.En fait, vous pouvez l’essayer ici gratuitement aujourd’hui et utiliser le très célèbre modèle LLAMA-3.3-70B de Meta.Sa vitesse de réponse est fondamentalement instantanée, avec environ 1500 jetons par seconde.Du point de vue de la comparaison, la vitesse de plus de 30 jetons par seconde est relativement rapide pour les utilisateurs par rapport à Chatgpt et Claude, et même 10 jetons par seconde sont suffisamment rapides pour générer une réponse tout en générant une réponse.

Cerebras n’est pas la seule entreprise, il y en a d’autres comme GROQ (à ne pas confondre avec la série de modèles Grok entraînée par Elon Musk).GROQ adopte une autre approche innovante pour résoudre le même problème fondamental.Au lieu d’essayer de rivaliser directement avec la pile de logiciels CUDA de NVIDIA, ils ont développé ce que l’on appelle une « unité de traitement du tenseur » (TPU) spécifiquement pour les opérations mathématiques précises requises pour les modèles d’apprentissage en profondeur.Leurs puces sont conçues autour du concept de «calcul déterministe», ce qui signifie que contrairement aux GPU traditionnels, leurs puces effectuent des opérations de manière complètement prévisible à chaque fois.

Cela peut ressembler à un petit détail technique, mais cela a en fait un impact énorme sur la conception des puces et le développement de logiciels.Étant donné que le temps est tout à fait certain, le GROQ peut optimiser ses puces, ce que les architectures GPU traditionnelles ne peuvent pas faire.Ainsi, au cours des six derniers mois, ils ont montré la vitesse d’inférence de plus de 500 jetons par seconde pour les modèles de la série LLAMA et d’autres modèles open source, dépassant de loin la vitesse que les paramètres GPU traditionnels peuvent atteindre.Comme cerebras, ce produit est maintenant disponible et vous pouvez l’essayer gratuitement ici.

En utilisant le modèle LLAMA3 avec une fonction « décodage spéculatif », Groq est capable de générer 1320 jetons par seconde, ce qui est comparable aux cerèvres et dépasse de loin les performances de l’utilisation d’un GPU ordinaire.Maintenant, vous pouvez vous demander ce que signifie atteindre plus de 1000 jetons par seconde lorsque les utilisateurs semblent assez satisfaits de la vitesse de Chatgpt (moins de 1000 jetons par seconde).En fait, cela est en effet très important.Lorsque vous obtenez des commentaires instantanés, itérer plus rapidement et que vous ne perdez pas la focalisation comme le fait un travailleur humain.Si vous utilisez le modèle par programmation via l’API, il peut activer complètement de nouvelles catégories d’applications qui nécessitent une inférence en plusieurs étapes (la sortie de la phase précédente est utilisée comme entrée pour les invites / inférences de phase ultérieures) ou nécessite des réponses à faible latence, Par exemple, révision du contenu, détection de fraude, prix dynamique, etc.

Mais plus fondamentalement, plus la réponse aux demandes est rapide, plus le cycle est rapide et plus le matériel est occupé.Bien que le matériel de Groq soit très cher, un serveur coûte jusqu’à 2 millions de dollars à 3 millions de dollars, si la demande est suffisamment grande pour garder le matériel occupé tout le temps, le coût de chaque demande est considérablement réduit.

Comme Cuda de Nvidia, une grande partie des forces de Groq provient de sa pile logicielle propriétaire.Ils ont pu prendre des modèles open source développés et publiés gratuitement par d’autres sociétés telles que Meta, Deepseek et Mistral, et les décomposer de manière particulière pour les faire fonctionner plus rapidement sur du matériel spécifique.

Comme les cerèvres, ils prennent différentes décisions techniques pour optimiser certains aspects du processus, effectuant ainsi leur travail d’une manière complètement différente.Prenons l’exemple du GROQ, ils se concentrent complètement sur l’informatique au niveau de l’inférence plutôt que sur la formation: tout leur matériel et logiciel spéciaux ne peuvent exercer des avantages énormes de vitesse et d’efficacité que lorsqu’il est inférieur aux modèles déjà formés.

Mais si la prochaine grande loi de l’expansion que les gens s’attendent est l’informatique au niveau de l’inférence, et que le plus grand inconvénient du modèle COT est que tous les marqueurs logiques intermédiaires doivent être générés pour répondre, entraînant une latence excessive, même une entreprise qui ne fait que l’informatique d’inférence , Tant que sa vitesse et son efficacité sont bien supérieures à Nvidia, elle apportera également de graves menaces compétitives au cours des prochaines années.Au moins, les cerèvres et le GROQ peuvent éroder les attentes élevées de la croissance des revenus de Nvidia dans la valorisation actuelle des actions.

Outre ces concurrents de démarrage particulièrement innovants mais relativement inconnus, certains des plus grands clients de Nvidia eux-mêmes ont apporté une concurrence sérieuse, qui a fait des puces personnalisées spécifiquement pour la formation et le raisonnement de l’IA.Le plus célèbre d’entre eux est Google, qui développe son propre TPU propriétaire depuis 2016.Fait intéressant, bien que Google ait brièvement vendu des TPU à des clients externes, Google utilise tous ses TPU en interne depuis quelques années, et il a lancé son matériel TPU de sixième génération.

Amazon développe également ses propres puces personnalisées appelées Trainium2 et Inferentia2.Amazon construit des centres de données avec des milliards de dollars dans des GPU NVIDIA, alors qu’ils investissent également des milliards de dollars dans d’autres centres de données qui utilisent ces puces internes.Ils ont un cluster qui est maintenant en ligne pour Anthropic, qui compte plus de 400 000 puces.

Amazon a été critiqué pour avoir complètement foiré le développement du modèle d’IA interne, gaspillant beaucoup de ressources informatiques internes sur des modèles qui n’ont finalement aucune compétitivité, mais les puces personnalisées sont une autre affaire.Encore une fois, ils n’ont pas nécessairement besoin de leurs propres jetons pour être meilleurs et plus rapides que ceux de Nvidia.Tout ce dont ils ont besoin, ce sont des jetons suffisamment bons, mais pour faire des puces avec des marges brutes seules, plutôt que la marge brute d’environ 90% que Nvidia gagne sur ses activités H100.

OpenAI a également annoncé son intention de fabriquer des puces personnalisées, et ils (avec Microsoft) sont évidemment les plus grands utilisateurs du matériel de centre de données de NVIDIA.Il semble que cela ne soit pas suffisant, Microsoft lui-même a annoncé sa propre puce personnalisée!

En tant que société technologique la plus précieuse au monde, Apple a perturbé les attentes des gens pendant de nombreuses années avec son entreprise de puces personnalisées très innovantes et perturbatrices. Les performances sont le facteur le plus important dans les applications mobiles (téléphone / tablette / ordinateur portable).Depuis des années, ils produisent leurs propres GPU conçus en interne et « processeurs neuronaux », bien qu’ils n’aient pas vraiment prouvé l’aspect pratique de ces puces en dehors de leurs applications personnalisées, telles que le traitement d’image logiciel avancé utilisé dans les caméras iPhone .

Alors qu’Apple semble être différent de ces autres joueurs, son accent mis sur le mobile, axé sur les mobiles, axé sur le consommateur et « Edge Computing », si Apple finit par investir suffisamment d’argent dans son nouveau contrat avec OpenAI, les utilisateurs d’iPhone offrent des services d’IA, alors vous avez alors Pour imaginer qu’ils ont des équipes qui travaillent sur la façon de faire leurs propres jetons personnalisés pour le raisonnement / la formation (bien que vous ne le sachiez jamais directement, compte tenu de leur confidentialité!).

Maintenant, ce n’est un secret pour personne que la clientèle de Nvidia Super Extender présente une forte répartition de la loi de l’énergie, avec quelques meilleurs clients représentant la grande majorité des revenus de bénéfices élevés.Comment devrions-nous voir l’avenir de cette entreprise lorsque chacun de ces clients VIP fabrique ses propres puces personnalisées spécifiquement pour la formation et le raisonnement de l’IA?

Lorsque vous réfléchissez à ces problèmes, vous devez vous souvenir d’un fait très important: Nvidia est en grande partie une entreprise basée sur la propriété intellectuelle.Ils ne font pas leurs propres jetons.Le secret pour fabriquer ces appareils incroyables est probablement davantage de TSMC et ASML, qui fabriquent des machines de lithographie EUV spéciales pour fabriquer ces puces de nœuds de processus de pointe.Ceci est crucial car TSMC vendra des puces de pointe à tout client qui est prêt à fournir des investissements initiaux suffisants et à garantir un certain nombre de clients.Ils ne se soucient pas que ces puces soient utilisées pour les circuits intégrés spécifiques à l’exploitation bitcoin, les processeurs graphiques, le polyuréthane thermoplastique, les puces basées sur le système de téléphone mobile, etc.

Quel est le revenu annuel des concepteurs de puces NVIDIA seniors, et ces géants de la technologie émettront sûrement suffisamment d’argent et d’actions pour attirer certains des meilleurs talents pour sauter des emplois.Une fois qu’ils ont l’équipe et les ressources, ils peuvent concevoir des puces innovantes en 2 à 3 ans (peut-être qu’il n’y a même pas les 50% avancées du H100, mais avec la marge bénéficiaire brute de Nvidia, ils ont encore beaucoup de place au développement), Et grâce à TSMC, ils peuvent utiliser exactement la même technologie de nœud de processus que NVIDIA pour convertir ces puces en tranches de silicium réelles.

Menace logicielle

Il semble que ces menaces matérielles imminentes ne soient pas assez mauvaises, et que certains progrès ont également été réalisés dans le secteur des logiciels au cours des dernières années, et bien qu’il ait un démarrage lent, il est maintenant fort et peut constituer une menace sérieuse pour Cuda de Nvidia Dominance logicielle.Le premier est le mauvais pilote Linux pour les GPU AMD.Rappelez-vous lorsque nous avons discuté de la raison pour laquelle AMD a permis de permettre à ces chauffeurs d’être si mauvais pendant des années, mais de vous asseoir et de regarder beaucoup d’argent disparaître?

Fait intéressant, le tristement célèbre pirate George Hotz, connu pour jailbreaking l’iPhone d’origine à l’adolescence, est actuellement PDG de la startup autonome Comma.ai et de la société informatique d’intelligence artificielle Tiny Corp, qui a également développé un cadre logiciel Open Source Tinygrad AI) récemment) récemment) a annoncé qu’il était fatigué de traiter avec les mauvais pilotes d’AMD et était impatient de pouvoir utiliser le GPU AMD moins cher dans son ordinateur AI Tinybox (sont une variété de modèles, dont certains utilisent des GPU NVIDIA, tandis que d’autres utilisent des GPU AMD).

En fait, il a fait ses propres pilotes personnalisés et sa pile de logiciels pour les GPU AMD sans l’aide d’AMD; Nous avons nos propres pilotes, cours d’eau, bibliothèques et émulateurs. Les GPU pour répondre aux besoins de diverses applications, et les entreprises doivent actuellement payer les GPU NVIDIA.

Eh bien, ce n’est qu’un chauffeur pour AMD et ce n’est pas encore fait.Quoi d’autre?Eh bien, il y a d’autres domaines qui ont un plus grand impact sur les logiciels.Tout d’abord, de nombreuses grandes entreprises technologiques et des communautés de logiciels open source travaillent désormais ensemble pour développer des cadres logiciels d’IA plus généraux, parmi lesquels CUDA n’est qu’un des nombreux « objectifs de compilation ».

Autrement dit, vous écrivez un logiciel en utilisant des abstractions de niveau supérieur, et le système lui-même peut convertir automatiquement ces structures de haut niveau en code de faible niveau optimisé, qui fonctionne très bien sur CUDA.Mais comme cela se fait à ce niveau d’abstraction plus élevé, il peut être facilement compilé en code de bas niveau, fonctionnant ainsi bien sur de nombreux autres GPU et TPU qui proviennent de divers fournisseurs, tels que les principaux, un grand nombre de puces personnalisées sont étant développé par des entreprises technologiques.

Les exemples les plus célèbres de ces cadres sont MLX (principalement parrainés par Apple), Triton (principalement parrainé par Openai) et Jax (principalement développé par Google).MLX est particulièrement intéressant car il fournit une API de type pytorche qui peut fonctionner efficacement sur le silicium Apple, montrant comment ces couches d’abstraction permettent aux charges de travail AI de fonctionner sur des architectures complètement différentes.Triton, quant à lui, devient de plus en plus populaire car il permet aux développeurs d’écrire du code haute performance qui peut être compilé pour fonctionner sur une variété d’objectifs matériels sans avoir à comprendre les détails sous-jacents de chaque plate-forme.

Ces cadres permettent aux développeurs d’écrire du code avec des abstractions puissantes, puis de compiler automatiquement un grand nombre de plates-formes – cela ne semble-t-il pas plus efficace?Cette approche offre une plus grande flexibilité lors de l’exécution du code.

Dans les années 1980, tous les logiciels les plus populaires et les plus vendus ont été écrits dans le langage d’assemblage modifié à la main.Par exemple, l’utilitaire de compression PKZIP est si fabriqué à la main pour maximiser la vitesse que la version du code écrite dans le langage de programmation C standard et compilé avec le meilleur compilateur d’optimisation à l’époque peut fonctionner uniquement à la moitié du code d’assemblage manuel de réglage manuel.Il en va de même pour d’autres packages logiciels populaires tels que WordStar, Visicalc, etc.

Au fil du temps, les compilateurs sont devenus de plus en plus puissants, et chaque fois que l’architecture CPU change (par exemple, de la version 486 d’Intel au Pentium, etc.), les assembleurs manuscrits doivent généralement être jetés et réécrits, seul le programmeur le plus intelligent peut Faites le travail (tout comme un expert CUDA est meilleur qu’un développeur de logiciels « ordinaire » sur le marché du travail).Finalement, les choses sont progressivement devenues cohérentes, et l’avantage de vitesse de l’assemblage manuel a été grandement compensé par la flexibilité de l’écriture de code dans des langues de haut niveau telles que C ou C ++, qui s’appuyait sur le compilateur pour faire fonctionner le code à son meilleur sur un donné le processeur.

De nos jours, peu de gens écrivent un nouveau code en langage d’assemblage.Je crois que la formation et le code d’inférence sur l’IA subiront éventuellement un changement similaire pour à peu près les mêmes raisons: les ordinateurs sont bons pour l’optimisation, tandis que la flexibilité et la vitesse de développement sont des facteurs de plus en plus importants – surtout si cela économise également beaucoup de coûts matériels, car vous ne faites pas Il ne faut pas continuer à payer la « taxe CUDA », qui apporte Nvidia plus de 90% de ses bénéfices.

Un autre domaine qui pourrait changer considérablement, cependant, est que Cuda elle-même peut finir par devenir une abstraction de haut niveau – un « langage canonique » similaire au Verilog (en tant que norme de l’industrie pour décrire les dispositions de puces) que les développeurs qualifiés peuvent utiliser pour décrire des algorithmes avancés Impliquant un parallélisme à grande échelle (parce qu’ils le connaissent déjà, il est bien structuré, est un langage commun, etc.), mais contrairement à la pratique habituelle, ces codes ne sont pas compilés pour les GPU NVIDIA, mais sont entrées à LLM comme Source Code, LLM peut le convertir en n’importe quel code de bas niveau qui peut être compris par les nouvelles puces Cerebras, New Amazon Trainium2 ou New Google TPUV6.Ce n’est pas aussi loin que vous le pensez;

Menace théorique

Peut-être que le développement le plus choquant s’est produit au cours des semaines précédentes.Les nouvelles ont complètement choqué le monde de l’IA, et bien que les médias grand public ne l’ont pas mentionné, il est devenu un sujet brûlant pour les intellectuels sur Twitter: une startup chinoise appelée Deepseek a publié deux nouveaux modèles. OpenAI et anthropic (au-delà du modèle Meta Llama3 et d’autres modèles open source plus petits comme Mistral).Ces modèles sont appelés Deepseek-V3 (essentiellement une réponse à GPT-4O et Claude3.5 Sonnet) et Deepseek-R1 (essentiellement une réponse au modèle O1 d’Openai).

Pourquoi tout cela est-il si choquant?Premièrement, Deepseek est une petite entreprise qui aurait moins de 200 employés.Ils auraient commencé comme un fonds spéculatif de négociation quantitatif similaire à Twosigma ou à Rentec, mais après que la Chine a intensifié sa réglementation du domaine, ils ont utilisé leur expertise en mathématiques et en ingénierie pour se tourner vers la recherche sur l’IA.Mais le fait est qu’ils ont publié deux rapports techniques très détaillés, à savoir Deepseek-V3 et Deepseekr1.

Ce sont des rapports de haute technologie, et si vous ne savez rien de l’algèbre linéaire, cela peut être difficile à comprendre.Mais ce que vous devriez essayer, c’est de télécharger l’application Deepseek gratuitement sur Appstore, de connecter et de l’installer avec votre compte Google, puis d’essayer (vous pouvez également l’installer sur Android), ou l’essayer directement sur votre bureau avec un navigateur.Assurez-vous de sélectionner l’option « Deepthink » pour activer la chaîne de réflexion (modèle R1) et laissez-la expliquer une partie du contenu du rapport technique dans un langage simple.

Cela vous dira également des choses importantes:

Tout d’abord, ce modèle est absolument légal.Il existe de nombreux faux composants dans les repères de l’IA qui sont souvent manipulés pour que le modèle fonctionne bien dans les repères mais pas dans les tests du monde réel.Google est sans aucun doute le plus grand coupable à cet égard, et ils se vantent toujours de la magie de leur LLM, mais en fait, ces modèles fonctionnent mal dans les tests du monde réel et ne peuvent même pas terminer de manière fiable les tâches les plus simples, et encore moins avoir une tâche de codage difficile pour avoir une tâche de codage difficile pour avoir une tâche de codage difficile. .Le modèle Deepseek est différent, et sa réponse est cohérente et puissante, et est au même niveau que les modèles OpenAI et anthropiques.

Deuxièmement, Deepseek a non seulement fait des progrès significatifs dans la qualité du modèle, mais plus important encore, il a fait des progrès significatifs dans la formation des modèles et l’efficacité d’inférence.En étant très proche du matériel et en préparant des optimisations uniques et très intelligentes, Deepseek est capable de former ces modèles incroyables avec des GPU d’une manière qui est beaucoup plus efficace.Selon certaines mesures, Deepseek est environ 45 fois plus efficace que les autres modèles de pointe.

Deepseek affirme que le coût total de la formation Deepseek-V3 ne dépasse que 5 millions de dollars.Selon les normes d’Openai, d’Anthropic et d’autres sociétés, ce n’est rien du tout, car ces entreprises ont atteint le niveau d’un seul coût de formation de plus de 100 millions de dollars dès 2024.

Comment est-ce possible?Comment cette petite entreprise chinoise pourrait-elle dépasser complètement toutes les personnes les plus intelligentes de nos principaux laboratoires d’IA qui ont plus de 100 fois les ressources, le nombre d’employés, les salaires, les capitaux, les GPU, etc.?La Chine ne devrait-elle pas être affaiblie par les restrictions de Biden sur les exportations de GPU?Eh bien, les détails sont assez techniques, mais nous pouvons au moins les décrire de manière générale.Il s’avère peut-être que le pouvoir de traitement des GPU relativement faible de Deepseek est précisément le facteur clé pour améliorer sa créativité et son intelligence, car « la demande est la mère de l’invention ».

Une innovation majeure est leur cadre de formation avancé de précision hybride qui leur permet d’utiliser des numéros de points flottants 8 bits (FP8) tout au long du processus de formation.La plupart des laboratoires d’IA occidentaux s’entraînent en utilisant des nombres de «pleine précision» 32 bits (cela spécifie essentiellement le nombre de gradients possibles lors de la description de la sortie des neurones artificiels; 8 bits en FP8 peuvent stocker une gamme plus large de nombres que vous ne le pensez – – ce n’est pas Limité à 256 quantités égales de tailles différentes dans des entiers réguliers, mais utilise des astuces mathématiques intelligentes pour stocker de très petits et très grands nombres – bien que la précision naturelle ne soit pas aussi bonne que 32 bits.) Le compromis principal est que si Fp32 peut être des chiffres Stocké avec une précision incroyable sur une large gamme, mais FP8 sacrifie une certaine précision pour économiser la mémoire et améliorer les performances tout en maintenant une précision suffisante pour de nombreuses charges de travail d’IA.

Deepseek résout ce problème en développant un système intelligent qui décompose les nombres en petits morceaux pour l’activation et les morceaux pour les poids et utilise stratégiquement des calculs de haute précision aux points clés du réseau.Contrairement à d’autres laboratoires qui effectuent d’abord une formation de haute précision, puis de compresser (qui perd une certaine qualité dans le processus), l’approche native FP8 de Deepseek signifie qu’ils peuvent économiser beaucoup de mémoire sans compromettre les performances.Lorsque vous vous entraînez avec des milliers de GPU, l’exigence de mémoire pour chaque GPU est considérablement réduite, ce qui signifie que le nombre global de GPU requis est considérablement réduit.

Une autre grande percée est leur système de prédiction multi-marker.La plupart des modèles LLM basés sur les transformateurs déduisent en prédisant la balise suivante – une balise à la fois.

Deepseek a compris comment prédire plusieurs marqueurs tout en maintenant la qualité des prédictions de marqueur unique.Leur méthode atteint une précision d’environ 85 à 90% dans ces prédictions de marqueur supplémentaires, double effectivement la vitesse d’inférence sans sacrifier trop de qualité.Ce qui est intelligent, c’est qu’ils maintiennent la chaîne causale complète des prédictions, donc le modèle n’est pas seulement une supposition, mais une prédiction structurée et sensible au contexte.

L’un de leurs développements les plus innovants est ce qu’ils appellent la longue attention potentielle (MLA).C’est leur percée dans le traitement des indices dits de valeur clé, qui sont essentiellement comment un jeton unique est représenté dans le mécanisme d’attention dans l’architecture du transformateur.Bien que cela soit un peu trop complexe d’un point de vue technique, on peut dire que ces indices KV sont l’une des principales utilisations de VRAM pendant la formation et l’inférence, et une partie de la raison pour laquelle des milliers de GPU sont nécessaires pour former ces modèles En même temps – chacun le VRAM maximum du GPU est de 96 Go, et ces index mangeront toute cette mémoire.

Leur système MLA a trouvé un moyen de stocker des versions compressées de ces index qui utilisent moins de mémoire tout en capturant des informations de base.La meilleure partie est que cette compression est construite directement dans la façon dont le modèle est appris – ce n’est pas une étape unique qu’ils doivent faire, mais il est construit directement dans un pipeline de formation de bout en bout.Cela signifie que l’intégralité du mécanisme est « différenciable » et peut être formé directement à l’aide d’optimisateurs standard.La raison pour laquelle il a réussi est que les représentations de données sous-jacentes trouvées par ces modèles étaient beaucoup plus faibles que la soi-disant «dimension environnementale».Donc, stocker un indice KV complet est un gaspillage, bien que tout le monde le fasse essentiellement.

Non seulement il y a beaucoup d’espace gaspillé en raison du stockage de quantités massives de données qui dépassent la demande réelle, ce qui entraîne une augmentation significative de l’empreinte de la mémoire et de l’efficacité (encore une fois, le nombre de GPU nécessaires pour former un modèle de classe mondiale est considérablement réduit), mais il peut en fait améliorer la qualité du modèle car il peut agir comme un « régulateur » pour forcer le modèle à se concentrer sur ce qui est vraiment important, plutôt que d’utiliser une capacité gâchée à s’adapter au bruit dans les données d’entraînement.Donc, non seulement vous enregistrez beaucoup de mémoire, mais votre modèle peut même mieux fonctionner.À tout le moins, vous n’aura pas d’impact sérieusement sur les performances en économisant beaucoup de mémoire, ce qui est généralement le compromis que vous êtes confronté dans la formation de l’IA.

Ils ont également fait des progrès significatifs dans l’efficacité de la communication GPU à travers l’algorithme Dualpipe et les noyaux de communication personnalisés.Le système chevauche intelligemment l’informatique et les communications, équilibrant soigneusement les ressources GPU entre les tâches.Ils n’ont besoin que d’environ 20 GPU de multiprocesseurs de flux (SM) pour communiquer, et le reste est utilisé pour l’informatique.Le résultat est que l’utilisation du GPU est beaucoup plus élevée que les paramètres de formation typiques.

Une autre chose très intelligente qu’ils font est d’utiliser l’architecture dite de transformateur expert hybride (MOE), mais des innovations clés sont faites autour de l’équilibrage de la charge.Comme vous le savez probablement, la taille ou la capacité d’un modèle d’IA est généralement mesurée par le nombre de paramètres que contient le modèle.Le paramètre est juste un nombre qui stocke certaines propriétés du modèle; , etc.

Le dernier modèle LLAMA3 de META est disponible en plusieurs tailles, telles que: 1 milliard de versions de paramètres (minimum), le modèle de paramètres 70b (le plus utilisé) et même un grand modèle avec des paramètres 405b.Pour la plupart des utilisateurs, ce modèle le plus important a une praticité limitée, car votre ordinateur doit être équipé d’un GPU d’une valeur de dizaines de milliers de dollars pour exécuter l’inférence à une vitesse acceptable, du moins si vous déployez la version originale de précision complète.Ainsi, la plupart des points d’utilisation et d’excitation de ces modèles open source dans le monde réel sont au paramètre 8B ou au niveau des paramètres 70B hautement quantifiés, car c’est ce qu’un GPU NVIDIA 4090 peut s’adapter, et maintenant vous pouvez l’acheter pour Moins de 1 000 $ maintenant.

Alors, quel est l’intérêt de ceux-ci?Dans un sens, le nombre et la précision des paramètres peuvent vous indiquer la quantité d’informations brutes ou de données stockées à l’intérieur du modèle.Veuillez noter que je ne parle pas de capacité de raisonnement, ni du « QI » du modèle: il s’avère que même les modèles avec très peu de paramètres peuvent être résolus en termes de résolution de problèmes logiques complexes, prouvant des théorèmes de géométrie plane, des problèmes mathématiques SAT, etc. montrent d’excellentes capacités cognitives.

Mais ces petits modèles ne vous disent pas nécessairement tous les aspects de chaque torsion de l’intrigue dans le roman de Stendhal, et de vrais grands modèles ont le potentiel de le faire.Le «coût» de ce niveau de connaissance extrême est que le modèle devient très encombrant et difficile à former et à raisonner, car pour raisonner sur le modèle, vous devez toujours stocker chacun des paramètres 405b (ou un nombre de paramètres) en même temps dans le vram du GPU.

L’avantage de l’approche du modèle MOE est que vous pouvez décomposer de grands modèles en une série de modèles plus petits, chacun avec des connaissances différentes et sans chevauchement (du moins pas complètement chevauchantes).L’innovation de Deepseek développe une stratégie d’équilibrage de charge qu’ils appellent «pas de pertes assistées» qui maintient les experts en utilisant efficacement sans la dégradation des performances que l’équilibrage de la charge apporte généralement.Ensuite, en fonction de la nature de la demande d’inférence, vous pouvez acheminer intelligemment l’inférence au modèle « expert » dans le modèle plus petit de l’ensemble qui répond le mieux à la question ou résout la tâche.

Vous pouvez le considérer comme un comité d’experts qui ont leurs propres domaines d’expertise: l’un pourrait être un expert juridique, l’autre pourrait être un expert en informatique et l’autre pourrait être un expert en stratégie commerciale.Donc, si quelqu’un pose une question sur l’algèbre linéaire, vous ne le donnerez pas à un expert juridique.Bien sûr, ce n’est qu’une analogie très rugueuse, et ce n’est pas vraiment comme ça.

L’avantage réel de cette approche est qu’il permet au modèle de contenir beaucoup de connaissances sans être très encombrante, car même si le nombre total de paramètres pour tous les experts est élevé, seul un petit pourcentage d’entre eux sont « actifs » à tout Compte tenu du temps, ce qui signifie que vous avez juste besoin de stocker un petit sous-ensemble de poids en VRAM pour faire l’inférence.Prenez Deepseek-V3 à titre d’exemple, il a un modèle MOE absolument énorme avec des paramètres 671B, qui est beaucoup plus grand que le plus grand modèle LLAMA3, mais seuls les paramètres 37B sont actifs à tout moment – encore pour accueillir deux VRAM pour un niveau de consommation GPU NVIDIA 4090 (coût total inférieur à 2 000 $) sans un ou plusieurs GPU H100, chacun vendant environ 40 000 $.

Il y a des rumeurs selon lesquelles Chatgpt et Claude utilisent tous deux une architecture MOE.Bien que cela soit beaucoup plus facile que de mettre les 1,8 billion de paramètres dans VRAM, en raison de l’énorme quantité de mémoire utilisée, il faut plusieurs GPU de niveau H100 pour exécuter le modèle seul.

En plus du contenu ci-dessus, le document technique mentionne également plusieurs autres optimisations clés.Cela inclut son cadre d’entraînement à économie extrêmement de la mémoire qui évite le parallélisme du tenseur, recalcule certaines opérations pendant la rétro-propagation plutôt que de les stocker, et partage les paramètres entre le modèle principal et le module de prédiction auxiliaire.La somme de toutes ces innovations, lorsqu’elle est superposée ensemble, conduit à environ 45 fois les numéros d’amélioration de l’efficacité qui circulent en ligne, et je suis tout à fait disposé à croire que ces chiffres sont corrects.

Le coût de l’API de Deepseek est une preuve solide: bien que les performances du modèle de Deepseek soient presque les meilleures de la classe, le coût de la référence des demandes d’inférence via son API est 95% inférieur aux modèles similaires dans OpenAI et anthropique.Dans un sens, c’est un peu comme comparer les GPU de Nvidia aux nouvelles puces personnalisées des concurrents: même s’ils ne sont pas si bons, ils sont beaucoup plus rentables, donc tant que vous pouvez déterminer le niveau de performance et prouver que c’est Assez de répondre à vos exigences, et la disponibilité et la latence des API sont assez bonnes (jusqu’à présent, les gens sont surpris par les performances de Deepseek dans les infrastructures, malgré une augmentation incroyable de la demande en raison des performances de ces nouveaux modèles).

Mais contrairement au cas de Nvidia, la différence de coût de Nvidia est due à leur acquisition de plus de 90% du profit brut monopole sur les produits du centre de données, tandis que la différence de coûts de l’API Deepseek par rapport aux API OpenAI et anthropiques peut être simplement parce que leur efficacité informatique est améliorée de près de 50 fois (peut-être bien plus que cela en termes de raisonnement – environ 45 fois plus efficace en termes de formation).En fait, il n’est pas clair si OpenAI et anthropic réalisent d’énormes bénéfices des services API – ils peuvent être plus préoccupés par la croissance des revenus et la collecte de données en analysant toutes les demandes d’API reçues.

Avant de continuer, je dois souligner que de nombreuses personnes spéculent que Deepseek a menti sur le nombre de GPU et le temps qu’il a fallu pour former ces modèles parce qu’ils ont en fait plus de H100 qu’ils ne le prétendent en raison des restrictions d’exportation de ces cartes, elles ne veulent se causer des problèmes, et ils ne veulent pas nuire à leurs chances d’obtenir plus de ces cartes.Bien que cela soit certainement possible, je pense qu’ils sont plus susceptibles de dire la vérité, ils n’ont obtenu ces résultats incroyables qu’en montrant une intelligence et une créativité extrêmement élevées dans les méthodes de formation et de raisonnement.Ils ont expliqué leur approche, et je suppose que ce n’était qu’une question de temps avant que leurs résultats ne soient largement reproduits et confirmés par d’autres chercheurs d’autres laboratoires.

Un modèle vraiment réfléchi

Le modèle R1 et les rapports techniques mis à jour peuvent être encore plus choquants car ils battent anthropic sur la chaîne de réflexion, et maintenant, c’est essentiellement le seul à faire fonctionner la technologie à grande échelle, sauf OpenAI.Mais veuillez noter qu’Openai ne publiera pas le modèle d’aperçu O1 à la mi-septembre 2024.C’était il y a environ 4 mois!Une chose dont vous devez vous souvenir est qu’Openai est très secret sur la façon dont ces modèles fonctionnent réellement à un niveau bas, et ne divulgueront pas les poids réels du modèle à quiconque, sauf pour des partenaires tels que Microsoft qui ont signé des accords de confidentialité stricts.Les modèles de Deepseek sont complètement différents, ils sont entièrement open source et ont des licences lâches.Ils ont publié des rapports techniques très détaillés expliquant comment ces modèles fonctionnent et fournissant du code que n’importe qui peut afficher et essayer de copier.

Avec R1, Deepseek résout essentiellement un problème dans le domaine de l’intelligence artificielle: laisser les modèles raisonnent progressivement sans compter sur de grands ensembles de données supervisés.Leurs expériences Deepseek-R1-Zero montrent ceci: en utilisant un apprentissage de renforcement pur avec des fonctions de récompense bien conçues, ils parviennent à permettre au modèle de développer des capacités d’inférence complexes complètement de manière autonome.Ce n’est pas seulement une résolution de problèmes – le modèle apprend organiquement à générer une pensée à longue chaîne, à vérifier son travail et à alloue plus de temps de calcul à des problèmes plus difficiles.

Les percées technologiques ici sont leurs nouvelles méthodes de modélisation des récompenses.Au lieu d’utiliser des modèles de récompense neuronale complexes, ils ont développé un système intelligent basé sur des règles, ce qui pourrait conduire à des « pirates de récompense » (c’est-à-dire que le modèle améliore les récompenses de manière fausse, mais n’améliore pas réellement les performances réelles du modèle). , Combinez les récompenses de précision (vérifiez les réponses finales) avec les récompenses au format (encouragez la pensée structurée).Cette approche plus simple s’est avérée plus puissante et évolutive que le modèle de récompense basé sur les processus que d’autres ont essayé.

Ce qui est particulièrement fascinant, c’est que pendant le processus de formation, ils ont observé les soi-disant « moments soudains », dans lesquels le modèle apprend spontanément à modifier son processus de réflexion à mi-chemin lors de la rencontre de l’incertitude.Ce type de comportement soudain n’est pas un programme pré-écrit, mais est naturellement généré par l’interaction entre le modèle et l’environnement d’apprentissage du renforcement.Le modèle s’arrêtera vraiment, marquera les problèmes potentiels du raisonnement, puis recommencera avec une approche différente, dont aucune n’est explicitement formée.

Le modèle R1 complet s’appuie sur ces idées, introduisant ce qu’ils appellent des données de «démarrage à froid» – un petit ensemble d’exemples de haute qualité avant d’appliquer sa technologie d’apprentissage de renforcement.Ils résolvent également un problème majeur dans le modèle d’inférence: la cohérence du langage.Le raisonnement de la chaîne de réflexion précédemment essayé se traduit souvent par des modèles mélangeant plusieurs langues ou produisant une sortie incohérente.Deepseek résout ce problème en récompensant subtilement la cohérence du langage pendant la formation RL, échangeant des pertes de performances plus petites pour une production plus lisible et plus cohérente.

Les résultats sont incroyables: R1 a une précision de 79,8% sur AIME 2024, l’une des compétitions de mathématiques du secondaire les plus difficiles, qui est comparable au modèle O1 d’Openai.Sur le MATH-500, il a atteint 97,3% et a marqué 96,3% dans le concours de programmation CodeForces.Mais peut-être le plus impressionnant est qu’ils ont réussi à distiller ces capacités en modèles plus petits: leur version de paramètre 14B fonctionne mieux que de nombreux modèles qui sont plusieurs fois plus importants, suggérant que la capacité d’inférence est non seulement liée au nombre de paramètres d’origine, mais aussi il a Quelque chose à voir avec la façon dont vous formez le modèle pour traiter les informations.

Conséquences

La récente rumeur circulant sur Twitter et Blind, un site Web de rumeurs d’entreprise, est que ces modèles sont complètement au-delà des attentes de Meta, et ils surpassent même le nouveau modèle LLAMA4 qui est toujours en cours de formation.Apparemment, le projet LLAMA à l’intérieur de Meta a attiré l’attention des hauts dirigeants techniques, ils ont donc environ 13 personnes qui étudient le lama, et chacun d’eux a un salaire annuel total qui dépasse le coût de formation du modèle Deepseek-V3, qui est le Deepseek -V3 modèle.Comment expliquez-vous sérieusement à Zuckerberg?Lorsque de meilleurs modèles sont formés avec seulement 2 000 H100 et coûtent moins de 5 millions de dollars, Zuckerberg a investi des milliards dans NVIDIA pour acheter 100 000 H100, comment pourrait-il continuer à sourire?

Mais vous feriez mieux de croire que Meta et d’autres grands laboratoires AI démolissent ces modèles Deepseek, recherchant chaque mot dans le rapport technique et chaque ligne du code open source qu’ils publient, essayant désespérément d’intégrer ces mêmes astuces et optimisations dans leur propre processus de formation et de raisonnement.Alors, quel est l’impact de tout cela?Eh bien, pensez naïvement que la demande totale de calculs de formation et d’inférence doit être divisée par un grand nombre.Peut-être pas 45, mais 25 ou même 30?Parce que peu importe à quel point vous pensiez que vous aviez besoin auparavant, maintenant il y en a beaucoup moins.

Les optimistes pourraient dire: « Vous parlez simplement d’une simple constante proportionnelle, un seul multiple. Lorsque vous êtes confronté à une courbe de croissance exponentielle, ces choses disparaîtront rapidement et ne seront pas si importantes à la fin. » La vérité: si l’IA est vraiment aussi transformatrice que je m’y attendais, si l’utilité réelle de cette technologie est mesurée en billions, si le calcul du temps déduit est la nouvelle loi de l’expansion, si nous aurons un grand nombre de robots humanoïdes, ils continueront Pour faire beaucoup d’inférences, alors peut-être que la courbe de croissance est toujours très raide et extrême, Nvidia est encore bien en tête, elle réussira toujours.

Mais Nvidia aura beaucoup de bonnes nouvelles dans les années à venir pour maintenir sa valorisation, et lorsque vous tirez compte de tous ces facteurs, je commence au moins à me sentir très contrarié d’acheter son stock à 20 fois ses ventes attendues en 2025 .Et si la croissance des ventes ralentit légèrement?Et si le taux de croissance n’est pas supérieur à 100%, mais 85%?Que se passe-t-il si la marge brute passe de 75% à 70%, ce qui est toujours élevé pour les sociétés de semi-conducteurs?

Résumer

D’un point de vue macro, Nvidia est confrontée à des menaces concurrentielles sans précédent, ce qui rend ses ventes à terme 20X et sa marge bénéficiaire brute de 75% de plus en plus difficile de justifier sa forte évaluation.Les avantages de l’entreprise dans le matériel, les logiciels et l’efficacité ont tous émergé avec des fissures inquiétantes.Le monde – les milliers des personnes les plus intelligentes du monde, soutenue par d’innombrables milliards de dollars en ressources en capital – essaie de les attaquer sous tous les angles.

Du côté matériel, les architectures innovantes de Cerebras et GROQ montrent que les avantages interconnectés de Nvidia, la pierre angulaire de sa domination du centre de données, peuvent être contournés par une refonte radicale.Les puces à la plaquette de Cerebras et les méthodes de calcul déterministes pour le GROQ fournissent des performances convaincantes sans avoir besoin de solutions d’interconnexion complexes de NVIDIA.Plus traditionnellement, tous les principaux clients NVIDIA (Google, Amazon, Microsoft, Meta, Apple) développe des puces personnalisées qui pourraient manger des revenus de centre de données à but lucratif.Ce ne sont plus des projets expérimentaux – AMAZON à elle seule construit une infrastructure à grande échelle pour Anthropic, qui contient plus de 400 000 puces personnalisées.

Le fossé du logiciel semble également fragile.De nouveaux cadres avancés tels que MLX, Triton et Jax sapent l’importance de CUDA, et les efforts pour améliorer les conducteurs AMD peuvent développer des alternatives matérielles moins chères.La tendance de l’abstraction avancée reflète la façon dont le langage d’assemblage cède la place à C / C ++, ce qui suggère que la domination de Cuda peut être plus courte que prévu.Plus important encore, nous voyons la montée en puissance de la technologie de traduction de code basée sur LLM, qui est capable de porter automatiquement le code CUDA pour s’exécuter sur n’importe quelle cible matérielle, éliminant potentiellement l’un des effets de verrouillage les plus puissants de Nvidia.

La chose la plus destructrice est peut-être la récente percée de l’efficacité de Deepseek, qui atteint des performances comparables aux performances du modèle à environ 1/45 du coût de calcul.Cela montre que toute l’industrie a surestisé les ressources informatiques de plusieurs façons.Couplé à l’émergence d’une architecture de raisonnement plus efficace à travers le modèle de chaîne de réflexion, la demande totale de calcul peut être beaucoup plus faible que les prévisions actuelles.L’économie ici est convaincante: lorsque Deepseek est en mesure d’atteindre les performances du niveau GPT-4, tandis que les frais d’appel d’API sont réduits de 95%, cela suggère que les clients NVIDIA brûlent inutilement de l’argent ou des marges bénéficiaires doivent baisser considérablement.

TSMC produira des puces compétitives pour tout client bien financé, définissant un plafond sur les avantages architecturaux de Nvidia.Mais plus fondamentalement, l’histoire montre que le marché trouvera éventuellement des moyens de contourner les goulots d’étranglement artificiels, ce qui entraînera des bénéfices excédentaires.Dans l’ensemble, ces menaces montrent que Nvidia fait face à une voie beaucoup plus robuste pour maintenir sa trajectoire de croissance actuelle et ses marges bénéficiaires que son évaluation ne le suggère.Il existe cinq directions d’attaque différentes: l’innovation architecturale, l’intégration verticale des clients, l’abstraction des logiciels, les percées de l’efficacité et la démocratisation manufacturière – il y a une forte chance qu’au moins un succès ait un impact significatif sur les marges bénéficiaires ou les taux de croissance de Nvidia.À en juger par l’évaluation actuelle, le marché n’a pas pris en considération ces risques.

Le rapport de 10 000 mots sur Wall Street: derrière le plongeon de Bitcoin et Nvidia

Cas du marché haussier

Nouveau paradigme

Mais pourquoi Nvidia doit-elle prendre tous les avantages?

Menaces majeures

Menaces au niveau matériel

Menace logicielle

Menace théorique

Un modèle vraiment réfléchi

Conséquences

Résumer

jakiro

Related Posts

La révélation de la clairance de baleine géante antique Bitcoin

Le rapport sur la crypto de la Maison Blanche est imminent: la « famille » du Bitcoin du gouvernement américain « financière »?

Laisser un commentaire Annuler la réponse

You Missed

Le record est à portée de main. 4800 n’est que le point de départ d’une nouvelle série de montée

Dialogue avec le réalisateur Vaneck: Le cycle de BTC de quatre ans est-il toujours là?

Comparaison des actifs numériques du trésor et du capital-risque de crypto-monnaie en 2025

Un changement institutionnel de 2,5 billions: BTC est un outil de stockage de valeur fiable

Coinbase: la valeur marchande de Stablecoin atteindra 1,2 billion de dollars à la fin de 2028

Interprétation de JPMorgan Chase: quatre facteurs font en sorte que Ethereum surpasse le bitcoin