El informe de 10,000 palabras en Wall Street: detrás de la caída de Bitcoin y Nvidia

Un inversionista profesional que ha trabajado como analista e ingeniero de software escribió un artículo que era bajista sobre NVIDIA, que fue retuiteado por Big V de Twitter, convirtiéndose en un importante «culpable» en la caída de las acciones de Nvidia.El valor de mercado de NVIDIA se evaporó en casi $ 600 mil millones, la mayor caída de un solo día para una empresa en particular hasta la fecha.

El punto principal de este inversor de Jeffrey Emanuel es que Deepseek expone la piel de vaca hecha por Wall Street, grandes compañías de tecnología y Nvidia, que está sobrevalorada.»Cada banco de inversión recomienda comprar nvidia, como un hombre ciego que da una guía, y no tiene idea de lo que están diciendo».

Jeffrey Emanuel dijo que Nvidia enfrenta un camino mucho más duro para mantener su trayectoria de crecimiento actual y los márgenes de ganancias de lo que sugiere su valoración.Hay cinco direcciones diferentes para atacar a NVIDIA: innovación de arquitectura, integración vertical del cliente, abstracción del software, avances de eficiencia y democratización de fabricación), al menos una posibilidad de éxito tiene un impacto significativo en los márgenes de ganancia de Nvidia o las tasas de crecimiento parece ser muy alta.A juzgar por la valoración actual, el mercado no ha tenido en cuenta estos riesgos.

Según algunos inversores de la industria, Emanuel de repente se convirtió en una celebridad de Wall Street debido a este informe, y muchos fondos de cobertura le pagaron $ 1,000 por hora para escuchar sus puntos de vista sobre Nvidia y AI.Mi garganta estaba tan ocupada que estaba fumando, pero estaba tentado a contar el dinero.

El siguiente es el texto completo del informe.Aprendizaje de referencia completa.

Como analista de inversiones durante unos 10 años en varios fondos de cobertura largos/cortos, incluido el trabajo en Millennium y Balyasny, y un fanático de las matemáticas y la computadora que ha estado estudiando un aprendizaje profundo desde 2010 (en ese momento, Geoff Hinton todavía estaba hablando de Boltzmann restringido Máquinas, todo todavía estaba programando usando Matlab, los investigadores todavía estaban tratando de demostrar que podían obtener mejores resultados en la clasificación de números escritos a mano que el uso de máquinas de vectores de soporte), creo que estaba en el artificial que hay una visión bastante única sobre el desarrollo de inteligentes La tecnología y su relación con la valoración de capital en el mercado de valores.

En los últimos años, he trabajado más como desarrollador y tengo varios proyectos populares de código abierto para manejar diversas formas de modelos/servicios de IA (ver LLM Ayed OCR, Swiss Army Llama, por ejemplo, similitud de vector rápido, fuente de aviso y pastel Capa de inferencia, etc.).Básicamente, uso estos modelos de vanguardia intensamente todos los días.Tengo 3 cuentas de Claude, así que no me quedo sin solicitudes y me inscribí unos minutos después de que Chatgpt Pro se puso en marcha.

También me esfuerzo por comprender el último progreso de la investigación y leer cuidadosamente todos los documentos de informes técnicos importantes publicados por los principales laboratorios de inteligencia artificial.Por lo tanto, creo que tengo una comprensión bastante buena de este campo y cómo van las cosas.Mientras tanto, acorté muchas acciones en mi vida y gané el premio a la mejor creatividad del Value Investor Club dos veces (TMS Longs y PDH Shorts si lo ha seguido).

Digo esto para no presumir, pero para demostrar que puedo hablar sobre este tema sin hacer que los técnicos o los inversores profesionales sientan que soy irremediablemente infantil.Por supuesto, definitivamente hay muchas personas que son más competentes en matemáticas/ciencias que yo, y hay muchas personas que son mejores en una inversión a largo/corta en el mercado de valores que yo, pero creo que no hay muchas personas que puedan ser en medio de la tabla de Venn como yo.

Sin embargo, cada vez que me encuentro y converso con amigos y ex colegas de la industria de fondos de cobertura, el tema se dirige rápidamente a Nvidia.¡El fenómeno de una empresa que crece de la oscuridad a un valor de mercado que excede los mercados de valores combinados del Reino Unido, Francia o Alemania no es algo que pueda encontrar todos los días!Estos amigos naturalmente quieren saber lo que pienso sobre este problema.Porque creo firmemente que esta tecnología tendrá un impacto transformador a largo plazo, realmente creo que cambiará completamente todos los aspectos de nuestra economía y sociedad en los próximos 5-10 años, que básicamente no tiene precedentes, por lo que es difícil para mí afirmar Nvidia El impulso de desarrollo se ralentizará o se detendrá a corto plazo.

Pero a pesar de que creo que la valoración es demasiado alta para mí durante el año pasado, la reciente serie de desarrollos me ha hecho un poco inclinado hacia mi intuición de ser más cauteloso sobre las perspectivas y en consenso parece ser cuestionada cuando está demasiado caro.Como dice el dicho, «los sabios creen al principio, y los tontos creen al final».

Caja de mercado alcista

Antes de discutir el progreso que me hizo dudar, revisemos brevemente el mercado alcista de las acciones de NVDA.El aprendizaje profundo y la inteligencia artificial son las tecnologías más transformadoras desde Internet y se espera que cambien fundamentalmente todo en nuestra sociedad.En términos de la parte del gasto de capital total de la industria utilizados para la infraestructura de capacitación y razonamiento, Nvidia está casi en condiciones de estar cerca del monopolio de alguna manera.

Algunas de las empresas más grandes y rentables del mundo, como Microsoft, Apple, Amazon, Meta, Google, Oracle, etc., han decidido mantenerse competitivos a toda costa porque simplemente no pueden permitirse las consecuencias de quedarse atrás de los demás. .La cantidad de gasto de capital, el consumo de electricidad, el área de los nuevos centros de datos y, por supuesto, el número de GPU, han explotado y parece no haber señales de desaceleración.NVIDIA puede ganar increíbles márgenes de beneficio bruto de hasta el 90% con productos de alta gama para centros de datos.

Acabamos de tocar la superficie del mercado alcista.Ahora hay más aspectos, incluso aquellos que ya son muy optimistas se volverán más optimistas.Además del surgimiento de los robots humanoides (sospecho que la mayoría de las personas se sorprenderán cuando puedan completar rápidamente tareas que actualmente requieren trabajadores no calificados (o incluso calificados), como lavandería, limpieza, ordenar y cocinar; realizadas en un trabajo de construcción del equipo de trabajadores como decorar un baño o construir una casa;

Un tema importante del que las personas inteligentes hablan es el surgimiento de la «nueva ley de expansión», que proporciona un nuevo paradigma para que las personas piensen sobre cómo crecerá la demanda informática con el tiempo.Desde el surgimiento de Alexnet en 2012 y la invención de la arquitectura de transformadores en 2017, la ley de expansión original que impulsa el avance de la inteligencia artificial es la ley de expansión previa al entrenamiento: cuanto mayor sea el valor del token que utilizamos como datos de capacitación (ahora billones), el modelo en el que entrenamos cuanto más parámetros usamos, mayor será la potencia computacional (flops) para entrenar estos modelos con estos tokens, y cuanto mejor sea el rendimiento del modelo final en una variedad de tareas aguas abajo muy útiles .

No solo eso, esta mejora es tan predecible en cierta medida que los principales laboratorios de IA como OpenAi y Anthrope pueden incluso saber exactamente qué tan buenos serán sus últimos modelos antes de que incluso comiencen a entrenar. El valor de referencia del modelo final con un error de no más de unos pocos puntos porcentuales.Esta «ley primitiva de expansión» es muy importante, pero siempre hace que las personas que la usan para predecir el futuro.

Primero, parece que hemos agotado los conjuntos de datos de entrenamiento de alta calidad acumulados en el mundo.Por supuesto, esto no es del todo cierto: todavía hay muchos libros y revistas antiguos que no se han digitalizado adecuadamente, incluso si están digitalizados, sin el permiso adecuado como datos de capacitación.El problema es que, incluso si le atribuye todo esto, digamos la suma del «profesional» inglés en inglés producido de 1500 a 2000, cuando habla de un corpus de capacitación de casi 15 billones de puntos, desde un porcentaje desde una perspectiva, esto no es Un gran número, y la escala del corpus de entrenamiento es la escala del modelo de vanguardia actual.

Para verificar rápidamente la autenticidad de estos números: Google Books ha digitalizado alrededor de 40 millones de libros hasta ahora; Por supuesto, una gran parte de la cual se ha incluido en el corpus de capacitación utilizado en grandes laboratorios, independientemente de si es estrictamente legal o no.También hay muchos artículos académicos, y solo hay más de 2 millones de documentos en el sitio web de ARXIV.La Biblioteca del Congreso tiene más de 3 mil millones de páginas de periódicos digitales.Agregado, el total puede ser tan alto como tokens 7T, pero dado que la mayor parte está en realidad se incluye en el corpus de entrenamiento, los datos de entrenamiento «incrementales» restantes pueden no ser tan importantes en el plan general.

Por supuesto, hay otras formas de recopilar más datos de capacitación.Por ejemplo, puede transcribir automáticamente cada video de YouTube y usar estos textos.Si bien esto puede ayudar, ciertamente es mucho menor en calidad que un libro de texto de gran respectivo de química orgánica, que es una fuente útil de conocimiento para comprender el mundo.Por lo tanto, en términos de la ley de escala original, siempre hemos enfrentado la amenaza de un «muro de datos»; Conocimiento Es mucho más difícil, y este conocimiento es el complemento correcto para el conocimiento existente.Ahora, una forma interesante de lidiar con él es el aumento de los «datos sintéticos», es decir, el texto en sí es la salida de LLM.Si bien esto puede parecer un poco ridículo, «mejorar la calidad del modelo a través de su propio suministro» es de hecho muy efectivo en la práctica, al menos en los campos de las matemáticas, la lógica y la programación de computadoras.

Por supuesto, la razón es que podemos verificar mecánicamente y probar la corrección de las cosas en estas áreas.Por lo tanto, podemos probar desde un enorme teorema matemático o script de Python y luego verificar si son correctos, solo los datos correctos se incluirán en nuestra base de datos.De esta manera, podemos ampliar enormemente la recopilación de datos de capacitación de alta calidad, al menos en estas áreas.

Además del texto, también podemos usar otros datos para capacitar a la inteligencia artificial.Por ejemplo, ¿qué pasaría si utilizara todos los datos de secuenciación del genoma de 100 millones de personas (la cantidad de datos sin comprimir de una persona es de aproximadamente 200 GB a 300 GB) para capacitar la inteligencia artificial?Obviamente, esto es una gran cantidad de datos, aunque la mayoría es casi exactamente lo mismo entre dos personas.Por supuesto, comparar con datos de texto en libros e Internet puede ser engañoso por una variedad de razones:

El tamaño del genoma original no se puede comparar directamente con el número de marcadores.

El contenido de información de los datos genómicos es muy diferente al del texto

El valor de capacitación de datos altamente redundantes aún no está claro

Los requisitos de cálculo para procesar datos genómicos también son diferentes

Pero aún es otra gran fuente de información que podemos entrenarla en el futuro, por lo que la incluyo.

Entonces, si bien se espera que obtengamos más y más datos de capacitación adicionales, si observa la tasa de crecimiento del corpus de capacitación en los últimos años, pronto encontraremos que encontraremos cuellos de botella en la disponibilidad de datos de conocimiento «universal útil». El tipo de conocimiento puede ayudarnos a acercarnos a nuestro objetivo final, que es obtener una súper inteligencia artificial 10 veces más inteligente que John Von Neumann, y convertirse en expertos de clase mundial en todos los campos profesionales conocidos por los humanos.

Además de los datos limitados disponibles, los proponentes de la ley de expansión previa al entrenamiento siempre han estado ocultando otras preocupaciones en mente.¿Uno de ellos es cómo manejar todas estas infraestructuras de cómputo después de completar la capacitación modelo?¿Entrenando el próximo modelo?Por supuesto, puede hacer eso, pero dado el rápido aumento de la velocidad y capacidad de GPU, y la importancia de la potencia y otros costos operativos en la informática económica, ¿tiene sentido usar grupos de hace 2 años para capacitar nuevos modelos?Por supuesto, prefiere usar un nuevo centro de datos que acaba de construir, que cuesta 10 veces el costo de un centro de datos anterior, y debido a su tecnología más avanzada, realiza 20 veces el rendimiento de un centro de datos anterior.问题是，在某些时候，你确实需要摊销这些投资的前期成本，并通过（希望是正的）运营利润流来收回成本，对吗？

El mercado está tan entusiasmado con la inteligencia artificial que ignora este punto, lo que permite a compañías como OpenAI acumular pérdidas operativas desde el principio, al mismo tiempo que ganan valoraciones cada vez más altas en las inversiones posteriores (por supuesto, es digna de elogios. También muestran ingresos de muy rápido crecimiento).Pero en última instancia, para mantener esto durante todo el ciclo del mercado, los costos de estos centros de datos eventualmente deberán recuperarse y es mejor ser rentable, de modo que después de un período de tiempo, se puedan combinar con otras oportunidades de inversión basadas en el riesgo. ajustes.

Nuevo paradigma

Ok, esta es la ley de la expansión previa al entrenamiento.Entonces, ¿cuál es esta «nueva» ley de expansión?Bueno, esto es algo en lo que las personas solo han comenzado a centrarse en el año pasado: extensiones de cálculo de tiempo de inferencia.Antes de esto, la mayoría de los cálculos que gastó en el proceso se utilizaron para crear los cálculos de capacitación preliminares del modelo.Una vez que tenga un modelo capacitado, el razonamiento sobre ese modelo (es decir, hacer una pregunta o hacer que el LLM realice algún tipo de tarea para usted) solo usa un cierto número de cálculos.

Es importante destacar que la cantidad total de cálculos de inferencia (medidos de varias maneras, como los fracasos, la huella de la memoria GPU, etc.) es mucho menor que la cantidad de cálculos requeridos en la fase de pre-entrenamiento.Por supuesto, el cálculo de inferencia aumenta cuando aumenta el tamaño de la ventana de contexto del modelo y la salida generada a la vez (aunque los investigadores han realizado mejoras algorítmicas sorprendentes a este respecto, y la escala de expansión que las personas originalmente esperaban fue cuadrática).Pero básicamente, hasta hace poco, los cálculos de inferencia a menudo tenían una intensidad mucho menor que los cálculos de capacitación y eran esencialmente proporcionales al número de solicitudes procesadas, por ejemplo, cuantas más demandas para la finalización del texto de ChatGPT, más cálculos de inferencia se consuman.

Con la aparición del modelo revolucionaria de la cadena de pensamiento (COT) lanzado el año pasado, el más notable es el modelo emblemático O1 de OpenAI (pero recientemente el nuevo modelo R1 de Deepseek también usa esta tecnología. Se discutirá en detalle más adelante), todo lo que ha cambiado.Estos nuevos modelos COT ya no son directamente proporcionales a la longitud del texto de salida generada por el modelo (para ventanas de contexto más grandes, tamaños de modelo, etc., aumentará proporcionalmente), sino que genera «marcadores lógicos» intermedios; memoria «o» monólogo interno «del modelo al intentar resolver su problema o completar una tarea especificada.

Esto representa un cambio real en la forma en que la informática de inferencia: ahora, cuantos más tokens use en este proceso de pensamiento interno, mejor será la calidad de la salida final que proporcione al usuario.De hecho, es como darle a un trabajador más tiempo y recursos para completar una tarea para que puedan verificar su trabajo repetidamente, completar la misma tarea básica de varias maneras diferentes y verificar que los resultados son los mismos; en la fórmula para verificar si realmente resolvió la ecuación, etc.

Resulta que el efecto de este enfoque es casi sorprendente;Resuelve directamente una de las mayores debilidades en el modelo de transformador, a saber, la tendencia a «crear alucinaciones».

Básicamente, la forma en que funcionan los transformadores al predecir el siguiente marcador para cada paso es que si comienzan a seguir un «camino» incorrecto en la respuesta inicial, se vuelven casi como un niño esquirador que intenta inventar una historia para explicar por qué están Realmente correcto, incluso si deberían usar el sentido común para darse cuenta de la forma en que lo que dicen no puede ser correcto.

因为模型总是试图保持内在一致性，并使每个连续生成的标记自然地来自前面的标记和上下文，所以它们很难进行路线修正和回溯。Al romper el proceso de razonamiento en muchas etapas intermedias, pueden probar muchos métodos diferentes, ver cuáles funcionan y seguir intentando correcciones de ruta y otros métodos hasta que puedan alcanzar un nivel bastante alto de confianza de que no son mierda.

Lo más especial de este enfoque es que, además de su efecto real, cuanto más lógica/tokens de cot use, mejor será el efecto.De repente, tiene un plato giratorio adicional y, a medida que aumenta el número de tokens de inferencia de cot (esto requiere más cálculos de inferencia, ya sea operaciones o memoria de punto flotante), cuanto mayor sea la probabilidad de que le dé la respuesta correcta, código no hay errores. En la primera ejecución, o la solución al problema lógico no tiene errores obvios en los pasos de inferencia.

Puedo decirle a mucha experiencia de primera mano que, si bien el modelo de soneto Claude3.5 de Anthrope es excelente (muy excelente) en la programación de Python, siempre hace uno cada vez que necesita generar algún código largo y complejo.Ahora, estos errores suelen ser fáciles de solucionar, y de hecho, a menudo es necesario usar el error generado por el intérprete de Python como una pista de razonamiento posterior (o, más prácticamente, el «problema» completo que se encuentra en el editor de códigos que usa. Los llamados conjuntos de enlace pegados en el código) y se pueden solucionar sin ninguna explicación adicional.Cuando el código se vuelve muy largo o muy complejo, a veces lleva más tiempo arreglarlo, e incluso puede requerir alguna depuración manual.

Cuando probé el modelo O1 por primera vez, fue como una revelación: me sorprendió lo perfecto que era el código la primera vez.Esto se debe a que el proceso COT descubre y soluciona automáticamente el problema antes de responder finalmente al token en la respuesta dada por el modelo.

De hecho, el modelo O1 utilizado en el servicio de suscripción CHATGPT Plus de OpenAI ($ 20 por mes) está en conjunto con el nuevo servicio de suscripción ChatGPT Pro (precios 10 veces el primero, es decir, $ 200 por mes, lo que causó un alboroto en la comunidad de desarrolladores). Los modelos utilizados por el modelo O1-Pro en el modelo O1-Pro son básicamente los mismos;

Esto es muy sorprendente porque incluso para el soneto Claude3.5 o GPT4O, incluso si se le da un contexto de aproximadamente 400 kb o más, una pista muy detallada y compleja generalmente tarda menos de 10 segundos en comenzar a responder, y a menudo menos de 5 segundos.Y el mismo aviso para O1-Pro puede tardar más de 5 minutos en obtener una respuesta (aunque OpenAI le muestra algunos de los «pasos de razonamiento» generados durante el proceso de espera; lo que es más importante, OpenAi es comercial por razones secretamente relacionadas, decide esconderse Las etiquetas de razonamiento exactas que genera de usted, en su lugar, le muestran un resumen altamente simplificado).

Como puede imaginar, en muchos casos, la precisión es crucial: preferiría darse por vencido y decirle al usuario que simplemente no puede hacerlo que dar una respuesta que podría demostrar que se puede probar fácilmente, o dar una ilusión involucradas o otro razonamiento plausible pero no razonable respuestas.Cualquier cosa que involucre dinero/transacciones, atención médica y derecho, por nombrar solo algunos.

Básicamente, siempre que el costo de inferencia sea trivial en relación con la compensación por hora completa de los trabajadores de conocimiento humano que interactúan con los sistemas de IA, en este caso, llamar a los cálculos de la cuna se vuelve completamente innecesaria (la principal desventaja es que esto aumentará enormemente la latencia de respuesta , entonces, en algunos casos, puede preferir acelerar la iteración obteniendo una respuesta con una latencia más corta, menor precisión o menor corrección).

Hace unas semanas, salieron algunas noticias emocionantes en el campo de la inteligencia artificial, que involucra el modelo O3 que aún no ha sido lanzado por OpenAI, que puede resolver una serie de problemas que anteriormente se cree que no se podía resolver con los métodos de inteligencia artificial existentes en el futuro próximo.Operai puede resolver estos problemas más difíciles (incluidos los problemas matemáticos «básicos» extremadamente difíciles que son difíciles para incluso los matemáticos profesionales muy calificados) porque OpenAi invierte muchos recursos informáticos, en algunos casos, gastan más de $ 3,000 en energía informática para resolver una tarea (En contraste, utilizando un modelo de transformador convencional, es poco probable que el costo de inferencia tradicional para una sola tarea exceda unos pocos dólares sin una cadena de pensamiento).

No es necesario que AI Geniuses se dé cuenta de que este progreso crea una ley de expansión completamente nueva que es completamente diferente de la ley de expansión pre-entrenada original.Ahora aún desea capacitar a los mejores modelos aprovechando hábilmente tantos recursos informáticos como sea posible y tantos datos de capacitación de alta calidad como sea posible, pero esto es solo el comienzo de esta nueva historia del mundo; Número de recursos informáticos, inferir solo de estos modelos para obtener un nivel de confianza muy alto, o tratar de resolver problemas extremadamente difíciles que requieren un razonamiento «a nivel genio» para evitar todas las dificultades potenciales que pueden conducir a la maestría ordinaria de la ley se extraviaron.

Pero, ¿por qué Nvidia tiene que tomar todos los beneficios?

Incluso si crees como yo, las perspectivas futuras de la inteligencia artificial son casi inimaginables, la pregunta sigue siendo: «¿Por qué una empresa obtiene la mayoría de sus ganancias de esta tecnología?» . Pero los principales ganadores no son las compañías que se ven más prometedoras en las etapas iniciales.Aunque la compañía de aviones de Wright Brothers inventó y perfeccionó la tecnología, la compañía ahora tiene un valor de mercado de menos de $ 10 mil millones, a pesar de que se ha convertido en múltiples compañías.Aunque Ford ahora tiene un valor de mercado considerable de $ 40 mil millones, ese es solo el 1.1% del valor de mercado actual de NVIDIA.

Para comprender esto, debe entender realmente por qué Nvidia puede ocupar una cuota de mercado tan grande.Después de todo, no son la única compañía que fabrica GPU.AMD produce GPU con buen rendimiento.Por supuesto, las GPU AMD no son tan rápidas y avanzadas como las GPU NVIDIA, pero las GPU NVIDIA no son 10 veces más rápidas o similares.De hecho, las GPU AMD son solo la mitad de las GPU de NVIDIA en términos de costo crudo por flop.

From the perspective of other semiconductor markets, such as the DRAM market, although the market is highly concentrated, only three global companies (Samsung, Micron, SK-Hynix) have practical significance, the gross profit margin of the DRAM market is negative at the La parte inferior del ciclo.En contraste, el margen general de ganancias brutas de NVIDIA en los últimos trimestres fue de aproximadamente el 75%, principalmente arrastrado por productos gráficos 3D de grado consumidor con bajos márgenes de beneficio y alta mercantilización.

Entonces, ¿cómo es esto posible?Bueno, la razón principal tiene que ver con el software: un controlador «directamente disponible» y altamente probado y altamente confiable en Linux (a diferencia de AMD, cuyos controladores de Linux son conocidos por su calidad inestable e inestable), así como altamente optimizados. El código fuente, como Pytorch, funciona bien en las GPU de NVIDIA después de ajustar.

No solo eso, CUDA, un marco de programación utilizado por los programadores para escribir código de bajo nivel optimizado para GPU, es completamente propiedad de NVIDIA y se ha convertido en el estándar de facto.Si desea contratar a un grupo de programadores extremadamente talentosos que sepan cómo usar GPU para acelerar sus trabajos y están dispuestos a pagar su salario de $ 650,000/año, o el nivel salarial actual de cualquier persona con esta habilidad en particular, entonces es probable que lo hagan Be «Pensará» y trabajará con Cuda.

Además de las ventajas de software, otra ventaja importante de Nvidia es la llamada interconexión, esencialmente, es un ancho de banda que conecta eficientemente miles de GPU juntas para que puedan usarse juntos para entrenar los modelos fundamentales de vanguardia de hoy.En resumen, la clave para una capacitación eficiente es mantener todas las GPU en su totalidad todo el tiempo, en lugar de inactuar y esperar hasta que se reciba el próximo lote de datos requeridos para el siguiente paso de capacitación.

Los requisitos de ancho de banda son muy altos, mucho más altos que el ancho de banda típico requerido para las aplicaciones tradicionales de los centros de datos.Esta interconexión no puede usar dispositivos de red o fibra tradicionales porque traen demasiada latencia y no pueden proporcionar terabytes de ancho de banda por segundo, que es lo que se necesita para mantener todas las GPU constantemente ocupadas.

NVIDIA adquirió Mellanox de la compañía israelí por $ 6.9 mil millones en 2019, una decisión muy sabia, y fue esta adquisición la que les proporcionó tecnología de interconexión líder en la industria.Tenga en cuenta que la velocidad de la interconexión está más estrechamente relacionada con el proceso de capacitación (debe utilizar la salida de miles de GPU al mismo tiempo) que el proceso de inferencia (incluida la inferencia de cuna), y el proceso de inferencia solo usa un pequeño número de GPU, lo que lo que Necesita suficiente VRAM para almacenar los pesos del modelo cuantificados (comprimidos) del modelo entrenado.

Se puede decir que estos son los componentes principales del «foso» de Nvidia y la razón por la que puede mantener los márgenes de beneficio tan altos durante mucho tiempo (también hay un «efecto del volante», es decir, invierten activamente ganancias extraordinarias en grandes grandes ganancias. cantidades de investigación y desarrollo, que a su vez los ayudan a mejorar su tecnología más rápido que sus competidores, por lo que siempre están por delante del rendimiento en bruto).

Pero como se señaló anteriormente, en todos los demás casos donde las mismas condiciones son a menudo el rendimiento por dólar (incluidos los costos de gasto de capital por adelantado del dispositivo y el uso de energía, es decir, rendimiento por vatio), aunque la GPU de Nvidia es la más rápida, pero si se mide por Los fracasos solos, no son los más rentables.

Pero el problema es que otros factores no son los mismos, los pilotos de AMD son terribles y populares bibliotecas de software de IA no funcionan bien en las GPU de AMD, y fuera del campo de los juegos, no pueden encontrar expertos en GPU que sean realmente buenas en los GPU de AMD (¿Por qué se molestan, hay una mayor demanda de expertos en CUDA en el mercado?) No puede conectar efectivamente miles de GPU debido a la mala tecnología de interconexión de AMD, todo lo cual significa que AMD está en centros de datos de alta gama el campo es el campo Básicamente poco competitivo y no parece tener buenas perspectivas de desarrollo a corto plazo.

Ok, parece que Nvidia tiene una gran perspectiva, ¿verdad?¡Ahora sabes por qué su stock está tan valorado!¿Pero hay otras preocupaciones ocultas?Bueno, no creo que haya muchas preocupaciones ocultas dignas de gran atención.Algunos problemas han estado al acecho detrás de escena durante los últimos años, pero su impacto es mínimo dada la tasa de crecimiento.Pero se están preparando para moverse hacia arriba.Otros problemas solo han surgido recientemente (como las últimas dos semanas) y pueden cambiar significativamente la trayectoria del crecimiento reciente en la demanda de GPU.

Grandes amenazas

Desde una perspectiva macro, puede pensar de esta manera: Nvidia ha estado operando en un campo muy nicho durante mucho tiempo; No tenga suficiente capital para presionar realmente a los líderes del mercado como Nvidia.El mercado de juegos es grande y creciente, pero no trae ganancias increíbles o tasas de crecimiento anuales particularmente sorprendentes.

Alrededor de 2016-2017, algunas grandes compañías tecnológicas comenzaron a aumentar el reclutamiento y el gasto en aprendizaje automático e inteligencia artificial, pero en general, este nunca fue realmente un proyecto, fue más importante, más como el gasto de I + D del «programa de exploración lunar».Pero después del lanzamiento de ChatGPT en 2022, la competencia en el campo de la inteligencia artificial realmente ha comenzado.

De repente, las grandes empresas están listas para invertir miles de millones a un ritmo alarmante.El número de investigadores que participan en grandes conferencias de investigación como Neurips e ICML han aumentado.Los estudiantes inteligentes que podrían haber estudiado previamente derivados financieros recurrieron a transformadores, y la compensación por más de un millón de dólares en puestos de ingeniería no ejecutivos (es decir, contribuyentes independientes que no administran equipos) se convirtió en la norma para los principales laboratorios de IA.

Cambiar la dirección de un gran crucero lleva un tiempo; , y complete toda configuración y depuración.Los programadores más inteligentes tardan mucho en entrar en el estado y estar familiarizados con las bases de código e infraestructura existentes.

Pero puedes imaginar que el dinero, la mano de obra y la energía invertida en esta área son absolutamente astronómicas.Nvidia es el objetivo más grande de todos los participantes porque son los mayores contribuyentes a las ganancias de hoy, no en el futuro donde la inteligencia artificial dicta nuestras vidas.

Por lo tanto, la conclusión más importante es que «el mercado siempre encontrará una salida», y encontrarán nuevas formas alternativas e innovadoras de hacer hardware, utilizando ideas nuevas para evitar obstáculos, consolidando así el foso de Nvidia.

Amenazas a nivel de hardware

Por ejemplo, los chips de entrenamiento de inteligencia artificial «a nivel de oblea» de las cerebras usan la oblea de silicio de 300 mm completa para un chip absolutamente enorme que contiene órdenes de magnitud más transistores y núcleos en un solo chip (vea sus publicaciones de blog recientes para aprender cómo Abordaron los problemas de producción que habían impedido que este enfoque fuera económicamente práctico).

Para ilustrar esto, si compara el último chip WSE-3 de Cerebras con el Centro de datos insignia de NVIDIA GPU H100, el área total de chip de las cerebras es 46225 milímetros cuadrados, mientras que el H100 es de solo 814 milímetros cuadrados (por estándares de la industria, los estándares de la industria, los estándares de la industria, los estándares de la industria, el los estándares de la industria, el H100 Es un gran chip en sí mismo);En lugar de habilitar 132 núcleos de «transmisión multiprocesador» en el chip como el H100, el chip de cerebras tiene alrededor de 900,000 núcleos (por supuesto, cada núcleo es más pequeño y tiene menos características, pero en comparación, este número sigue siendo muy grande).Específicamente, en el campo de la inteligencia artificial, la potencia informática Flops de los chips de cerebras es aproximadamente 32 veces mayor que la de un solo chip H100.Dado que el precio del chip H100 es cercano a US $ 40,000, es concebible que el precio del chip WSE-3 tampoco sea barato.

Entonces, ¿cuál es el punto?En lugar de tratar de luchar contra Nvidia de frente con un enfoque similar, o para rivalizar con la tecnología de interconexión de Mellanox, Cerebras ha adoptado un enfoque completamente nuevo para evitar el problema de interconexión: cuando todo se ejecuta en el mismo chip súper grande cuando el problema de ancho de banda entre procesadores se vuelve menos importante.Ni siquiera necesita el mismo nivel de interconexión, ya que un chip gigante puede reemplazar toneladas de H100.

Además, los chips de cerebras también funcionan muy bien en las tareas de inferencia de inteligencia artificial.De hecho, puede probarlo aquí gratis hoy y usar el muy famoso modelo LLAMA-3.3-70B de Meta.Su velocidad de respuesta es básicamente instantánea, con aproximadamente 1500 tokens por segundo.Desde una perspectiva de comparación, la velocidad de más de 30 tokens por segundo es relativamente rápida para los usuarios en comparación con ChatGPT y Claude, e incluso 10 tokens por segundo son lo suficientemente rápidos como para generar una respuesta mientras generan una respuesta.

Las cerebras no son la única compañía, hay otras como Groq (que no se confundirán con la serie de modelos GROK entrenado por X AI de Elon Musk).Groq adopta otro enfoque innovador para abordar el mismo problema fundamental.En lugar de tratar de competir directamente con la pila de software CUDA de NVIDIA, desarrollaron lo que se conoce como una «unidad de procesamiento de tensor» (TPU) específicamente para las operaciones matemáticas precisas requeridas para los modelos de aprendizaje profundo.Sus chips están diseñados en torno al concepto de «computación determinista», lo que significa que, a diferencia de las GPU tradicionales, sus chips realizan operaciones de una manera completamente predecible cada vez.

Esto puede sonar como un pequeño detalle técnico, pero en realidad tiene un gran impacto en el diseño de chips y el desarrollo de software.Dado que el tiempo es completamente seguro, Groq puede optimizar sus chips, algo que las arquitecturas tradicionales de GPU no pueden hacer.Entonces, en los últimos seis meses, han estado mostrando la velocidad de inferencia de más de 500 tokens por segundo para los modelos de la serie LLAMA y otros modelos de código abierto, superando con creces la velocidad que la configuración tradicional de GPU puede lograr.Al igual que las cerebras, este producto ahora está disponible y puede probarlo de forma gratuita aquí.

Utilizando el modelo LLAMA3 con la función de «decodificación especulativa», Groq puede generar 1320 tokens por segundo, que es comparable a las cerebras y supera con creces el rendimiento de usar una GPU regular.Ahora, puede preguntar qué significa alcanzar más de 1000 tokens por segundo cuando los usuarios parecen estar bastante satisfechos con la velocidad de ChatGPT (menos de 1000 tokens por segundo).De hecho, esto es realmente muy importante.Cuando recibe comentarios instantáneos, iterando más rápido y no pierde el enfoque como lo hace un trabajador de conocimiento humano.Si usa el modelo programáticamente a través de la API, puede habilitar categorías completamente nuevas de aplicaciones que requieren inferencia de múltiples etapas (la salida de la fase anterior se usa como entrada para las indicaciones/inferencias de fase posteriores), o requieren respuestas de baja latencia, por ejemplo, revisión de contenido, detección de fraude, precios dinámicos, etc.

Pero más fundamentalmente, cuanto más rápida sea la respuesta a las solicitudes, más rápido es el ciclo y más ocupado el hardware.Si bien el hardware de Groq es muy costoso, con un servidor que cuesta hasta $ 2 millones a $ 3 millones, si la demanda es lo suficientemente grande como para mantener el hardware ocupado todo el tiempo, el costo de cada solicitud se reduce considerablemente.

Al igual que el CUDA de Nvidia, una gran parte de las fortalezas de Groq provienen de su pila de software patentada.Pudieron tomar modelos de código abierto desarrollados y lanzados de forma gratuita por otras compañías como Meta, Deepseek y Mistral, y dividirlos de maneras especiales para que funcionen más rápido en hardware específico.

Al igual que las cerebras, toman diferentes decisiones técnicas para optimizar ciertos aspectos del proceso, llevando a cabo su trabajo de una manera completamente diferente.Tome Groq como ejemplo, están completamente enfocados en la computación a nivel de inferencia en lugar de la capacitación: todo su hardware y software especiales solo puede ejercer grandes ventajas de velocidad y eficiencia cuando la inferencia en los modelos ya entrenados.

Pero si la próxima gran ley de expansión que la gente espera es la computación a nivel de inferencia, y la mayor desventaja del modelo COT es que todos los marcadores lógicos intermedios deben generarse para responder, lo que resulta en una latencia excesiva, incluso una empresa que solo hace una inferencia. , Mientras su velocidad y eficiencia sean muy superiores a Nvidia, también traerá serias amenazas competitivas en los próximos años.Al menos, las cerebras y Groq pueden erosionar las altas expectativas del crecimiento de los ingresos de NVIDIA en la valoración actual de acciones.

Además de estos competidores de nueva creación particularmente innovadores pero relativamente desconocidos, algunos de los mejores clientes de NVIDIA han traído una competencia seria, que han estado haciendo chips personalizados específicamente para capacitación de IA y cargas de trabajo de razonamiento.El más famoso de estos es Google, que ha estado desarrollando su propia TPU patentada desde 2016.Curiosamente, aunque Google ha vendido brevemente las TPU a clientes externos, Google ha estado utilizando todas sus TPU internamente durante los últimos años, y ha lanzado su hardware TPU de sexta generación.

Amazon también está desarrollando sus propios chips personalizados llamados Trainium2 e Inferentia2.Amazon está construyendo centros de datos con miles de millones de dólares en las GPU de NVIDIA, mientras que también están invirtiendo miles de millones de dólares en otros centros de datos que usan estos chips internos.Tienen un clúster que ahora está en línea para antrópico, que tiene más de 400,000 chips.

Amazon ha sido criticado por arruinar por completo el desarrollo interno del modelo de IA, desperdiciando muchos recursos informáticos internos en modelos que en última instancia no tienen competitividad, pero los chips personalizados son otra cuestión.Nuevamente, no necesariamente necesitan sus propias chips para ser mejores y más rápidas que las de Nvidia.Todo lo que necesitan son las fichas suficientemente buenas, pero para hacer chips con márgenes brutos de incluso si hay, en lugar de que el margen bruto del 90% nvidia gana en su negocio H100.

Operai también anunció sus planes para hacer chips personalizados, y ellos (con Microsoft) obviamente son los mayores usuarios del hardware del centro de datos de NVIDIA.Parece que esto no es suficiente, ¡Microsoft mismo anunció su propio chip personalizado!

Como la compañía de tecnología más valiosa del mundo, Apple ha interrumpido las expectativas de las personas durante muchos años con su altamente innovador y disruptivo negocio de chips personalizados. El rendimiento es el factor más importante en las aplicaciones móviles (teléfono/tableta/computadora portátil).Durante años, han estado produciendo sus propias GPU diseñadas internas y «procesadores neuronales», aunque realmente no han demostrado la practicidad de estos chips fuera de sus aplicaciones personalizadas, como el procesamiento avanzado de imágenes basado en software utilizado en las cámaras de iPhone .

Si bien Apple parece ser diferente de estos otros jugadores, se centra en el primer móvil, orientado al consumidor y «informática de borde», si Apple termina invirtiendo suficiente dinero en su nuevo contrato con OpenAI, los usuarios de iPhone ofrecen servicios de IA, entonces usted tiene Para imaginar que tienen equipos trabajando en cómo hacer sus propios chips personalizados para razonamiento/capacitación (¡aunque es posible que nunca lo sepas directamente, dada su confidencialidad!).

Ahora, no es ningún secreto que la base de clientes de Super Extender de Nvidia exhibe una fuerte distribución de la ley de energía, con algunos clientes principales que representan la gran mayoría de los altos ingresos por ganancias.¿Cómo debemos ver el futuro de este negocio cuando cada uno de estos clientes VIP está haciendo sus propios chips personalizados específicamente para capacitación y razonamiento de IA?

Al pensar en estos problemas, debe recordar un hecho muy importante: Nvidia es en gran medida una empresa basada en la propiedad intelectual.No hacen sus propias papas fritas.El secreto para hacer estos dispositivos increíbles es probablemente más de TSMC y ASML, que hacen máquinas especiales de litografía EUV para hacer estos chips de nodo de proceso de vanguardia.Esto es crucial porque TSMC venderá chips de última generación a cualquier cliente que esté dispuesto a proporcionar una inversión inicial suficiente y garantizará un cierto número de clientes.No les importa que estos chips se usen para circuitos integrados específicos de minería de bitcoin, procesadores gráficos, poliuretano termoplástico, chips basados en sistemas de teléfonos móviles, etc.

¿Cuál es el ingreso anual de los diseñadores de chips nvidia senior, y estos gigantes tecnológicos seguramente publicarán suficiente efectivo y acciones para atraer algunos de los mejores talentos para aumentar los trabajos?Una vez que tienen el equipo y los recursos, pueden diseñar chips innovadores en 2 a 3 años (tal vez ni siquiera hay el 50% avanzado del H100, pero con el margen de ganancias brutas de Nvidia, todavía tienen mucho espacio para el desarrollo), Y gracias a TSMC, pueden usar exactamente la misma tecnología de nodo de proceso que NVIDIA para convertir estos chips en obleas de silicio reales.

Amenaza de software

Parece que estas amenazas de hardware inminentes no son lo suficientemente malas, y también se han realizado algunos progresos en el sector de software en los últimos años, y aunque tiene un comienzo lento, ahora es fuerte y puede representar una seria amenaza para el CUDA de Nvidia Dominio del software.Primero es el controlador Bad Linux para las GPU AMD.Recuerde cuando discutimos por qué AMD ha permitido imprudentemente que estos conductores sean tan malos durante años, pero se siente y vea desaparecer mucho dinero?

Curiosamente, el infame hacker George Hotz, conocido por hacer jailbreaking el iPhone original cuando era adolescente, es actualmente el CEO de la startup de autocontrol coma.ai y la compañía informática de inteligencia artificial Tiny Corp, que también desarrolló un marco de software Tinygrad AI de código abierto) recientemente) anunció que estaba cansado de lidiar con los malos conductores de AMD y estaba ansioso por poder usar la GPU AMD menos costosa en su computadora Tinybox AI (son una variedad de modelos, algunos de los cuales usan GPU NVIDIA, mientras que otras usan GPU AMD).

De hecho, hizo sus propios controladores y software personalizados para las GPU de AMD sin la ayuda de AMD; Tenemos nuestros propios conductores, tiempos de ejecución, bibliotecas y emuladores. GPU para satisfacer las necesidades de varias aplicaciones, y las empresas actualmente tienen que pagar por las GPU de NVIDIA.

Bueno, esto es solo un conductor para AMD y aún no se ha hecho.¿Qué otra cosa?Bueno, hay otras áreas que tienen un mayor impacto en el software.En primer lugar, muchas grandes compañías de tecnología y comunidades de software de código abierto ahora están trabajando juntas para desarrollar marcos de software de IA más generales, entre los cuales CUDA es solo uno de los muchos «objetivos de compilación».

Es decir, usted escribe software utilizando abstracciones de nivel superior, y el sistema en sí puede convertir automáticamente estas estructuras de alto nivel en un código de bajo nivel súper optimizado, que funciona muy bien en CUDA.Pero dado que se realiza en este nivel más alto de abstracción, se puede compilar fácilmente en un código de bajo nivel, lo que funciona bien en muchas otras GPU y TPU que provienen de varios proveedores, como los principales, una gran cantidad de chips personalizados son siendo desarrollado por compañías de tecnología.

Los ejemplos más famosos de estos marcos son MLX (principalmente patrocinado por Apple), Triton (principalmente patrocinado por OpenAI) y Jax (desarrollado principalmente por Google).MLX es especialmente interesante porque proporciona una API similar a Pytorch que puede funcionar de manera eficiente en Apple Silicon, mostrando cómo estas capas de abstracción permiten que las cargas de trabajo de IA se ejecuten en arquitecturas completamente diferentes.Mientras tanto, Triton se está volviendo cada vez más popular porque permite a los desarrolladores escribir un código de alto rendimiento que se puede compilar para ejecutarse en una variedad de objetivos de hardware sin tener que comprender los detalles subyacentes de cada plataforma.

Estos marcos permiten a los desarrolladores escribir código con potentes abstracciones y luego compilarse automáticamente contra una gran cantidad de plataformas, ¿no suena más eficiente?Este enfoque proporciona una mayor flexibilidad al ejecutar el código.

En la década de 1980, todo el software más popular y más vendido fue escrito en lenguaje de ensamblaje modificado a mano.Por ejemplo, la utilidad de compresión PKZIP está tan hecha a mano para maximizar la velocidad que la versión del código escrita en el lenguaje de programación C estándar y compilado con el mejor compilador de optimización en ese momento puede ejecutarse en solo el código de ensamblaje de ajuste manual.Lo mismo es cierto para otros paquetes de software populares como WordStar, VisicalC, etc.

Con el tiempo, los compiladores se han vuelto cada vez más potentes, y cada vez que cambia la arquitectura de la CPU (por ejemplo, desde la liberación de Intel 486 hasta Pentium, etc.), los ensambladores escritos a mano generalmente tienen que ser descartados y reescritos, solo la mayor cantidad de programador inteligente puede Hacer el trabajo (al igual que un experto en CUDA es mejor que un desarrollador de software «ordinario» en el mercado laboral).Finalmente, las cosas se volvieron consistentes gradualmente, y la ventaja de velocidad del ensamblaje manual fue muy superada por la flexibilidad de escribir código en idiomas de alto nivel, como C o C ++, que se basó en el compilador para hacer que el código funcionara en su mejor momento en un mejor. Dada CPU.

Hoy en día, pocas personas escriben un nuevo código en lenguaje de ensamblaje.Creo que el código de entrenamiento e inferencia de IA eventualmente sufrirá un cambio similar por aproximadamente las mismas razones: las computadoras son buenas para la optimización, mientras que la flexibilidad y la velocidad de desarrollo son factores cada vez más importantes, especialmente si también ahorra muchos costos de hardware, porque usted no ‘Debe continuar pagando el «impuesto CUDA», que trae a Nvidia más del 90% de sus ganancias.

Sin embargo, otra área que podría cambiar drásticamente es que CUDA en sí mismo puede terminar convirtiéndose en una abstracción de alto nivel, un «lenguaje canónico» similar al de Verilog (como un estándar de la industria para describir los diseños de chips) que los desarrolladores calificados pueden usar para describir algoritmos avanzados que implica un paralelismo a gran escala (debido a que ya están familiarizados con él, está bien estructurado, es un lenguaje común, etc.), pero a diferencia de la práctica habitual, estos códigos no se compilan para las GPU NVIDIA, pero se ingresan a LLM como El código fuente, LLM puede convertirlo en cualquier código de bajo nivel que pueda entenderse con nuevos chips de cerebras, nuevo Amazon Trainium2 o New Google TPUV6.Esto no está tan lejos como piensas;

Amenaza teórica

Quizás el desarrollo más impactante ocurrió en las semanas anteriores.La noticia sorprendió por completo al mundo de la IA, y aunque los principales medios de comunicación no lo mencionaron, se convirtió en un tema candente para los intelectuales en Twitter: una startup china llamada Deepseek lanzó dos nuevos modelos. Operai y Anthrope (más allá del modelo Meta Llama3 y otros modelos de código abierto más pequeños como Mistral).Estos modelos se llaman Deepseek-V3 (básicamente una respuesta al soneto GPT-4O y Claude3.5) y Deepseek-R1 (básicamente una respuesta al modelo O1 de OpenAI).

¿Por qué todo esto es tan impactante?Primero, Deepseek es una pequeña empresa que se dice que tiene menos de 200 empleados.Se dice que comenzaron como un fondo cuantitativo de cobertura comercial similar a Twosigma o Rentec, pero después de que China intensificó su regulación del campo, utilizaron su experiencia en matemáticas e ingeniería para recurrir a la investigación de IA.Pero el hecho es que publicaron dos informes técnicos muy detallados, a saber, Deepseek-V3 y Deepseekr1.

Estos son informes de alta tecnología, y si no sabe nada sobre álgebra lineal, puede ser difícil de entender.Pero lo que debe probar es descargar la aplicación Deepseek de forma gratuita en la tienda de aplicaciones, iniciar sesión e instalarla con su cuenta de Google, y luego probarla (también puede instalarla en Android), o probarlo directamente en su escritorio con un navegador.Asegúrese de seleccionar la opción «Deepthink» para habilitar la cadena de pensamiento (modelo R1) y deje que explique algunos de los contenidos del informe técnico en lenguaje simple.

Esto también le dirá algunas cosas importantes:

En primer lugar, este modelo es absolutamente legal.Hay muchos componentes falsos en puntos de referencia de IA que a menudo se manipulan para hacer que el modelo funcione bien en puntos de referencia, pero no en las pruebas del mundo real.Google es, sin duda, el mayor culpable a este respecto, y siempre se jactan de cuán mágico es su LLM, pero de hecho, estos modelos funcionan mal en las pruebas del mundo real y ni siquiera pueden completar de manera confiable las tareas más simples, y mucho menos tener una tarea de codificación desafiante .El modelo Deepseek es diferente, y su respuesta es coherente y poderosa, y está en el mismo nivel que los modelos OpenAI y antrópicos.

En segundo lugar, Deepseek no solo ha hecho un progreso significativo en la calidad del modelo, sino que, lo que es más importante, ha hecho un progreso significativo en el entrenamiento de modelos y la eficiencia de inferencia.Al estar muy cerca del hardware y reunir algunas optimizaciones únicas y muy inteligentes, Deepseek puede entrenar estos increíbles modelos con GPU de una manera que es significativamente más eficiente.Según algunas mediciones, Deepseek es aproximadamente 45 veces más eficiente que otros modelos de vanguardia.

Deepseek afirma que todo el costo de la capacitación Deepseek-V3 es solo más de $ 5 millones.De acuerdo con los estándares de OpenAI, Anthrope y otras compañías, esto no es nada en absoluto, porque estas compañías alcanzaron el nivel de un costo de capacitación modelo único de más de $ 100 millones ya en 2024.

¿Cómo es esto posible?¿Cómo podría esta pequeña empresa china superar por completo a todas las personas más inteligentes en nuestros laboratorios de IA líderes que tienen más de 100 veces los recursos, el número de empleados, los salarios, el capital, las GPU y más?¿No debería China debilitarse por las restricciones de Biden en las exportaciones de GPU?Bueno, los detalles son bastante técnicos, pero al menos podemos describirlos de manera general.Tal vez resulta que el poder de procesamiento de GPU relativamente débil de Deepseek es precisamente el factor clave para mejorar su creatividad e inteligencia, porque «la demanda es la madre de la invención».

Una innovación importante es su marco avanzado de capacitación de precisión híbrida que les permite usar números de puntos flotantes de 8 bits (FP8) durante todo el proceso de capacitación.La mayoría de los laboratorios de IA occidentales se entrenan con «precisión completa» de 32 bits (esto básicamente especifica el número de posibles gradientes al describir la salida de las neuronas artificiales; 8 bits en FP8 pueden almacenar un rango más amplio de números de lo que cree, no es limitado a 256 cantidades iguales de diferentes tamaños en enteros regulares, pero usa trucos matemáticos inteligentes para almacenar números muy pequeños y muy grandes, aunque la precisión natural no es tan buena como 32 bits.) La compensación principal es que si bien FP32 puede ser números son almacenado con una precisión sorprendente en un rango grande, pero FP8 sacrifica cierta precisión para ahorrar memoria y mejorar el rendimiento, al tiempo que mantiene suficiente precisión para muchas cargas de trabajo de IA.

Deepseek resuelve este problema mediante el desarrollo de un sistema inteligente que descompone los números en pequeños trozos para la activación y los fragmentos para pesos y utiliza estratégicamente cálculos de alta precisión en los puntos clave de la red.A diferencia de otros laboratorios que primero realizan entrenamiento de alta precisión y luego compriman (que pierde cierta calidad en el proceso), el enfoque nativo de FP8 de Deepseek significa que pueden ahorrar mucha memoria sin comprometer el rendimiento.Cuando entrena con miles de GPU, el requisito de memoria para cada GPU se reduce considerablemente, lo que significa que el número total de GPU requeridos se reduce considerablemente.

Otro gran avance es su sistema de predicción de varios marcadores.La mayoría de los modelos LLM basados en transformadores infieren predecir la siguiente etiqueta, una etiqueta a la vez.

Deepseek descubrió cómo predecir múltiples marcadores mientras se mantiene la calidad de las predicciones de marcadores individuales.Su método logra una precisión de aproximadamente 85-90% en estas predicciones de marcadores adicionales, duplica efectivamente la velocidad de inferencia sin sacrificar demasiada calidad.Lo inteligente es que mantienen la cadena causal completa de predicciones, por lo que el modelo no es solo una suposición, sino una predicción estructurada y sensible al contexto.

Uno de sus desarrollos más innovadores es lo que llaman la larga atención potencial (MLA).Este es su avance al tratar con los llamados índices de valor clave, que son básicamente cómo se representa un solo token en el mecanismo de atención en la arquitectura del transformador.Si bien esto es demasiado complejo desde un punto de vista técnico, se puede decir que estos índices de KV son uno de los principales usos de VRAM durante el entrenamiento y la inferencia, y parte de la razón por la cual se necesitan miles de GPU para entrenar estos modelos Al mismo tiempo, cada uno del VRAM máximo de la GPU es de 96 GB, y estos índices comerán toda esta memoria.

Su sistema MLA encontró una manera de almacenar versiones comprimidas de estos índices que usan menos memoria mientras capturan información básica.La mejor parte es que esta compresión se construye directamente en la forma en que se aprende el modelo: no es un solo paso que necesiten hacer, sino que se basa directamente en una tubería de entrenamiento de extremo a extremo.Esto significa que todo el mecanismo es «diferenciable» y puede ser entrenado directamente utilizando optimizadores estándar.La razón por la que fue exitoso es que las representaciones de datos subyacentes encontradas por estos modelos fueron mucho más bajas que la llamada «dimensión ambiental».Por lo tanto, almacenar un índice KV completo es un desperdicio, aunque todos los demás básicamente lo hacen.

No solo se desperdicia mucho espacio debido a almacenar cantidades masivas de datos que exceden la demanda real, lo que resulta en un aumento significativo en la huella de la memoria de entrenamiento y la eficiencia (nuevamente, el número de GPU requeridos para entrenar un modelo de clase mundial es en gran medida reducido), pero en realidad puede mejorar la calidad del modelo porque puede actuar como un «regulador» para obligar al modelo a centrarse en lo que es realmente importante, en lugar de usar la capacidad desperdiciada para adaptarse al ruido en los datos de entrenamiento.Entonces, no solo ahorra mucha memoria, sino que su modelo puede incluso funcionar mejor.Por lo menos, no afectará seriamente el rendimiento al ahorrar mucha memoria, que generalmente es la compensación que enfrenta en la capacitación de IA.

También han logrado un progreso significativo en la eficiencia de comunicación de GPU a través del algoritmo Dualpipe y los núcleos de comunicación personalizados.El sistema se superpone de manera inteligente a la computación y las comunicaciones, equilibrando cuidadosamente los recursos de GPU entre tareas.Solo necesitan alrededor de 20 GPU de multiprocesadores de flujo (SM) para comunicarse, y el resto se usa para la computación.El resultado es que la utilización de GPU es mucho más alta que la configuración de entrenamiento típica.

Otra cosa muy inteligente que hacen es usar la llamada arquitectura del transformador de expertos híbridos (MOE), pero las innovaciones clave se realizan en torno al equilibrio de carga.Como probablemente sepa, el tamaño o capacidad de un modelo de IA generalmente se mide por el número de parámetros que contiene el modelo.El parámetro es solo un número que almacena ciertas propiedades del modelo; , etc.

El último modelo LLAMA3 de Meta viene en varios tamaños, como: 1 mil millones de la versión de parámetros (mínimo), el modelo de parámetros 70B (más comúnmente utilizado) e incluso un modelo grande con parámetros 405B.Para la mayoría de los usuarios, este modelo más grande tiene una practicidad limitada, ya que su computadora necesita estar equipada con una GPU que vale decenas de miles de dólares para ejecutar inferencia a una velocidad aceptable, al menos si está implementando la versión original de precisión completa.Por lo tanto, la mayoría de los puntos de uso y emoción de estos modelos de código abierto en el mundo real están en el parámetro 8B o un nivel de parámetros 70B muy cuantificado, ya que esto es lo que puede acomodar una GPU NVIDIA 4090 de grado consumidor, y ahora puede comprarlo para Menos de $ 1,000 ahora.

Entonces, ¿cuál es el punto de estos?En cierto sentido, el número y la precisión de los parámetros pueden decirle cuánta información o datos sin procesar se almacena dentro del modelo.Tenga en cuenta que no estoy hablando de la capacidad de razonamiento, o el «coeficiente intelectual» del modelo: resulta que incluso los modelos con muy pocos parámetros pueden resolverse en términos de resolver problemas lógicos complejos, probar teoremas de geometría plana, problemas matemáticos SAT, SAT, etc. Muestra excelentes habilidades cognitivas.

Pero esos modelos pequeños no necesariamente le dicen todos los aspectos de cada giro de la trama en la novela de Stendhal, y los modelos grandes reales tienen el potencial de hacerlo.El «costo» de este nivel extremo de conocimiento es que el modelo se vuelve muy voluminoso y difícil de entrenar y razonar, porque para razonar sobre el modelo, siempre necesita almacenar cada uno de los parámetros 405B (o cualquier número de parámetros) Al mismo tiempo en el VRAM de la GPU.

La ventaja del enfoque del modelo MOE es que puede dividir modelos grandes en una serie de modelos más pequeños, cada uno con conocimiento diferente y no superpuesto (al menos no se superpone completamente).La innovación de Deepseek está desarrollando una estrategia de equilibrio de carga que llaman «pérdidas sin asistencia» que mantiene a los expertos utilizando eficientemente sin la degradación del rendimiento que generalmente trae el equilibrio de carga.Luego, dependiendo de la naturaleza de la solicitud de inferencia, puede enrutar inteligentemente la inferencia al modelo «experto» en el modelo más pequeño en el conjunto que mejor responde a la pregunta o resuelve la tarea.

Puede pensar en ello como un comité de expertos que tienen sus propias áreas de especialización: uno podría ser un experto legal, el otro podría ser un experto en informática y el otro podría ser un experto en estrategia comercial.Entonces, si alguien hace una pregunta sobre el álgebra lineal, no se la dará a un experto legal.Por supuesto, esto es solo una analogía muy aproximada, y en realidad no es así.

La verdadera ventaja de este enfoque es que permite que el modelo contenga mucho conocimiento sin ser muy voluminoso, porque incluso si el número total de parámetros para todos los expertos es alto, solo un pequeño porcentaje de ellos está en «activo» en cualquier Tiempo dado, lo que significa que solo necesita almacenar un pequeño subconjunto de pesas en VRAM para hacer inferencia.Tome Deepseek-V3 como ejemplo, tiene un modelo MOE absolutamente enorme con parámetros 671B, que es mucho más grande que el modelo LLAMA3 más grande, pero solo los parámetros de 37b están activos en cualquier momento dado, lo suficiente para acomodar dos VRAM para un de grado de consumidor. NVIDIA 4090 GPU (costo total de menos de $ 2,000) sin una o más GPU H100, cada una de las cuales se vende por aproximadamente $ 40,000.

Hay rumores de que ChatGPT y Claude usan la arquitectura MOE.Aunque esto es mucho más fácil que colocar los 1.8 billones de parámetros en VRAM, debido a la gran cantidad de memoria utilizada, se necesitan múltiples GPU de nivel H100 para ejecutar el modelo solo.

Además del contenido anterior, el documento técnico también menciona varias otras optimizaciones clave.Esto incluye su marco de capacitación extremadamente para ahorrar memoria que evita el paralelismo del tensor, recalcula ciertas operaciones durante la backpropagation en lugar de almacenarlas, y comparte los parámetros entre el modelo principal y el módulo de predicción auxiliar.La suma de todas estas innovaciones, cuando está en capas, conduce a aproximadamente 45 veces los números de mejora de la eficiencia que circulan en línea, y estoy completamente dispuesto a creer que estos números son correctos.

El costo de la API de Deepseek es una evidencia sólida: aunque el rendimiento del modelo de Deepseek es casi el mejor en clase, el costo de hacer solicitudes de inferencia a través de su API es 95% más bajo que los modelos similares en OpenAi y Anthrope.En cierto sentido, es un poco como comparar las GPU de Nvidia con los nuevos chips personalizados de los competidores: incluso si no son tan buenos, son mucho más rentables, por lo que siempre que pueda determinar el nivel de rendimiento y demostrar que es Suficiente cumple con sus requisitos, y la disponibilidad y la latencia de API son lo suficientemente buenas (hasta ahora, las personas están sorprendidas por el rendimiento de la infraestructura de Deepseek, a pesar de un increíble aumento en la demanda debido al rendimiento de estos nuevos modelos).

Pero a diferencia del caso de Nvidia, la diferencia de costos de Nvidia se debe a su adquisición de más del 90% de la ganancia bruta de monopolio en los productos de los centros de datos, mientras que la diferencia de costo de la API de Deepseek en comparación con las API de OpenAI y antrópica puede ser solo porque su eficiencia informática mejoró en casi 50 tiempos (tal vez mucho más que eso en términos de razonamiento, aproximadamente 45 veces más eficientes en términos de capacitación).De hecho, no está claro si Operai y Anthrope están obteniendo grandes ganancias de los servicios de API: pueden estar más preocupados por el crecimiento de los ingresos y recopilar más datos mediante el análisis de todas las solicitudes de API recibidas.

Antes de continuar, debo señalar que muchas personas especulan que Deepseek mintió sobre la cantidad de GPU y el tiempo que llevó entrenar estos modelos porque en realidad tienen más H100 de lo que afirman debido a las restricciones de exportación de estas cartas, no lo hacen. Quieren causar problemas por sí mismos, ni quieren dañar sus posibilidades de obtener más de estas cartas.Si bien esto es ciertamente posible, creo que es más probable que digan la verdad, han logrado estos increíbles resultados solo al mostrar inteligencia y creatividad extremadamente altas en los métodos de entrenamiento y razonamiento.Explicaron su enfoque, y supongo que era solo cuestión de tiempo antes de que sus resultados fueran ampliamente replicados y confirmados por otros investigadores en otros laboratorios.

Un modelo verdaderamente reflexivo

El modelo R1 actualizado y los informes técnicos pueden ser aún más impactantes al vencer a los antrópicos en la cadena de pensamiento, y ahora es básicamente el único que hace que la tecnología funcione a gran escala, excepto OpenAi.Pero tenga en cuenta que OpenAI no lanzará el modelo de vista previa O1 a mediados de septiembre de 2024.¡Eso fue hace solo 4 meses!Una cosa que debe recordar es que OpenAi es muy reservado sobre cómo estos modelos realmente funcionan a un nivel bajo, y no revelará los pesos del modelo real a cualquier persona, excepto a socios como Microsoft que han firmado acuerdos de confidencialidad estrictos.Los modelos de Deepseek son completamente diferentes, son de código abierto y tienen licencias sueltas.Publicaron informes técnicos muy detallados que explican cómo funcionan estos modelos y proporcionan código que cualquiera puede ver e intentar copiar.

Con R1, Deepseek básicamente resuelve un problema en el campo de la inteligencia artificial: dejar que los modelos razonen gradualmente sin depender de grandes conjuntos de datos supervisados.Sus experimentos Deepseek-R1-Zero muestran esto: el uso de un aprendizaje de refuerzo puro con funciones de recompensa bien diseñadas, logran permitir que el modelo desarrolle capacidades de inferencia complejas de manera completamente autónoma.No es solo una resolución de problemas: el modelo aprende orgánicamente a generar pensamiento de cadena larga, verificar su trabajo y asigna más tiempo computacional a problemas más difíciles.

Los avances tecnológicos aquí son sus nuevos métodos de modelado de recompensas.En lugar de utilizar modelos complejos de recompensa neuronal, desarrollaron un sistema inteligente basado en reglas, lo que podría conducir a «recompensas» (es decir, el modelo mejora las recompensas de una manera falsa, pero en realidad no mejora el rendimiento real del modelo). , Combine las recompensas de precisión (verifique las respuestas finales) con recompensas de formato (fomente el pensamiento estructurado).Este enfoque más simple demostró ser más poderoso y escalable que el modelo de recompensa basado en procesos que otros han probado.

Lo que es particularmente fascinante es que durante el proceso de entrenamiento, observaron los llamados «momentos repentinos», en los que el modelo aprende espontáneamente a modificar su proceso de pensamiento a mitad de camino al encontrar incertidumbre.Este tipo de comportamiento repentino no es un programa preescrito, pero es generado naturalmente por la interacción entre el modelo y el entorno de aprendizaje de refuerzo.El modelo realmente se detendrá, marcará los posibles problemas en el razonamiento y luego comenzará de nuevo con un enfoque diferente, ninguno de los cuales está explícitamente entrenado.

El modelo R1 completo se basa en estas ideas, introduciendo lo que llaman datos de «inicio en frío», un pequeño conjunto de ejemplos de alta calidad antes de aplicar su tecnología de aprendizaje de refuerzo.También resuelven un problema importante en el modelo de inferencia: consistencia del lenguaje.El razonamiento de la cadena de pensamiento previamente probado a menudo da como resultado modelos que mezclan múltiples idiomas o producen salida incoherente.Deepseek resuelve este problema al recompensar sutilmente la consistencia del lenguaje durante la capacitación de RL, comerciando por pérdidas de rendimiento más pequeñas para obtener una producción más legible y más consistente.

Los resultados son increíbles: R1 tiene una precisión del 79.8% en AIME 2024, una de las competiciones de matemáticas de secundaria más desafiantes, que es comparable al modelo O1 de OpenAI.En el Math-500, alcanzó el 97.3% y obtuvo un 96.3% en la competencia de programación de CodeForces.Pero quizás lo más impresionante es que lograron destilar estas habilidades en modelos más pequeños: su versión de parámetros de 14b funciona mejor que muchos modelos que son varias veces más grandes, lo que sugiere que la capacidad de inferencia no solo está relacionada con la cantidad de parámetros originales, sino que también lo ha hecho. Algo que ver con cómo capacitar al modelo para procesar información.

Secuelas

El reciente rumor que circula en Twitter y Blind, un sitio web de rumores corporativos, es que estos modelos están completamente más allá de las expectativas de Meta, e incluso superan al nuevo modelo LLAMA4 que todavía está siendo entrenado.Aparentemente, el proyecto LLAMA Inside Meta ha atraído la atención de los líderes técnicos superiores, por lo que tienen unas 13 personas que estudian LLAMA, y cada uno de ellos tiene un salario anual total que excede el costo de capacitación del modelo Deepseek-V3, que es el Deepseek. -V3 modelo.¿Cómo se explica en serio a Zuckerberg?Cuando se capacitan mejores modelos con solo 2,000 H100, y cuestan menos de $ 5 millones, Zuckerberg invirtió miles de millones en Nvidia para comprar 100,000 H100, ¿cómo podría seguir sonriendo?

Pero es mejor que crea que Meta y otros grandes laboratorios de IA están derribando estos modelos de Speek, investigando cada palabra en el informe técnico y cada línea en el código de código abierto que publican, tratando desesperadamente de integrar estos mismos trucos y optimizaciones en su cuenta Proceso de capacitación y razonamiento.Entonces, ¿cuál es el impacto de todo esto?Bueno, cree ingenuamente que la demanda total de capacitación e cálculos de inferencia debe dividirse por algún gran número.¿Quizás no 45, pero 25 o incluso 30?Porque no importa cuánto pensara que necesitabas antes, ahora hay mucho menos.

Los optimistas pueden decir: «Solo estás hablando de una constante proporcional simple, un solo múltiplo. Cuando te enfrentas a una curva de crecimiento exponencial, estas cosas desaparecerán rápidamente y no serán tan importantes al final». La verdad: si la IA es realmente tan transformadora como esperaba, si la utilidad real de esta tecnología se mide en billones, si el cálculo de tiempo inferido es la nueva ley de expansión, si tendremos una gran cantidad de robots humanoides, continuarán Para hacer muchas inferencias, tal vez la curva de crecimiento sigue siendo muy empinada y extrema, Nvidia todavía está muy por delante, todavía tendrá éxito.

Pero Nvidia tendrá muchas buenas noticias en los próximos años para mantener su valoración, y cuando tenga en cuenta todos estos factores, al menos estoy empezando a sentirme muy molesto por comprar sus acciones a 20 veces sus ventas esperadas en 2025 .¿Qué pasa si el crecimiento de las ventas se ralentiza ligeramente?¿Qué pasa si la tasa de crecimiento no está por encima del 100%, sino el 85%?¿Qué sucede si el margen bruto cae del 75% al 70%, que todavía es alto para las compañías de semiconductores?

Resumir

Desde una perspectiva macro, Nvidia enfrenta amenazas competitivas sin precedentes, lo que hace que sus ventas a plazo de 20X y el 75% de margen de beneficio bruto sea cada vez más difícil de justificar su alta valoración.Las ventajas de la compañía en hardware, software y eficiencia han surgido con grietas preocupantes.El mundo, las miles de personas más inteligentes de la Tierra, respaldadas por innumerables miles de millones de dólares en recursos de capital, están tratando de atacarlos desde todos los ángulos.

En el lado del hardware, las arquitecturas innovadoras de cerebras y Groq muestran que las ventajas interconectadas de Nvidia, la piedra angular de su dominio del centro de datos, pueden ser evitadas por el rediseño radical.Los chips de nivel de obleas de cerebras y los métodos de computación determinista para Groq proporcionan un rendimiento convincente sin la necesidad de las complejas soluciones de interconexión de NVIDIA.Más tradicionalmente, cada cliente importante de NVIDIA (Google, Amazon, Microsoft, Meta, Apple) está desarrollando chips personalizados que podrían comer ingresos de centros de datos de alto perfil.Estos ya no son proyectos experimentales: el amazón solo está construyendo infraestructura a gran escala para antrópico, que contiene más de 400,000 chips personalizados.

El foso de software parece ser igualmente frágil.Los nuevos marcos avanzados como MLX, Triton y Jax están socavando la importancia de CUDA, y los esfuerzos para mejorar los controladores AMD pueden desarrollar alternativas de hardware más baratas.La tendencia de la abstracción avanzada refleja cómo el lenguaje de ensamblaje da paso a C/C ++, lo que sugiere que el dominio de CUDA puede ser más corto de lo esperado.Lo más importante es que vemos el aumento de la tecnología de traducción de código basada en LLM, que puede portuar automáticamente el código CUDA para ejecutarse en cualquier objetivo de hardware, eliminando potencialmente uno de los efectos de bloqueo más potentes de Nvidia.

Quizás lo más destructivo es el reciente avance en la eficiencia de Deepseek, que logra el rendimiento comparable al rendimiento del modelo en aproximadamente 1/45 del costo de cómputo.Esto muestra que toda la industria ha estado exagerando los recursos informáticos de una gran cantidad de maneras.Junto con la aparición de una arquitectura de razonamiento más eficiente a través del modelo de cadena de pensamiento, la demanda total de cálculo puede ser mucho menor que el pronóstico actual.La economía aquí es convincente: cuando Deepseek puede lograr el rendimiento del nivel GPT-4, mientras que las tarifas de llamadas de API se reducen en un 95%, sugiere que o los clientes de NVIDIA están quemando innecesariamente dinero o los márgenes de ganancias deben disminuir significativamente.

TSMC producirá chips competitivos para cualquier cliente bien financiado, estableciendo un límite en las ventajas arquitectónicas de NVIDIA.Pero más fundamentalmente, la historia muestra que el mercado eventualmente encontrará formas de evitar los cuellos de botella artificiales, lo que resulta en un exceso de ganancias.En general, estas amenazas muestran que Nvidia enfrenta un camino mucho más resistente para mantener su trayectoria de crecimiento actual y los márgenes de ganancias de lo que sugiere su valoración.Hay cinco direcciones de ataque diferentes (innovación arquitectónica, integración vertical del cliente, abstracción del software, avances de eficiencia y democratización de fabricación) hay una gran posibilidad de que al menos un éxito tenga un impacto significativo en los márgenes de ganancias o las tasas de crecimiento de Nvidia.A juzgar por la valoración actual, el mercado no ha tenido en cuenta estos riesgos.