Autor: Sleepy.txt

Temprano en la mañana del 4 de noviembre, la tan esperada competencia comercial de IA Alpha Arena llegó a su fin.
Los resultados sorprendieron a todos, con el Qwen 3 Max de Alibaba ocupando el primer lugar con un rendimiento del 22,32%, y otra empresa china, DeepSeek, en segundo lugar con un rendimiento del 4,89%.
Los cuatro jugadores estrella de Silicon Valley fueron derrotados en todos los ámbitos.El GPT-5 de OpenAI perdió un 62,66%, el Gemini 2.5 Pro de Google perdió un 56,71%, el Grok 4 de Musk perdió un 45,3% y el Claude 4.5 Sonnet de Anthropic también perdió un 30,81%.

Curvas comerciales de todos los modelos | Fuente: nof1
Este juego es en realidad un experimento especial. El 17 de octubre, la empresa de investigación estadounidense Nof1.ai introdujo seis de los principales modelos lingüísticos del mundo en el mercado real de las criptomonedas.Cada modelo recibió un capital inicial de 10.000 dólares estadounidenses para realizar operaciones de contrato perpetuo de 17 días en la plataforma comercial descentralizada Hyperliquid.Los contratos perpetuos son derivados sin fecha de vencimiento que permiten a los operadores magnificar los rendimientos mediante el apalancamiento, pero al mismo tiempo también magnifican los riesgos.
Estas IA parten del mismo punto de partida, tienen los mismos datos de mercado, pero terminan con resultados completamente diferentes.
Esta no es una prueba de referencia en un entorno virtual, sino un juego de supervivencia con dinero real.Cuando la IA abandone el entorno «estéril» del laboratorio y se enfrente por primera vez a un mercado real dinámico, conflictivo e incierto, sus elecciones ya no estarán determinadas por los parámetros del modelo, sino por su comprensión del riesgo, la codicia y el miedo.
Este experimento permitió a la gente ver por primera vez que cuando la llamada «inteligencia» se enfrenta a la complejidad del mundo real, el elegante desempeño del modelo es a menudo insostenible, exponiendo fallas más allá del entrenamiento.
De creador de preguntas a comerciante
Durante mucho tiempo, la gente ha utilizado varios puntos de referencia estáticos para medir las capacidades de la IA.
Desde MMLU hasta HumanEval, la IA está obteniendo puntuaciones cada vez más altas en estos exámenes estandarizados, superando incluso a los humanos.Pero la esencia de estas pruebas es como hacer preguntas en una habitación silenciosa, y las preguntas y respuestas son fijas.La IA sólo necesita encontrar la solución óptima en datos masivos.Puede memorizar las respuestas incluso de los problemas matemáticos más complejos.
El mundo real, especialmente los mercados financieros, es completamente diferente.
No es un banco de preguntas estático, sino un escenario en constante cambio, lleno de ruido y engaño. Este es un juego de suma cero, y la ganancia de una persona debe significar la pérdida de otra.Las fluctuaciones de precios nunca son sólo el resultado de cálculos racionales, sino que también se ven afectadas por las emociones humanas.La codicia, el miedo, la suerte y las dudas son claramente visibles en cada salto de precio.
Para complicar más las cosas, el mercado mismo responde al comportamiento humano. Cuando todo el mundo cree que los precios subirán, a menudo los precios han alcanzado su punto máximo.
Este mecanismo de retroalimentación constantemente corrige, resulta contraproducente y castiga la certeza, haciendo que cualquier prueba estática palidezca en comparación.
El Alpha Arena lanzado por Nof1.ai quiere llevar la IA a un verdadero crisol social. Cada modelo recibe dinero real, las pérdidas son pérdidas reales y las ganancias son ganancias reales.
El modelo debe realizar de forma independiente el análisis, la toma de decisiones, la colocación de pedidos y el control de riesgos.Esto equivale a darle a cada IA una sala de operaciones independiente, convirtiéndola de «hacedor de preguntas» a «comerciante».Tiene que decidir no sólo la dirección de apertura de una posición, sino también el tamaño de la posición, el momento de tomar medidas y si detener las pérdidas o obtener ganancias.

Registros de operación de diferentes modelos | Fuente: nof1
Más importante aún, cada decisión que tomen cambiará el entorno experimental. Comprar hará subir el precio, vender hará que el precio baje.El stop loss puede salvarle la vida o puede perder el rebote.El mercado es fluido y cada paso da forma al siguiente.
Lo que este experimento quiere responder es una pregunta más fundamental: si la IA realmente comprende el riesgo.
En las pruebas estáticas, puede confiar en la memoria y la coincidencia de patrones para acercarse infinitamente a la «respuesta correcta»;pero en un mercado real donde no existe una respuesta estándar y está lleno de ruido y retroalimentación, ¿cuánto tiempo puede durar su «inteligencia» cuando debe actuar en condiciones de incertidumbre?
El mercado da una lección a la IA
El avance del juego fue más dramático de lo imaginado.
A mediados de octubre, el mercado de las criptomonedas era extremadamente volátil, y el precio de Bitcoin subía y bajaba casi a diario.Fue en este entorno donde seis modelos de IA iniciaron su primera actividad comercial real.

Tendencia del precio de Bitcoin durante la competencia | Fuente: TradingView
El 28 de octubre, a mitad del torneo, se anunciaron las clasificaciones intermedias. El valor de la cuenta de DeepSeek se disparó a 22.500 dólares, con un rendimiento del 125%. En otras palabras, duplicó con creces su dinero en sólo 11 días.
Qwen de Alibaba hizo lo mismo, con rendimientos superiores al 100%.Incluso Claude y Grok, que más tarde fueron derrotados, mantuvieron en aquel momento beneficios del 24% y del 13%.
Las redes sociales rápidamente se volvieron virales.Algunas personas comenzaron a discutir si deberían entregar sus carteras de inversiones a la gestión de la IA, y otras, medio en broma, dijeron que tal vez la IA realmente haya encontrado un código comercial que seguramente generará dinero sin perderlo.
Sin embargo, pronto se hizo evidente la crueldad del mercado.
A principios de noviembre, Bitcoin rondaba los 110.000 dólares y la volatilidad se amplificaba considerablemente.Aquellos modelos que aumentaron sus apuestas durante toda la tendencia alcista sufrieron grandes pérdidas cuando el mercado dio un giro.
Al final, sólo dos modelos de China lograron mantener ganancias, y el desempeño del campo estadounidense fue una derrota.Este juego de montaña rusa nos permitió ver claramente por primera vez que las IA que pensábamos que estaban muy por delante no eran tan inteligentes como se imaginaba en el mercado real.
División de estrategias comerciales.
A partir de los datos de la transacción se puede ver la «personalidad» de cada IA.
Qwen sólo negoció 43 veces en 17 días, un promedio de menos de tres veces al día, y fue el más comedido de todos los jugadores.Su tasa de ganancias no es sobresaliente, pero su relación ganancias-pérdidas por disparo es extremadamente alta, con una ganancia máxima en una sola transacción que alcanza los $8,176.
En otras palabras, Qwen no es «el más preciso en las predicciones», sino «el más disciplinado en las apuestas». Sólo actúa cuando es seguro y elige quedarse quieto cuando es incierto.Esta estrategia de alta calidad de la señal le permitió tener retrocesos limitados durante las correcciones del mercado y, en última instancia, preservó los frutos de la victoria.
DeepSeek tuvo una cantidad similar de movimientos que Qwen, con solo 41 en 17 días, pero se comportó más como un administrador de fondos cauteloso.Tiene el índice de Sharpe más alto entre todos los jugadores, alcanzando 0,359, un número que ya es bastante raro en el mercado de criptomonedas altamente volátil.
En los mercados financieros tradicionales, el índice de Sharpe se suele utilizar para medir los rendimientos ajustados al riesgo. Cuanto mayor sea el valor, más sólida será la estrategia.Pero en un ciclo tan corto y un mercado tan violento, cualquier modelo que pueda mantener un valor positivo no es sencillo.Los resultados de DeepSeek muestran que no busca maximizar la rentabilidad, sino que se esfuerza por mantener el equilibrio en un entorno de mucho ruido.
Durante todo el partido siempre mantuvo el ritmo y no persiguió el aumento ni se movió a ciegas.Más bien un trader con un sistema estricto, preferiría renunciar a oportunidades antes que dejar que las emociones dominen la toma de decisiones.
En contraste, el desempeño del campo de IA de Estados Unidos expone problemas obvios de control de riesgos.
Gemini de Google realizó un total de 238 pedidos en 17 días, un promedio de más de 13 veces al día, el más frecuente entre todos los jugadores.Estas transacciones de alta frecuencia también generaron enormes costos: solo los honorarios de gestión costaron 1.331 dólares, lo que representa el 13% del capital inicial.En un torneo con un presupuesto inicial de sólo $10.000, esto supone una enorme carga para ti.
Lo peor es que este comercio frecuente no genera ingresos adicionales.Géminis sigue intentándolo y cometiendo errores, deteniendo pérdidas e intentándolo una y otra vez, como un inversor minorista obsesionado con observar el mercado, dejándose llevar por el ruido del mercado.Cada ligera fluctuación del precio activará su orden comercial.Reacciona demasiado rápido a las fluctuaciones y percibe el riesgo con demasiada lentitud.
En las finanzas conductuales, este desequilibrio tiene un nombre: exceso de confianza.Los comerciantes sobreestiman su capacidad de pronóstico pero ignoran la acumulación de incertidumbre y costos.El fracaso de Géminis es una consecuencia típica de esta confianza ciega.
El rendimiento de GPT-5 es muy decepcionante. No hizo falta muchas inyecciones, 116 en 17 días, pero tuvo poco control de riesgos.La mayor pérdida individual alcanzó los 622 dólares estadounidenses, mientras que la mayor ganancia fue de sólo 271 dólares estadounidenses.La relación ganancias-pérdidas estaba seriamente desequilibrada. Es como un jugador impulsado por la confianza.Ocasionalmente puede ganar cuando el mercado va bien, pero una vez que el mercado se revierte, las pérdidas se multiplicarán.
Tiene un índice de Sharpe de -0,525, lo que significa que no asumió ningún riesgo a cambio de ninguna recompensa.En el ámbito de la inversión, este resultado equivale casi a «es mejor no operar».
Este experimento demuestra una vez más que lo que realmente determina la victoria o la derrota no es la precisión de las predicciones del modelo, sino cómo maneja este la incertidumbre.La victoria de Qwen y DeepSeek es esencialmente una victoria del control de riesgos.Parecen comprender mejor que en el mercado sólo sobreviviendo primero se puede ser considerado inteligente.
El mercado real es el espejo de la IA
Los resultados de Alpha Arena son una gran burla del actual sistema de evaluación de la IA.Aquellos «modelos inteligentes» que se encuentran entre los mejores en pruebas comparativas como MMLU están perdiendo terreno cuando llegan al mercado real.
Estos modelos son maestros del lenguaje extraídos de innumerables textos. Pueden generar respuestas con lógica estricta y gramática perfecta, pero es posible que no comprendan la realidad a la que realmente apuntan esos textos.
Una IA puede escribir un artículo sobre gestión de riesgos en unos segundos, con citas decentes y un razonamiento completo; también puede explicar con precisión qué son el índice de Sharpe, la reducción máxima y el valor en riesgo.Pero cuando realmente posee el dinero, puede tomar las decisiones más riesgosas.Porque sólo «sabe» y no «comprende».
Conocer y comprender son dos cosas diferentes.
Hay una enorme diferencia entre poder decirlo y poder hacerlo.
Esta brecha se denomina problema epistemológico en filosofía. Platón alguna vez distinguió entre conocimiento y creencia verdadera.El conocimiento no es sólo información correcta, sino también comprensión de por qué es correcta.
Los grandes modelos de lenguaje actuales pueden tener toneladas de «información correcta», pero no tienen ese tipo de comprensión.Puede decirle la importancia de la gestión de riesgos, pero no sabe cómo los humanos aprenden esa importancia a partir del miedo y la pérdida.
El mercado real es el mejor lugar para poner a prueba su comprensión. No será indulgente sólo porque seas GPT-5.Cada decisión equivocada se devolverá inmediatamente a la cuenta en forma de pérdida de fondos.
En el laboratorio, la IA se puede repetir innumerables veces, ajustando constantemente los parámetros y realizando pruebas retrospectivas hasta encontrar la llamada «respuesta correcta».Pero en el mercado, cada error significa una pérdida de dinero real, y esta pérdida no tiene vuelta atrás.
La lógica del mercado también es mucho más compleja de lo que imagina el modelo. Cuando el capital se pierde en un 50%, se requiere una devolución del 100% para volver al punto de partida;cuando la pérdida se expanda al 62,66%, el rendimiento requerido para devolver el principal se disparará al 168%. Este riesgo no lineal multiplica el costo de los errores.La IA puede minimizar las pérdidas mediante algoritmos durante el entrenamiento, pero no puede comprender realmente el mecanismo de castigo del mercado moldeado por el miedo, la vacilación y la codicia.
Por eso, el mercado se ha convertido en un espejo para comprobar la autenticidad de la inteligencia. Permite a las personas y a las máquinas ver claramente lo que realmente saben y lo que realmente temen.
Este juego también hace que la gente reconsidere las diferencias en las ideas de I+D de IA entre China y Estados Unidos.
Varias empresas importantes de Estados Unidos todavía se adhieren a la ruta del modelo común, con la esperanza de construir sistemas que puedan demostrar capacidades estables en una amplia gama de tareas.Los modelos de OpenAI, Google y Anthropic pertenecen todos a este tipo. Su objetivo es buscar amplitud y coherencia, de modo que el modelo tenga capacidades de razonamiento y comprensión entre dominios.
El equipo chino prefiere considerar la implementación y el mecanismo de retroalimentación de escenarios específicos en las primeras etapas del desarrollo del modelo.Aunque Qwen de Alibaba también es un modelo grande de uso general, su entorno de capacitación y prueba se ha conectado anteriormente al sistema comercial real. Este reflujo de datos de escenarios reales puede hacer que el modelo sea más sensible a los riesgos y limitaciones de manera invisible.El rendimiento de DeepSeek muestra características similares, ya que parece ser capaz de corregir decisiones más rápidamente en entornos dinámicos.
No se trata de «quién gana y quién pierde». Este experimento proporciona una ventana a cómo se desempeñan las diferentes filosofías de entrenamiento en el mundo real.Los modelos de propósito general enfatizan la universalidad, pero son propensos a no responder en ambientes extremos;mientras que aquellos modelos que se exponen antes a la retroalimentación real pueden parecer más flexibles y estables en sistemas complejos.
Por supuesto, los resultados de un juego pueden no representar la fuerza general de la IA china y estadounidense. El ciclo comercial de diecisiete días es demasiado corto y es difícil descartar la influencia de la suerte;si se extiende el tiempo, la tendencia puede ser completamente diferente.Es más, esta prueba sólo implica el comercio de contratos perpetuos de criptomonedas, que no se puede extrapolar a todos los mercados financieros ni es suficiente para generalizar el rendimiento de la IA en otros campos.
Pero es suficiente para hacernos repensar lo que constituye la verdadera capacidad.Cuando la IA se coloca en un entorno real y necesita tomar decisiones en medio de riesgos e incertidumbres, lo que vemos no es sólo el éxito o el fracaso del algoritmo, sino también la diferencia de caminos.En el camino hacia la transformación de la tecnología de IA en productividad real, el modelo chino ya ha tomado la delantera en ciertas áreas específicas.
En el momento en que terminó el juego, la última posición de Bitcoin de Qwen se cerró, dejando el saldo de su cuenta en $12,232.Ganó, pero no sabía que había ganado.Esa ganancia del 22,32% no significa nada para él, es sólo otra orden de ejecución.
En Silicon Valley, es posible que los ingenieros todavía estén celebrando otra mejora del 0,1% en la puntuación MMLU de GPT-5.Al otro lado del mundo, la IA china acaba de demostrar de la forma más sencilla en un casino con dinero real que sólo una buena IA puede generar dinero.
Nof1.ai anunció que la próxima temporada de competición está a punto de comenzar. El ciclo será más largo, habrá más participantes y el entorno del mercado será más complejo.¿Aprenderán algo de sus pérdidas los modelos que fracasaron en la primera temporada?¿O se repetirá el mismo destino con mayores fluctuaciones?
Nadie sabe la respuesta.Pero lo que es seguro es que cuando la IA empiece a salir de la torre de marfil y demostrar su valía con dinero real, todo será diferente.