
Fuente: Cuenta pública «Xin Zhiyuan»
Si le das a cada una de las mejores modelos $10,000 en dinero real y les dejas terminar «negociando acciones», ¿quién se convertirá en Buffett en el mundo de la IA?
Recientemente, Alpha Arena, un nuevo experimento lanzado por nof1.ai, es una «batalla de los dioses».
Esta competencia reúne los modelos grandes más potentes de la actualidad en el mismo mercado comercial real.
Incluyendo GPT-5 de OpenAI, Gemini 2.5 Pro de Google, Claude 4.5 Sonnet de Anthropic, así como Grok 4 de xAI, Qwen3 Max de Alibaba y DeepSeek V3.1 Chat.
Cada modelo recibió un capital inicial de 10.000 dólares y recibió exactamente los mismos datos de mercado e instrucciones comerciales.
Las palabras clave para el concurso no son complicadas, es más como un «examen a libro abierto».
-
Primero, el sistema le indicará a la IA la hora actual, la información de la cuenta y el estado de la posición, y luego adjuntará una gran cantidad de precios, indicadores (como MACD/RSI) y otros datos en tiempo real.
-
Luego, se le pide al modelo que tome una decisión: si se mantiene el puesto, si continuar manteniéndolo o cerrarlo;si la posición es corta, si comprar o seguir esperando y ver.
Hay que decir que el mercado financiero cambia muy rápido.
DeepSeek también es muy bueno en el comercio y merece tener una formación cuantitativa.
A las 7:30 de la mañana del 20 de octubre, todavía se veía así en el lado izquierdo de la imagen de abajo——
DeepSeek V3.1 ocupó el primer lugar con una ganancia de 2264 dólares estadounidenses, Grok 4 ocupó el segundo lugar con una ganancia de 2071 dólares estadounidenses, Claude Sonnet 4.5 obtuvo una pequeña ganancia de 649 dólares estadounidenses y Qwen3 Max tuvo una pequeña pérdida de 416 dólares estadounidenses.
Gemini 2.5 Pro perdió 3.542 dólares y ocupó el primer lugar desde abajo, mientras que GPT-5 perdió 2.419 dólares y ocupó el penúltimo lugar.
Luego, a las 10:00, una hora y media después, se parecía al lado derecho de la imagen de abajo——
DeepSeek V3.1 y Grok-4 se han desplomado por completo y Sonnet 4.5 está a punto de perder lo que se ha ganado.
Qwen3 Max y GPT-5 tienen una tendencia alcista
El rendimiento de Gemini 2.5 Pro es estable y cuesta casi 800 dólares más que antes.
Por cierto, así es como se veía a las 13:30:
DeepSeek V3.1 llega a la cimaGoogle OpenAI ocupa el último lugar
Posiciones modelo
A las 11:15 echamos un vistazo a las posiciones de cada modelo.
En este momento, DeepSeek y Grok terminaron su declive y comenzaron a subir nuevamente.
Tanto Sonnet 4.5 como Qwen3 Max también lograron rentabilidad.
El Gemini 2.5 Pro mejoró un poco, pero no mucho.GPT-5 se ha mantenido relativamente estable, sin ganancias ni pérdidas desde el día 20.
A las 11:45, todas las acciones excepto GPT-5 experimentaron un aumento.
Sí, ¡el Gemini 2.5 Pro finalmente genera dinero!(en comparación con hace unos minutos)
Revisión de tendencias
Las curvas de DeepSeek V3.1 Chat y Grok-4 son similares y deberían tener posiciones similares.Después de perder una fortuna en las primeras horas, rápidamente se recuperaron y continuaron aumentando.
Claude Sonnet 4.5 se mantuvo muy estable durante los dos primeros días, obteniendo un pequeño beneficio pero no mucho.Comenzó a alcanzar un pequeño pico en la tarde del 19, pero volvió a caer en la madrugada del 20.
Qwen3 Max fue el que más perdió al principio, pero luego se estabilizó.Incluso en la tarde del día 19 no hubo fluctuaciones.
Las curvas de GPT-5 y Gemini 2.5 Pro también son muy similares en las primeras etapas.Pero a diferencia de DeepSeek y los demás, estas dos acciones subieron bruscamente al principio y luego cayeron hasta el punto en que siguieron fluctuando entre perder dinero y no ganar dinero.
La tarde del día 19 se produjo un punto de inflexión.Fue entonces cuando DeepSeek y Grok-4 comenzaron a subir bruscamente, mientras que GPT-5 y Gemini 2.5 Pro comenzaron a caer.
Temprano en la mañana del día 20, GPT-5 realizó ajustes oportunos y estabilizó la tendencia, mientras que Gemini 2.5 Pro continuó cayendo en picado.
Vale la pena mencionar que a partir del mediodía del día 20, todos los modelos excepto el GPT-5 experimentaron un aumento repentino.
Entre ellos, DeepSeek V3.1 Chat y Grok-4 pronto comenzaron a alcanzar niveles récord. Qwen3 Max aprovechó este impulso para lograr ganancias sostenidas por primera vez, y Gemini 2.5 Pro también comenzó a recuperarse.
Historial de transacciones
A las 12:20 del día 20, el número de transacciones para cada modelo era: Gemini 45 veces, GPT 10 veces, Qwen 6 veces, DeepSeek 5 veces, Claude 3 veces y Grok 1 vez.
El número de transacciones de DeepSeek no es demasiado, pero es digno de su experiencia en el comercio cuantitativo y sus ingresos ocupan el primer lugar.
Grok-4 tiene la menor cantidad de transacciones, solo 1, pero ha seguido de cerca a DeepSeek en el segundo lugar.
Y con un récord de 45 transacciones, Gemini 2.5 Pro, que se ha convertido en el «maestro micromanager», es también el que más dinero pierde.
Sin juegos, sin reseñas, ¡solo inicia!
Durante años, la IA se ha medido mediante puntos de referencia estáticos.
ImageNet, MMLU e innumerables clasificaciones nos dicen qué modelo puede «comprender» mejor las imágenes, la lógica o el lenguaje.
Pero todas estas pruebas comparten un defecto común: todas se llevan a cabo en un entorno estéril y predecible.
El mercado es todo lo contrario.
Los mercados financieros son el motor de modelado mundial definitivo y el único punto de referencia que se vuelve cada vez más difícil a medida que la IA se vuelve más inteligente.
Fluctúan, reaccionan, castigan, recompensan.
Son un sistema vivo de información y emociones.
Hace 10 años, DeepMind trajo avances revolucionarios a la investigación de la inteligencia artificial.
Su idea central es que los “juegos” se convertirán en el entorno que liderará el rápido desarrollo de la IA de vanguardia.
Como se mencionó anteriormente, Nof1 cree que los mercados financieros son el mejor entorno de capacitación para la próxima era de la IA.
Después de todo, si la IA va a funcionar en el mundo real, debe hacerlo en entornos que no se detengan para la «propagación hacia atrás».
Aquí, los modelos pueden utilizar tecnologías como el aprendizaje abierto y el aprendizaje por refuerzo a gran escala para obtener datos casi ilimitados y entrenarse para hacer frente a la complejidad del mercado: el «JEFE definitivo» en este campo.
En Alpha Arena, no hay etiquetas correctas, sólo probabilidades cambiantes.
El éxito de un modelo depende de la rapidez con la que interpreta las fluctuaciones, de la precisión con la que sopesa los riesgos y de la humildad con la que admite que está equivocado.
Esto convierte la transacción en un nuevo tipo de prueba de Turing:
La prueba ya no es «¿puede pensar la máquina?» pero «¿podrá sobrevivir a la incertidumbre?».
Apéndice: Extractos de conversaciones modelo
Chat DeepSeek V3.1
11:15:31
Continúo manteniendo todas las posiciones en ETH, SOL, XRP, BTC, DOGE y BNB ya que no se ha activado ninguna de las condiciones de vencimiento y actualmente todas son rentables, lo que me da un rendimiento general respetable de aproximadamente 17,38%, dejándome con $2840,11 en efectivo.Como ya tengo todas las divisas negociables, no es necesario abrir nuevas posiciones en este momento.
Qwen3 máximo
11:14:42
Con un rendimiento total ligeramente rentable del 0,12% y $116,99 en efectivo restantes, me quedo con mi posición larga actual de BTC apalancada 5x.Mi objetivo de ganancias es 110800, el stop loss es 105500 y cerraré la posición si el precio cierra por debajo de 10000 en el gráfico de 4 horas.
Grok 4
11:14:39
Mi cuenta ha aumentado un 15,98% en general y tengo $3180 en efectivo.Continúo manteniendo mis posiciones actuales en ETH, SOL, XRP, BTC, DOGE y BNB porque los datos sugieren que debería conservarlas por ahora.
GPT-5
11:14:24
Con una pérdida del 23,59% y $3061 en efectivo, estoy confirmando mi plan de salida, asegurando la exposición a DOGE en $91,76 flotantes y verificando dos veces el límite de pérdidas de BTC en $106,493.55 y el objetivo de ganancias de $114,129.91.
Géminis 2.5 Pro
11:14:01
A pesar de una pérdida general del 43,15% y $3072,48 restantes en efectivo, seguí manteniendo todas mis posiciones actuales en BTC, ETH, SOL, XRP y DOGE de acuerdo con mi estrategia, incluso si DOGE actuó en mi contra.Solo saldría según condiciones predefinidas, confiando en el plan más que en mis instintos.
Soneto de Claudio 4.5
11:14:00
Tanto mis posiciones en XRP como en BTC son actualmente rentables, lo que me da un rendimiento general del 5,2% con $10.520,34 en mi cuenta y $4.957,78 en efectivo, pero el mercado está mostrando muy poco impulso, por lo que elijo quedarme sentado y esperar una tendencia más clara antes de realizar nuevos movimientos.