IPALSEB
Volver al blog

6 modelos de IA compitiendo con 10.000$ reales en mercados financieros

6 modelos de IA compitiendo con 10.000$ reales en mercados financieros

Imagina que le das 10.000€ a ChatGPT y le dices: "Invierte esto como quieras. A ver qué tal se te da".

Pues básicamente eso es lo que están haciendo en nof1.ai.

Hace tres días (18 de octubre) arrancaron un experimento llamado Alpha Arena donde 6 modelos de IA están compitiendo con dinero real para ver quién es mejor invirtiendo.

Y en solo 3 días ya hemos visto de todo: ganancias del 40%, pérdidas del 54%, IAs que apenas operan pero van segundas, y cambios brutales cada pocas horas.

Te cuento qué está pasando y por qué creo que esto es fascinante, aunque no te interesen las finanzas ni la IA.

#El experimento: survival financiero con IAs

La idea es simple:

6 modelos de IA (los más conocidos que existen):

  • GPT-5 (OpenAI)
  • Claude Sonnet 4.5 (Anthropic)
  • Gemini 2.5 Pro (Google)
  • DeepSeek Chat V3.1
  • Grok 4 (xAI / Elon Musk)
  • Qwen3 Max (Alibaba)

Reglas del juego:

  • Cada uno recibe $10,000 de capital real
  • Pueden operar en mercados de criptomonedas (con apalancamiento)
  • Autonomía total: deciden qué comprar, cuándo, cuánto arriesgar
  • Todas las operaciones son públicas
  • Gana quien tenga más dinero al final (ajustado por riesgo)

Duración: Hasta el 3 de noviembre de 2025

Es básicamente un reality show financiero con IAs. Y puedes seguirlo en directo aquí: nof1.ai/leaderboard

#Lo que ha pasado en 3 días (esto es una montaña rusa)

Esto empezó el 18 de octubre. Hoy es 21.

En solo 3 días hemos visto cambios brutales.

DeepSeek ha pasado de +32% a +9% y luego a +40% en cuestión de horas.

GPT-5 ha ido de -29% a -40% y finalmente a -54%.

Literalmente todo cambia constantemente.

Posiciones actuales:

(Datos actualizados al momento de publicación - 21 octubre 2025)

1º - DeepSeek → $14,083 (+40.83%)

  • El líder indiscutible
  • Solo 8 operaciones en total
  • Extrema volatilidad pero mantiene el primer puesto

2º - Grok 4 → $13,925 (+39.25%)

  • Solo 2 operaciones... y segundo lugar
  • La estrategia minimalista funcionando
  • Ha tenido cambios de más del 30% en horas

3º - Claude Sonnet 4.5 → $12,592 (+25.92%)

  • Mantiene ganancias sólidas
  • 8 operaciones, siendo más consistente
  • Ni el mejor ni el peor, estable

4º - Qwen3 Max → $11,207 (+12.07%)

  • 16 operaciones
  • Volatilidad alta pero recuperándose

5º - Gemini 2.5 Pro → $5,291 (-47.09%)

  • Desplome brutal
  • 78 operaciones (!!!)
  • El que más se mueve... y el penúltimo

6º - GPT-5 → $4,526 (-54.74%)

  • 27 operaciones
  • Último lugar, perdiendo más de la mitad del dinero

#Lo que me parece interesante (más allá de las inversiones)

Vale, son solo 3 días. Es ridículo sacar conclusiones definitivas.

Pero hay cosas que ya se ven y que me parecen curiosas:

#1. La volatilidad es brutal (bienvenido al mundo real)

DeepSeek ganó 32% en dos días.

Bajó a +9%.

Y volvió a subir a +40%.

Todo en menos de 72 horas.

Lección: Los resultados a corto plazo no significan nada.

Esto aplica a todo: lanzas un producto, tienes un pico de tráfico el primer día, cae al siguiente, y vuelve a subir.

¿Significa que el producto es malo? No. Significa que estás en modo volatilidad pura.

Aguanta más de 3 días antes de sacar conclusiones. Mejor aún, aguanta semanas.

#2. Más actividad sigue sin significar mejores resultados

Gemini: 78 operaciones → -47%

Grok: 2 operaciones → +39%

DeepSeek: 8 operaciones → +40%

Lección: Hacer más cosas no es mejor estrategia.

A veces funciona mejor hacer menos, pero mejor pensado.

Vale más un MVP enfocado en resolver una cosa bien que uno disperso intentando hacer mil cosas a la vez.

#3. "No hacer nada" es una estrategia válida

Grok ha hecho DOS operaciones en 3 días.

Va segundo con +39% mientras otros se desploman.

Lección: No siempre tienes que estar "haciendo algo".

A veces esperar, observar, y actuar solo cuando estás seguro es mejor que estar constantemente pivotando.

(Cuántos emprendedores he visto que cambian de idea cada semana vs los que se quedan quietos trabajando en lo mismo).

#4. El modelo "más potente" está siendo el peor

GPT-5 es el modelo flagship de OpenAI.

Va último. Perdiendo 54% en 3 días.

DeepSeek es menos conocido, probablemente más pequeño.

Va primero con +40%.

Lección: Las herramientas caras y populares no siempre son las mejores para TU caso específico.

#5. Todo puede cambiar en pocas horas

Grok pasó de estar en negativo esta tarde a +39% esta noche.

Qwen pasó de -16% a +12%.

DeepSeek pasó de +9% a +40%.

Literalmente en horas, no días.

Lección: Si algo va mal ahora, puede ir bien en unas horas. Y viceversa.

No te emociones con los primeros resultados (buenos o malos). Ni siquiera con los segundos.

#Por qué esto me parece más real que otros benchmarks de IA

Normalmente los benchmarks de IA son:

  • Resuelve este problema ✅
  • Clasifica este dataset ✅
  • Escribe este texto ✅

Todo muy controlado, muy académico.

Alpha Arena es distinto porque:

  1. Hay consecuencias reales - Si pierdes, pierdes dinero de verdad
  2. El entorno cambia - Lo que funcionó ayer falla hoy
  3. No hay respuesta "correcta" - Solo resultados, buenos o malos
  4. Hay azar - Puedes hacer todo bien y perder

¿Te suena?

Es exactamente igual que lanzar un producto, una empresa, o cualquier cosa en el mundo real.

Por eso me resulta fascinante.

#¿Significa esto que la IA puede gestionar tu dinero?

Para nada.

Primero porque llevan 3 días. Eso no valida nada.

Segundo porque están en cripto con apalancamiento. El entorno más volátil y especulativo que existe.

Tercero porque incluso si DeepSeek termina ganando, puede ser pura suerte.

Lo interesante no es "qué IA es mejor para trading".

Lo interesante es ver cómo toman decisiones en un entorno real, impredecible y con consecuencias.

Eso nos enseña más sobre IA en el mundo real que cualquier paper académico.

#¿Qué va a pasar en las próximas 2 semanas?

Literalmente nadie lo sabe.

Mañana DeepSeek puede estar perdiendo.

GPT-5 puede recuperarse.

Grok puede hacer su segunda operación del mes.

O alguno puede perder todo y salir del juego.

Lo que sí sé es que voy a estar siguiéndolo.

Porque es entretenido, porque es raro, y porque cada vez que veo los resultados aprendo algo sobre cómo funcionan estos sistemas cuando no están en un entorno controlado.

#¿Y a ti qué te importa esto?

Si no te dedicas a finanzas ni a IA, probablemente poco.

Pero si alguna vez te has preguntado:

  • ¿Merece la pena usar IA en mi producto?
  • ¿Qué modelo debería usar?
  • ¿Los benchmarks importan?

Este experimento te va a dar más respuestas que cualquier documentación técnica.

Porque una cosa es leer que GPT-5 tiene X% de accuracy en tal benchmark.

Y otra muy distinta es ver a GPT-5 perdiendo 40% en 3 días mientras un modelo desconocido gana.

Actualización: Voy a seguir el experimento y probablemente escriba otro post cuando termine (3 de noviembre) para ver qué pasó al final.

Si te interesa, vuelve a pasarte por aquí.


#¿Tienes una idea y no sabes cómo arrancar?

Si estás pensando en lanzar un producto, automatizar algo en tu negocio, o simplemente tienes una idea dando vueltas en la cabeza, puedo ayudarte a darle forma.

No te voy a prometer que va a funcionar (nadie puede).

Pero sí puedo ayudarte a:

  • Definir qué construir primero (y qué dejar para después)
  • Validar si tiene sentido antes de gastar
  • Lanzar rápido para probar con usuarios reales

Escríbeme a hola@ipalseb.com o usa el formulario de contacto.

También tengo una guía gratuita: "De la idea al MVP en 8 pasos" si quieres empezar por ahí.