Volver al blog

ZAYA1-8B: razonamiento avanzado con menos de 1B parámetros activos

ZAYA1-8B: razonamiento avanzado con menos de 1B parámetros activos

ZAYA1-8B: razonamiento avanzado con menos de 1B parámetros activos

📌 TL;DR — Zyphra ha publicado ZAYA1-8B, un modelo de razonamiento open-weight con arquitectura Mixture-of-Experts que activa solo ~760M parámetros por inferencia a pesar de tener 8,4B en total. En benchmarks de matemáticas y programación iguala o supera a modelos abiertos mucho más grandes como DeepSeek-R1-0528, y lo hace entrenado íntegramente sobre hardware AMD, no NVIDIA. Los resultados más espectaculares requieren configuraciones de test-time compute intensivas, así que hay que leer los números con cabeza. Pero la dirección que señala este modelo —más rendimiento por parámetro activo, despliegue eficiente, hardware diversificado— es exactamente hacia donde va el sector.


El problema que ZAYA1-8B intenta resolver

Durante los últimos dos años el discurso dominante en IA ha sido: más parámetros, más datos, más cómputo. GPT-4, Claude 3 Opus, Gemini Ultra. Modelos que requieren infraestructura de centros de datos para funcionar y APIs cerradas para acceder a ellos.

Eso crea una dependencia real para cualquier empresa o desarrollador que quiera construir sobre IA: dependencia de proveedores concretos, de precios que cambian sin previo aviso, de políticas de uso que pueden variar, y de latencias que no controlas.

La pregunta que lleva tiempo rondando el sector es si es posible obtener capacidades de razonamiento serias —matemáticas, código, lógica estructurada— con modelos lo suficientemente pequeños como para desplegarlos en tu propia infraestructura, o incluso en dispositivos locales.

ZYA1-8B de Zyphra es una respuesta concreta a esa pregunta. No perfecta, no universal, pero concreta.


Qué es exactamente ZAYA1-8B

ZYA1-8B es un modelo de lenguaje con arquitectura Mixture-of-Experts (MoE), disponible como modelo de pesos abiertos en Hugging Face [1]. Tiene aproximadamente 8–8,4 mil millones de parámetros totales, pero en cada inferencia solo activa alrededor de 700–760 millones [2].

Esa distinción importa. En un modelo denso tradicional, todos los parámetros participan en cada token que generas. En un MoE, el modelo aprende a enrutar cada token hacia un subconjunto de "expertos" especializados. El resultado: coste computacional de inferencia equivalente a un modelo de ~760M parámetros, con capacidad expresiva potencialmente mucho mayor.

No es un concepto nuevo —Mixtral lo popularizó en 2023— pero ZAYA1-8B lo lleva más lejos con una arquitectura propia que Zyphra llama MoE++.

La arquitectura MoE++ y el KV-cache comprimido

Uno de los cuellos de botella en modelos de lenguaje para contextos largos es el KV-cache: la memoria que el modelo necesita para almacenar las representaciones de los tokens anteriores. Crece linealmente con la longitud del contexto y puede volverse prohibitivo.

ZYA1-8B introduce Compressed Convolutional Attention (CCA), un mecanismo que reduce el tamaño del KV-cache aproximadamente 8 veces respecto a la atención estándar [2]. En la práctica, esto significa que puedes manejar contextos más largos con la misma memoria, o el mismo contexto con mucho menos memoria. Para despliegues en hardware modesto, eso es relevante.


Cómo se entrenó: AMD de principio a fin

El detalle que más ha llamado la atención en la comunidad técnica no es solo el rendimiento del modelo, sino dónde y cómo se entrenó.

ZYA1-8B se entrenó de extremo a extremo sobre una pila completa AMD: GPUs Instinct MI300X, red Pensando Pollara e infraestructura IBM Cloud [3]. Sin NVIDIA. Sin CUDA.

Esto no es trivial. El ecosistema de software de IA lleva años optimizado para CUDA, y migrar workloads de entrenamiento serios a ROCm (el stack de AMD) ha sido históricamente doloroso. Que Zyphra haya completado el entrenamiento de un modelo competitivo sobre hardware AMD es una señal de que esa brecha se está cerrando.

Para empresas y equipos que buscan diversificar su dependencia tecnológica —o que simplemente quieren acceder a hardware AMD que puede ser más disponible o económico en ciertos mercados— esto tiene implicaciones directas.

El pipeline de entrenamiento: razonamiento desde el principio

La mayoría de los modelos de razonamiento actuales aprenden a razonar en el post-entrenamiento: primero pretraining masivo sobre texto general, luego fine-tuning con ejemplos de razonamiento. ZAYA1-8B integra datos de razonamiento desde el pretraining [2].

El problema con las cadenas de pensamiento largas (chain-of-thought) durante el pretraining es que pueden desbordar la ventana de contexto del modelo. Zyphra resuelve esto con Answer-Preserving Trimming: un esquema que recorta las cadenas de pensamiento largas pero siempre preserva la respuesta final, garantizando que el modelo aprende la señal correcta sin perder el contexto de entrenamiento.

El post-entrenamiento añade una cascada de cuatro etapas de Reinforcement Learning [2]:

  1. Razonamiento warmup: inicialización del comportamiento de razonamiento base.
  2. Currículo RLVE-Gym: 400 tareas progresivas para desarrollar capacidades de forma estructurada.
  3. RL en matemáticas y código: con entornos sintéticos y compute a test-time para tareas de alta dificultad.
  4. RL de comportamiento: para chat e instrucciones, puliendo la utilidad general del modelo.

Este nivel de detalle en el pipeline de RL es inusual para un modelo de este tamaño y es probablemente donde reside buena parte de la ganancia de rendimiento.


Los benchmarks: qué dicen y qué no dicen

ZYA1-8B reporta resultados competitivos en AIME '25, HMMT '25 (matemáticas de competición) y LiveCodeBench (programación), igualando o superando a modelos como DeepSeek-R1-0528 en configuraciones específicas [4][6].

Antes de dejarse llevar por esos números, hay que leer la letra pequeña.

Lo que los benchmarks muestran: bajo configuraciones de test-time compute extendido —concretamente usando Markovian RSA, la técnica propia de Zyphra para generar múltiples trazas de razonamiento en paralelo con chunking de contexto de longitud fija [2]— el modelo alcanza rendimiento comparable al de modelos abiertos mucho mayores en matemáticas y código.

Lo que los benchmarks no muestran: rendimiento generalista. Estos resultados se concentran en dominios donde el razonamiento estructurado y verificable es la métrica principal. No hay evidencia comparable en comprensión de texto general, tareas creativas, o dominios donde la evaluación es más subjetiva.

La comparación justa es difícil: cuando ZAYA1-8B usa Markovian RSA con múltiples rollouts, el coste computacional de inferencia aumenta significativamente. Comparar eso con un modelo mayor en modo estándar no es una comparación de igual a igual. El coste total puede ser similar o mayor.

La discusión en Hacker News sobre este modelo recoge exactamente este matiz: los números son reales, pero el contexto de evaluación importa tanto como el número en sí [5].

Dicho esto, incluso con esa matización, que un modelo con menos de 1B parámetros activos se acerque a modelos de 70B+ en razonamiento matemático bajo cualquier configuración es un resultado técnicamente significativo.


Markovian RSA: test-time compute sin memoria infinita

Merece un párrafo aparte porque es una de las contribuciones técnicas más interesantes del paper.

Las estrategias de test-time compute —generar múltiples respuestas y seleccionar la mejor, o extender la cadena de razonamiento— tienen un problema: el coste de memoria crece con la longitud del contexto. Para razonamiento muy largo, eso puede hacerse inmanejable.

Markovian RSA resuelve esto con chunking de contexto de longitud fija y generación paralela de trazas [2]. En lugar de mantener un contexto que crece indefinidamente, el modelo procesa el razonamiento en bloques de tamaño fijo, lo que mantiene el coste de memoria acotado independientemente de cuánto razone. El resultado teórico: razonamiento "ilimitado" con memoria controlada.

Esto tiene implicaciones prácticas para cualquier aplicación donde necesites que el modelo trabaje problemas complejos en múltiples pasos sin que el coste de memoria se dispare.


Lecciones accionables

1. Evalúa modelos pequeños de alta densidad de inteligencia antes de escalar

El instinto habitual cuando un modelo no es suficientemente bueno es buscar uno más grande. ZAYA1-8B es un recordatorio de que el tamaño en parámetros totales no es la métrica correcta. Lo que importa es el rendimiento por parámetro activo en tu tarea específica. Antes de pagar por APIs de modelos de 70B o más, vale la pena testear modelos MoE compactos en tu caso de uso concreto.

2. Considera hardware AMD como opción real para entrenamiento y servicio

El entrenamiento completo de ZAYA1-8B sobre MI300X demuestra que ROCm ha madurado lo suficiente para workloads serios [3]. Si estás evaluando infraestructura para fine-tuning o servicio de modelos, incluir AMD en la comparación ya no es una apuesta arriesgada. Puede ser más económico o más disponible dependiendo de tu proveedor cloud.

3. Integra razonamiento desde el pretraining, no solo en el fine-tuning

Si estás construyendo un modelo especializado para un dominio técnico —legal, financiero, ingeniería— la arquitectura de entrenamiento de ZAYA1-8B sugiere que incluir datos de razonamiento desde el principio, con técnicas como Answer-Preserving Trimming para manejar contextos largos, produce mejores resultados que añadir razonamiento solo en el ajuste posterior [2].

4. Usa test-time compute para tareas críticas donde el coste se justifica

No todas las inferencias necesitan el mismo presupuesto computacional. Para tareas de alto valor —generar código de producción, resolver problemas matemáticos complejos, análisis estructurado— estrategias como múltiples rollouts, auto-consistencia o Markovian RSA pueden mejorar significativamente la calidad a cambio de más cómputo en inferencia. Diseña tus pipelines para poder activar o desactivar este coste según la tarea.

5. Para privacidad y baja latencia, los modelos MoE compactos abren opciones reales

Si tu aplicación maneja datos sensibles o necesita latencia predecible sin depender de APIs externas, ZAYA1-8B es un candidato concreto para evaluar en despliegue on-premise o incluso on-device [4]. Con ~760M parámetros activos, los requisitos de hardware son manejables en servidores modestos. El modelo está disponible en Hugging Face [1], así que puedes empezar a experimentar sin fricción.


Por qué esto importa más allá del benchmark

ZYA1-8B no es el modelo más capaz del mercado. No lo pretende. Lo que representa es una dirección: que la carrera de la IA no va solo hacia modelos más grandes, sino también hacia modelos más eficientes que hagan más con menos.

Para una PYME española que quiere automatizar análisis técnicos, generación de código o resolución de problemas estructurados sin depender de OpenAI o Anthropic, un modelo como este —abierto, eficiente, desplegable en hardware diverso— es exactamente el tipo de herramienta que cambia el cálculo de viabilidad.

Para un desarrollador que quiere experimentar con agentes, fine-tuning de dominio o estrategias de razonamiento avanzadas, tener acceso a un modelo de este perfil en Hugging Face, sin coste de API, es una oportunidad concreta.

El hype alrededor de los benchmarks pasará. La tendencia hacia modelos más eficientes y desplegables, no.


¿Qué hacer con esto?

Si estás construyendo un producto o automatización que depende de capacidades de razonamiento —análisis técnico, generación de código, resolución de problemas estructurados— y quieres evaluar si tiene sentido alejarte de las APIs cerradas hacia modelos propios o semi-propios, es el momento de hacer esa evaluación con rigor.

En alfia.es trabajamos con empresas que quieren implementar IA de forma práctica y con criterio, incluyendo la selección de modelos y arquitecturas de despliegue adecuadas a su caso. Si tu empresa está en ese punto, hablamos.

Si eres desarrollador y quieres entender en profundidad cómo funcionan estas arquitecturas MoE, los pipelines de RL y las estrategias de test-time compute para aplicarlas en tus proyectos, en ivanvazquez.dev/formaciones encontrarás el contexto técnico que necesitas.

Y si tienes una pregunta concreta sobre si ZAYA1-8B u otro modelo tiene sentido para tu caso, puedes escribirme directamente desde /contacto.


Fuentes

  1. Zyphra/ZAYA1-8B — Hugging Face: https://huggingface.co/Zyphra/ZAYA1-8B
  2. ZAYA1-8B Technical Report — arXiv: https://arxiv.org/abs/2605.05365
  3. Zyphra Releases ZAYA1-8B — PR Newswire: https://www.prnewswire.com/news-releases/zyphra-releases-zaya1-8b-a-reasoning-model-trained-on-amd-and-optimized-for-maximum-intelligence-density-per-parameter-302764700.html
  4. Meet ZAYA1-8B, a super efficient, open reasoning model trained on AMD Instinct MI300 GPUs — VentureBeat: https://venturebeat.com/technology/meet-zaya1-8b-a-super-efficient-open-reasoning-model-trained-on-amd-instinct-mi300-gpus
  5. ZAYA1-8B matches DeepSeek-R1 on math with less than 1B active parameters — Hacker News: https://news.ycombinator.com/item?id=48047082
  6. ZAYA1–8B Just Changed the AI Scaling Debate — GoPenAI Blog: https://blog.gopenai.com/zaya1-8b-just-changed-the-ai-scaling-debate-363948a06f2a