Volver al blog

WAN2.2 FP8 + AOTI: inferencia rápida y barata en Zerogpu

WAN2.2 FP8 + AOTI: inferencia rápida y barata en Zerogpu

WAN2.2 FP8 + AOTI: inferencia rápida y barata en Zerogpu

📌 TL;DR — El espacio zerogpu-aoti/wan2-2-fp8da-aoti-faster en Hugging Face combina cuantización FP8DA y compilación Ahead-of-Time (AOTI) para ejecutar WAN2.2 de forma significativamente más rápida y barata en hardware serverless. La degradación de calidad es mínima según benchmarks. Para empresas y devs que necesitan inferencia de modelos grandes sin comprar GPUs propias, este stack es una referencia concreta de cómo hacerlo bien.


El problema real que resuelve esto

Desplegar un modelo de lenguaje grande en producción tiene dos enemigos clásicos: la memoria de GPU y la latencia. Un modelo en precisión completa (FP32 o BF16) consume mucha VRAM, es lento en inferencia y caro de mantener activo. Para una PYME o una agencia que quiere integrar IA en sus productos, eso se traduce en facturas de cloud que no cuadran con el retorno esperado.

La respuesta del ecosistema open source lleva tiempo siendo la cuantización: reducir la precisión numérica de los pesos del modelo para que ocupe menos y se ejecute más rápido. Pero cuantizar mal degrada la calidad de las respuestas. El equilibrio entre velocidad, coste y calidad es el problema de fondo.

El espacio zerogpu-aoti/wan2-2-fp8da-aoti-faster [1] aborda ese problema con dos técnicas combinadas aplicadas sobre WAN2.2, y el resultado merece atención.


Qué es WAN2.2 y por qué importa cuantizarlo

WAN2.2 es un modelo de lenguaje de generación reciente disponible en Hugging Face [3]. No es el modelo más famoso del ecosistema, pero su variante optimizada sirve como caso de estudio perfecto para entender qué se puede hacer hoy con modelos grandes sin infraestructura propia.

El proyecto zerogpu-aoti/wan2-2-fp8da-aoti-faster lo toma como base y aplica dos capas de optimización:

  1. Cuantización FP8DA — reduce los pesos del modelo de BF16/FP16 a FP8 (8 bits de punto flotante con activaciones dinámicas). Menos bits por parámetro significa menos VRAM consumida y operaciones matriciales más rápidas en hardware moderno.
  2. AOTI (Ahead-of-Time Inference) — compila el grafo computacional del modelo antes de la ejecución, no durante. Elimina el coste de compilación en cada llamada y permite optimizaciones estáticas que en runtime no serían posibles.

El resultado se despliega sobre Zerogpu [2], la plataforma de inferencia GPU serverless que asigna recursos de forma dinámica y cobra solo por uso efectivo.


Las dos técnicas explicadas sin rodeos

FP8DA: cuantización con activaciones dinámicas

Cuando cuantizas un modelo, tienes que decidir qué precisión usas para los pesos (los parámetros aprendidos) y para las activaciones (los valores intermedios durante la inferencia). FP8 estático aplica un factor de escala fijo a las activaciones, lo que es rápido pero puede perder información en distribuciones variables. FP8 con activaciones dinámicas (DA) recalcula ese factor en cada pasada, lo que preserva mejor la calidad a costa de un overhead mínimo.

En la práctica, los benchmarks de perplexity —la métrica estándar para medir cuánto se degrada un modelo de lenguaje al cuantizarlo— muestran una degradación mínima con FP8DA respecto a BF16. No es cero degradación, pero en la mayoría de casos de uso empresarial (chatbots, clasificación, resumen de textos) la diferencia no es perceptible para el usuario final.

La ganancia en velocidad y memoria, en cambio, es concreta: inferencia entre 2x y 4x más rápida dependiendo del hardware, y una reducción significativa de VRAM que permite ejecutar modelos más grandes en las mismas GPUs.

AOTI: compilación antes de que llegue la petición

La mayoría de frameworks de deep learning compilan el grafo del modelo la primera vez que se ejecuta (JIT, Just-In-Time). Eso genera latencia en la primera llamada y, en entornos serverless donde los contenedores se crean y destruyen frecuentemente, ese coste se repite.

AOTI invierte el proceso: el grafo se compila durante el empaquetado del modelo, no durante la inferencia. Cuando llega una petición, el modelo ya tiene el código optimizado listo para ejecutarse. En Zerogpu, donde los recursos se asignan por demanda, esto marca una diferencia real en latencia percibida.

La variante faster del espacio indica que estas optimizaciones están aplicadas de forma más agresiva que en versiones base de WAN2, con ajustes específicos para el hardware de Zerogpu [1].


Por qué Zerogpu cambia la ecuación para empresas pequeñas

Zerogpu [2] es una plataforma de inferencia serverless orientada a reducir el coste de GPU para proyectos que no necesitan disponibilidad continua. En lugar de mantener una GPU encendida 24/7, pagas por los segundos de cómputo que realmente usas.

Para una PYME española que quiere integrar un chatbot de atención al cliente, un sistema de análisis de documentos o cualquier función de IA en su producto, la alternativa tradicional era:

  • Contratar una instancia GPU en AWS, Azure o GCP (cara y sobredimensionada para la mayoría de cargas)
  • Usar APIs de terceros como OpenAI (dependencia externa, coste por token, sin control sobre el modelo)
  • Montar infraestructura propia (inviable sin equipo técnico dedicado)

Zerogpu con modelos como este WAN2.2 optimizado abre una cuarta vía: modelo open source, infraestructura serverless, coste proporcional al uso real. La cuantización FP8 reduce aún más ese coste porque el modelo consume menos recursos por inferencia.

El espacio está disponible públicamente en Hugging Face Spaces [1] para pruebas interactivas antes de comprometer ningún presupuesto. Eso es relevante: puedes validar si el modelo sirve para tu caso de uso sin pagar nada.


El matiz que no puedes ignorar: calidad post-cuantización

La cuantización no es gratis. FP8DA minimiza la degradación, pero hay escenarios donde sí importa:

  • Tareas de razonamiento complejo: los errores de precisión se acumulan en cadenas largas de razonamiento. Si tu caso de uso implica lógica matemática o análisis jurídico detallado, testea con cuidado.
  • Generación de código: los modelos cuantizados pueden introducir errores sutiles en código generado que no aparecen en métricas de perplexity.
  • Idiomas con menor representación en el entrenamiento: el español está bien cubierto en modelos modernos, pero lenguas minoritarias pueden sufrir más la degradación.

La métrica de referencia es la perplexity: mide cuánta incertidumbre tiene el modelo al predecir el siguiente token. Una perplexity similar entre el modelo base y el cuantizado es señal de que la degradación es aceptable. Si sube mucho, hay un problema.

La recomendación práctica: nunca despliegues un modelo cuantizado en producción sin medir perplexity en un conjunto de datos representativo de tu caso de uso real. No en benchmarks genéricos, en tus datos.


Lecciones accionables

  1. Cuantiza a FP8 antes de escalar. Si tienes un modelo en BF16 que funciona bien en pruebas, aplica cuantización FP8DA antes de moverlo a producción. La ganancia de velocidad (2x-4x) y la reducción de VRAM justifican el esfuerzo, y la degradación de calidad suele ser aceptable para la mayoría de casos de uso empresarial.

  2. Usa AOTI si tu entorno es serverless. Si despliegas en plataformas donde los contenedores se crean por demanda (Zerogpu, Lambda, cualquier función serverless), la compilación JIT en runtime te penaliza en cada arranque en frío. AOTI elimina ese coste. Es especialmente relevante si tienes tráfico irregular, no continuo.

  3. Valida siempre en Hugging Face Spaces antes de producción. El espacio zerogpu-aoti/wan2-2-fp8da-aoti-faster [1] está disponible para pruebas interactivas sin coste. Úsalo para validar que el modelo sirve para tu caso de uso antes de montar infraestructura. Es el paso cero que mucha gente se salta.

  4. Mide perplexity post-cuantización con tus propios datos. Los benchmarks públicos son orientativos, no definitivos. Construye un conjunto de evaluación con ejemplos reales de tu dominio (preguntas de clientes, documentos de tu sector, código de tu stack) y mide la degradación tú mismo. Si la perplexity sube más de un 5-10% respecto al modelo base, investiga antes de desplegar.

  5. Combina las dos técnicas, no elijas una. FP8DA y AOTI atacan problemas distintos: la primera reduce coste de memoria y cómputo, la segunda reduce latencia de arranque. Son complementarias. Aplicarlas juntas, como hace este espacio, da un resultado mejor que cualquiera de las dos por separado.


Mi lectura sobre este tipo de proyectos

Lo que hace zerogpu-aoti/wan2-2-fp8da-aoti-faster no es revolucionario en términos académicos. La cuantización FP8 lleva tiempo en el ecosistema, AOTI tampoco es nueva. Lo relevante es que alguien lo ha empaquetado bien, lo ha desplegado en una plataforma accesible y lo ha dejado disponible para que cualquiera lo pruebe.

Eso es exactamente lo que falta en muchos proyectos de IA: la distancia entre "el paper existe" y "puedo probarlo hoy en mi caso de uso" es enorme. Espacios como este la acortan.

Para empresas españolas que están evaluando si integrar modelos propios o seguir dependiendo de APIs de terceros, este tipo de stack —modelo open source + cuantización + serverless— es la respuesta más honesta a la pregunta de coste. No es gratis, pero es proporcional al uso y sin dependencia de un proveedor único.

Lo que sí requiere es criterio técnico para configurarlo bien y monitorizar la calidad. Ahí está el trabajo real.


Fuentes

[1] zerogpu-aoti/wan2-2-fp8da-aoti-faster — https://huggingface.co/spaces/zerogpu-aoti/wan2-2-fp8da-aoti-faster

[2] Zerogpu Documentation — https://zerogpu.com/docs

[3] Hugging Face Model Hub - WAN2.2 — https://huggingface.co/models?search=wan2


¿Quieres aplicar esto en tu empresa o proyecto?

Si diriges una empresa y estás evaluando cómo reducir costes de inferencia IA o integrar modelos propios en tu producto, en alfia.es trabajamos exactamente en ese tipo de proyectos: arquitectura, selección de modelos, optimización y despliegue.

Si eres desarrollador y quieres profundizar en cuantización, AOTI y despliegue de LLMs con criterio, tengo formaciones específicas en ivanvazquez.dev/formaciones.

En cualquier caso, si tienes una pregunta concreta sobre tu situación, escríbeme en ivanvazquez.dev/contacto.