Volver al blog

TRELLIS.2: genera activos 3D de alta calidad con IA, gratis y sin ataduras

TRELLIS.2: genera activos 3D de alta calidad con IA, gratis y sin ataduras

TRELLIS.2: genera activos 3D de alta calidad con IA, gratis y sin ataduras

📌 TL;DR: Microsoft ha publicado TRELLIS.2, un modelo open-source de 4B parámetros capaz de generar activos 3D texturizados de alta resolución a partir de texto o imágenes. Funciona con una representación latente estructurada propia (O-Voxel + SLAT) y exporta a múltiples formatos: mallas, campos de radiancia y Gaussians 3D. Es gratuito, está disponible en Hugging Face y GitHub, y supera en calidad a los métodos anteriores en benchmarks públicos. Para empresas y desarrolladores que trabajan con contenido 3D, esto cambia el cálculo de costes y tiempos de producción.


Qué es TRELLIS.2 y por qué no es un modelo más

El ecosistema de generación 3D con IA lleva años prometiendo más de lo que entrega. Modelos que generan geometría rota, texturas planas, formatos incompatibles con los pipelines reales. TRELLIS.2 llega con una propuesta técnica diferente y, lo más importante, con resultados que se pueden verificar directamente en un demo público.

Microsoft Research ha publicado TRELLIS.2 como evolución de su modelo TRELLIS original [1]. El salto no es solo de versión: la arquitectura cambia de forma sustancial para resolver los problemas concretos que hacían poco prácticos a los modelos anteriores.

El modelo tiene 4.000 millones de parámetros y utiliza DiTs vanilla (Diffusion Transformers) como backbone [1]. Acepta tanto texto como imagen como entrada, y genera activos 3D texturizados que se pueden exportar en los formatos que realmente usa la industria: mallas poligonales, campos de radiancia neural (NeRF-style) y Gaussians 3D [1].

Eso último importa. No es un modelo que genera un objeto bonito en un formato propietario. Genera geometría utilizable en Unity, Unreal, Blender o cualquier pipeline AR/VR.


La arquitectura: O-Voxel y SLAT explicados sin rodeos

El núcleo técnico de TRELLIS.2 son dos conceptos que vale la pena entender aunque no seas investigador.

O-Voxel: la representación que lo hace posible

Un problema clásico en generación 3D es cómo representar la geometría de forma que un modelo de difusión pueda trabajar con ella de manera eficiente. Las mallas poligonales son irregulares. Los voxels densos consumen demasiada memoria. TRELLIS.2 usa O-Voxel: una representación voxelizada sparse (dispersa) que solo codifica las zonas donde hay geometría real [1].

La clave está en la conversión bidireccional instantánea entre mallas y O-Voxel [1]. Puedes entrar con una malla existente, convertirla a O-Voxel, editarla con el modelo, y volver a malla. Sin pérdida de información relevante, sin reconstrucción desde cero.

SLAT: el espacio latente estructurado

SLAT (Structured LATents) es el espacio latente en el que opera el modelo de difusión [2]. En lugar de comprimir toda la escena 3D en un vector latente denso (como hacen muchos modelos), SLAT mantiene la estructura espacial de los O-Voxels. Esto permite que el modelo aprenda relaciones geométricas locales con mucha más precisión.

El resultado práctico: mejor detalle en superficies complejas, mejor coherencia entre geometría y textura, y la capacidad de hacer edición local 3D sin rehacer todo el objeto [1].

La codificación VAE sparse sobre O-Voxels [1] es lo que hace que un modelo de 4B parámetros pueda trabajar con resoluciones altas sin explotar en memoria.


Text-to-3D vs Image-to-3D: el matiz que más importa en la práctica

TRELLIS.2 acepta texto e imagen como entrada, pero hay un matiz importante que la propia documentación señala [1]: los modelos condicionados por texto tienden a ser menos creativos y precisos que los condicionados por imagen.

Esto no es un defecto exclusivo de TRELLIS.2. Es una limitación estructural del text-to-3D en general: el texto es ambiguo, la imagen no lo es. Cuando describes "una silla de madera estilo escandinavo", el modelo tiene que resolver demasiadas ambigüedades. Cuando le das una imagen de referencia, el espacio de soluciones se reduce drásticamente.

La recomendación del equipo de Microsoft es usar un flujo híbrido [1]:

  1. Genera la imagen de referencia con un modelo text-to-image (Midjourney, DALL-E, Flux, el que uses).
  2. Usa esa imagen como entrada en TRELLIS.2.
  3. Obtienes el activo 3D con mucho mayor control sobre el resultado.

Este flujo en dos pasos es más laborioso pero produce resultados notablemente mejores. Si estás evaluando TRELLIS.2 para producción, prueba primero con imagen, no con texto.


Por qué importa para empresas españolas

Hablo de empresas en gaming, diseño industrial, ecommerce con visualización 3D, o cualquier negocio que esté explorando AR/VR.

El coste de producción de activos 3D de calidad es alto. Un modelador 3D senior en España cobra entre 2.500 y 4.000 euros al mes. Una empresa de outsourcing 3D puede cobrar entre 200 y 800 euros por activo dependiendo de la complejidad. Para una empresa que necesita decenas o cientos de activos, eso es un cuello de botella real.

TRELLIS.2 no elimina al modelador 3D. Pero sí cambia su rol: en lugar de modelar desde cero, puede usar el modelo para generar una base de alta calidad y dedicar su tiempo a ajuste fino, animación y optimización para el motor destino. El ahorro en tiempo de iteración es significativo.

Para prototipado, el impacto es inmediato. Puedes generar 20 variantes de un producto en una tarde, presentarlas a un cliente, y solo entonces invertir en el modelado definitivo del que se apruebe.

Además, al ser open-source y ejecutable de forma local [2], no hay dependencia de una API externa que pueda cambiar precios o condiciones. Eso importa cuando construyes un pipeline de producción sobre él.


Por qué importa para desarrolladores

Desde el punto de vista técnico, TRELLIS.2 resuelve varios problemas que hacían difícil integrar generación 3D en pipelines reales.

Formatos de salida múltiples y estándar. El modelo no te da un formato propietario. Da mallas, NeRFs o Gaussians 3D [1]. Puedes elegir el que mejor encaje con tu pipeline sin conversiones intermedias.

Edición local 3D. Gracias a la arquitectura O-Voxel + SLAT, puedes editar partes específicas de un objeto generado sin regenerarlo completo [1]. Esto es crítico en producción: si el cuerpo de un personaje está bien pero el calzado no, no tienes que volver a empezar.

Open-source real. El código está en GitHub [2], con licencia que permite customización y fine-tuning. Puedes entrenar sobre tus propios datos de producto si tienes un caso de uso específico.

Integración con NVIDIA NIM. Para quienes tienen hardware RTX, NVIDIA ha integrado TRELLIS en su plataforma NIM [5], lo que permite inferencia optimizada con aceleración de hardware sin configuración manual de CUDA. Relevante si vas a desplegar esto en producción con volumen.


Comparación con el estado del arte

El paper de Microsoft Research [3] documenta que TRELLIS.2 supera a los métodos state-of-the-art anteriores en calidad visual, nivel de detalle y capacidad de edición local 3D.

No voy a reproducir las tablas de benchmarks aquí porque los números sin contexto no dicen mucho. Lo que sí puedo decir es que la demo pública en Hugging Face [4] permite comprobarlo directamente con tus propios inputs. Eso vale más que cualquier benchmark: pruébalo con un caso de uso real tuyo y evalúa tú mismo si el resultado es suficientemente bueno para tu workflow.

Lo que sí es objetivamente diferenciador respecto a modelos anteriores es la edición local. La mayoría de modelos de generación 3D son de una sola pasada: generas y aceptas o rechazas. La capacidad de editar localmente sin regenerar es un cambio cualitativo para uso profesional.


Lecciones accionables

  1. Prueba el demo antes de invertir tiempo en integración. El espacio en Hugging Face [4] está disponible sin registro. Sube una imagen de un producto o activo relevante para tu negocio y evalúa la calidad del resultado. Cinco minutos de prueba valen más que cualquier análisis teórico.

  2. Usa el flujo text-to-image + TRELLIS.2, no text-to-3D directo. Si tu caso de uso parte de descripciones textuales, genera primero la imagen de referencia con el modelo que ya uses y luego pásala a TRELLIS.2. La diferencia de calidad es notable.

  3. Clona el repositorio de GitHub para customización real. El repo [2] incluye instrucciones de instalación y ejemplos. Si tienes un dataset de activos propios (productos, personajes, elementos de diseño), el fine-tuning sobre datos específicos puede mejorar significativamente los resultados para tu dominio concreto.

  4. Evalúa NVIDIA NIM si tienes hardware RTX en producción. La integración en NIM [5] reduce la fricción de despliegue y optimiza la inferencia. Si vas a procesar volumen, la diferencia en tiempo y coste de cómputo puede ser relevante.

  5. Usa la edición local para iterar, no para regenerar. La arquitectura O-Voxel permite modificar partes específicas de un activo generado [1]. Diseña tu workflow para aprovechar esto: genera una base, valida la estructura general, y refina localmente en lugar de hacer ciclos completos de regeneración.


Mi valoración

TRELLIS.2 es uno de los lanzamientos más sólidos en generación 3D de los últimos meses. No porque sea perfecto, sino porque resuelve problemas reales de producción: formatos estándar, edición local, open-source sin restricciones de uso comercial.

El matiz del flujo híbrido text-to-image + image-to-3D es importante y honesto por parte del equipo de Microsoft. No intentan vender que el text-to-3D directo funciona igual de bien. Eso da credibilidad al resto de las afirmaciones.

Para empresas que ya trabajan con contenido 3D, el caso de uso más inmediato es prototipado y generación de variantes. Para desarrolladores que construyen aplicaciones AR/VR o gaming, la integración en pipelines existentes es viable sin romper lo que ya funciona.

Lo que no va a hacer TRELLIS.2 es reemplazar a un artista 3D senior en producción de alta gama. Pero tampoco es eso lo que promete. Promete democratizar la generación de activos 3D de calidad suficiente para la mayoría de casos de uso reales. Y en eso, cumple.


Fuentes

[1] TRELLIS.2: Native and Compact Structured Latents for 3D Generation — https://microsoft.github.io/TRELLIS.2/

[2] GitHub - microsoft/TRELLIS — https://github.com/microsoft/TRELLIS

[3] Microsoft Research: Structured 3D Latents for Scalable and Versatile 3D Generation — https://www.microsoft.com/en-us/research/publication/structured-3d-latents-for-scalable-and-versatile-3d-generation/

[4] Hugging Face Space: microsoft/TRELLIS.2 — https://huggingface.co/spaces/microsoft/TRELLIS.2

[5] NVIDIA NIM: TRELLIS Model by Microsoft — https://build.nvidia.com/microsoft/trellis


Si estás evaluando integrar generación 3D en el pipeline de tu empresa o en una aplicación que estás desarrollando, puedo ayudarte a valorar si TRELLIS.2 encaja con tu caso de uso concreto. Escríbeme en /contacto. Si tu negocio necesita un desarrollo a medida con IA, el equipo de alfia.es puede encargarse del proyecto completo.