Modelos LLM 'uncensored': qué son, por qué existen y qué riesgos implican

Por Iván Vázquez Caballero • 25 de mayo de 2026 •9 min lectura

Modelos LLM 'uncensored': qué son, por qué existen y qué riesgos implican

📌 TL;DR HauhauCS ha publicado en Hugging Face una variante del modelo Qwen3.6-35B-A3B con los mecanismos de rechazo prácticamente eliminados, declarando 0 rechazos en 465 pruebas internas. El modelo es técnicamente capaz —MoE de 35B parámetros, contexto de 262k tokens, capacidades multimodales— pero su propósito explícito es no negarse a responder. Para empresas y desarrolladores esto no es una curiosidad: es una señal de que el ecosistema open-source produce herramientas que, mal integradas, pueden generar riesgos regulatorios, reputacionales y legales serios. Entender qué hay detrás y cómo gestionarlo es parte del trabajo de quien usa IA en producción.

Qué es exactamente este modelo

Qwen3.6-35B-A3B es un modelo base desarrollado por Alibaba Cloud. Su arquitectura es Mixture-of-Experts (MoE): tiene 35 mil millones de parámetros en total, pero solo activa aproximadamente 3 mil millones por cada paso de inferencia. Dispone de 256 expertos, con 8 enrutados por token, 40 capas y un contexto nativo de hasta 262.144 tokens —más de 200.000 palabras— [1]. Es un modelo técnicamente serio, con capacidades multimodales que cubren texto, imagen y vídeo.

HauhauCS ha tomado ese modelo base y ha publicado una variante bajo el nombre Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive. La tarjeta del modelo en Hugging Face es explícita: se presenta como «fully unlocked» y declara que «won't refuse prompts» [1]. El autor afirma que no hay cambios en los datos de entrenamiento ni en las capacidades del modelo, solo en la lógica de rechazos. La frase exacta de la tarjeta es que representa «100% of what the original authors intended - just without the refusals» [1].

El resultado declarado: 0 rechazos en 465 pruebas internas [1].

Cómo se construye un modelo «uncensored»

Para los desarrolladores que quieran entender el mecanismo: los modelos de lenguaje no tienen un interruptor único de censura. Los rechazos son comportamientos aprendidos durante el fine-tuning de alineación (RLHF, DPO u otras técnicas). Para eliminarlos, los forks «uncensored» suelen aplicar fine-tuning adicional sobre datasets que incluyen respuestas a peticiones que el modelo original rechazaría, o bien utilizan técnicas de abliteration que modifican los vectores de activación asociados a los comportamientos de rechazo.

El resultado es un modelo que mantiene las capacidades base —en este caso, toda la potencia del Qwen3.6-35B-A3B— pero sin el capa de comportamiento que le indica cuándo no responder.

Por qué existe demanda de esto

HauhauCS no es un caso aislado. Es un publicador con presencia consolidada en Hugging Face, con millones de descargas mensuales acumuladas en distintos modelos de la familia «Uncensored Aggressive» [4]. Modelos previos como el Qwen3.5-9B-Uncensored-HauhauCS-Aggressive ya se posicionaban explícitamente como versiones sin filtros orientadas a eludir sistemas de moderación, con soporte para múltiples idiomas [5].

La demanda existe por razones variadas y no todas son maliciosas:

Investigadores de seguridad que necesitan que un modelo genere contenido problemático para entrenar sistemas de detección.
Desarrolladores que trabajan en entornos controlados donde los rechazos del modelo base interrumpen flujos legítimos —por ejemplo, análisis de contenido sensible, moderación, generación de ficción adulta en plataformas con verificación de edad.
Usuarios que simplemente encuentran frustrante que un modelo rechace preguntas legítimas por exceso de cautela del sistema de alineación.

Y también, inevitablemente, quienes buscan usar el modelo para generar contenido ilegal, dañino o no ético sin obstáculos.

Ese es el problema central: la herramienta no distingue entre casos de uso. Un modelo con 0 rechazos no evalúa el contexto ni la intención.

La controversia que rodea a HauhauCS

Más allá del debate genérico sobre modelos sin filtros, HauhauCS ha sido objeto de polémica específica en la comunidad open-source por acusaciones de uso indebido de código en herramientas relacionadas con sus publicaciones [1][4]. Esto añade una capa de complejidad que va más allá de la ética del «uncensoring»: toca directamente las prácticas de licencia y la gobernanza del ecosistema.

Para cualquier empresa o desarrollador que considere integrar modelos de este tipo, esta controversia es una señal de alerta concreta: si hay dudas sobre la procedencia del código o el respeto a las licencias de los modelos base, integrar ese trabajo en un producto comercial puede generar problemas legales independientes del debate sobre seguridad.

El modelo base Qwen3.6-35B-A3B tiene su propia licencia. Cualquier fork debe respetar sus términos. Verificar eso antes de integrar es trabajo del equipo legal y técnico, no algo que se puede asumir.

Qué implica esto para una empresa

Si diriges una PYME, una agencia o un ecommerce y estás explorando el uso de modelos de lenguaje, este caso ilustra algo que conviene entender bien.

El atractivo es real

Un modelo MoE de 35B parámetros con contexto de 262k tokens y capacidades multimodales, ejecutable localmente, es técnicamente potente. Para casos de uso internos —análisis de documentos, generación de contenido, automatización de procesos— un modelo de este calibre puede ser muy relevante. Y el hecho de que active solo ~3B parámetros por paso lo hace más eficiente en inferencia de lo que sugiere el número total de parámetros.

El riesgo regulatorio es concreto

Europa tiene ya un marco normativo activo. El AI Act clasifica los sistemas de IA por nivel de riesgo. El GDPR aplica a cualquier procesamiento de datos personales. El DSA afecta a plataformas digitales. Usar o desplegar un modelo que deliberadamente elimina mecanismos de seguridad —y que puede generar contenido ilegal o dañino sin restricción— puede situar a una empresa en una posición de incumplimiento normativo, especialmente si ese modelo interactúa con usuarios finales.

No es un riesgo teórico. Es el tipo de decisión que, si sale mal, llega al departamento legal y al consejo de administración.

El riesgo reputacional es inmediato

Si un modelo sin filtros desplegado en un producto genera contenido inapropiado —y lo hará, porque está diseñado para no negarse— el daño reputacional es inmediato y difícil de revertir. Para una marca B2B, donde la confianza es el activo central, ese riesgo no es aceptable sin controles muy específicos.

Qué implica esto para un desarrollador

Desde el punto de vista técnico, los modelos «uncensored» tienen casos de uso legítimos en entornos controlados. Pero integrarlos en un stack de producción requiere una serie de decisiones que no se pueden ignorar.

El modelo está disponible en formatos compatibles con llama.cpp y GGUF, lo que facilita su ejecución local. Eso elimina el problema de enviar datos a una API externa, pero no elimina los riesgos de lo que el modelo puede generar.

La pregunta técnica relevante no es «¿puedo ejecutar este modelo?» —la respuesta es sí, con hardware adecuado— sino «¿necesito realmente eliminar los rechazos, o necesito ajustar mejor mis instrucciones y mi fine-tuning?».

En la mayoría de los casos de uso legítimos, la respuesta es la segunda opción.

Cinco lecciones accionables

No despliegues modelos «uncensored» expuestos a usuarios finales sin una capa propia de moderación. Si el modelo no filtra, tú tienes que filtrar. Eso implica logging de todas las interacciones, sistemas de detección de contenido problemático y mecanismos de bloqueo antes de que la respuesta llegue al usuario. No es opcional si hay usuarios finales en el circuito.
Separa entornos de experimentación y producción con políticas explícitas. Un modelo sin salvaguardas puede tener valor en un entorno de investigación interno, aislado, con acceso restringido. Ese mismo modelo en producción es un riesgo diferente. Documenta esa separación y aplica políticas de acceso distintas para cada entorno.
Revisa licencias y procedencia antes de integrar cualquier fork en un producto comercial. Cuando hay controversias activas en la comunidad sobre el uso de código —como ocurre con HauhauCS [1][4]— la diligencia debida es obligatoria. El equipo legal necesita revisar la cadena de licencias, no solo el README del repositorio.
Evalúa si realmente necesitas eliminar los rechazos o si el problema está en otro sitio. En la mayoría de los casos, los rechazos excesivos de un modelo se resuelven con mejores instrucciones de sistema, fine-tuning específico para el caso de uso, o seleccionando un modelo base con una alineación menos restrictiva. Eliminar todos los rechazos es una solución de martillo para un problema que suele tener soluciones más quirúrgicas.
Documenta y comunica el uso de modelos «uncensored» a los stakeholders relevantes. Legal, seguridad y compliance necesitan saber qué modelos se están usando y con qué configuración. Si en algún momento hay un incidente o una auditoría, «no lo sabíamos» no es una defensa válida. La transparencia interna es parte de la gestión de riesgos.

Mi lectura

La existencia de modelos como este es inevitable en un ecosistema open-source maduro. No tiene sentido escandalizarse. Lo que sí tiene sentido es entender qué representan y tomar decisiones informadas.

HauhauCS publica modelos que tienen demanda real —los millones de descargas mensuales son un dato objetivo [4]— y esa demanda no desaparece porque los modelos sean controvertidos. Lo que cambia es la responsabilidad de quien los integra.

El ecosistema open-source da acceso a herramientas muy potentes con muy poca fricción. Eso es una ventaja competitiva real para empresas y desarrolladores que saben usarlas bien. Pero «saber usarlas bien» incluye entender los riesgos, no solo las capacidades.

Un modelo con 0 rechazos en 465 pruebas no es un modelo más libre. Es un modelo que ha delegado completamente en quien lo usa la responsabilidad de decidir qué es aceptable. Esa responsabilidad no desaparece porque el modelo no la gestione.

Fuentes

[1] HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive — Tarjeta de modelo en Hugging Face: https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

[4] Discusión en Reddit sobre los modelos «Uncensored Aggressive» de HauhauCS y su popularidad: https://www.reddit.com/r/LocalLLaMA/comments/1sw77p0/hauhaucs_of_uncensored_aggressive_fame_published/

[5] Hilo en foro describiendo Qwen3.5-9B-Uncensored-HauhauCS-Aggressive como modelo sin rechazos: https://mipped.com/f/threads/qwen3-5-9b-uncensored-aggressive-model-bez-otkazov.323417/

Mención en X/Twitter de Qwen3.5-9B-Uncensored-HauhauCS-Aggressive: https://x.com/JagersbergKnut/status/2029598249904923002

Publicación en Threads sobre Qwen3.5-35B-A3B «desbloqueado»: https://www.threads.com/@calvinhuo1004/post/DV97eFSE0KS

Si estás evaluando qué modelos de IA integrar en tu empresa y quieres hacerlo con criterio técnico y legal, en formulario de contacto trabajamos con PYMEs y agencias para tomar ese tipo de decisiones con cabeza. Si prefieres profundizar en los aspectos técnicos de evaluación y despliegue de modelos, puedes ver las formaciones disponibles en ivanvazquez.dev/formaciones. Y si tienes una pregunta concreta, escríbeme.