GLM-5.2 de Z.ai: ¿Realmente el nuevo modelo chino «mata» a Claude? Análisis de un analista
En los últimos días, la comunidad cripto y los entusiastas de la IA han estado discutiendo activamente el nuevo modelo GLM-5.2 de la empresa china Z.ai. Ya lo han apodado el "asesino" de Claude de Anthropic y, como suele ocurrir, hay más hype que fundamentos reales. Analicemos qué representa este modelo y qué tan peligroso es realmente para los líderes del mercado.
¿Qué es GLM-5.2 y cuáles son sus principales ventajas?
GLM-5.2 es un modelo abierto insignia que, según los desarrolladores, está diseñado para realizar sesiones de trabajo largas y complejas. La diferencia clave con su predecesor GLM-5.1 es una ventana de contexto estable de 1 millón de tokens (frente a los 200 mil anteriores). Esto significa que el modelo puede mantener en su "campo de visión" una enorme cantidad de código o texto sin perder calidad.
Las principales características que han llamado la atención son:
- Contexto de 1 millón de tokens que no se degrada en sesiones extremadamente largas.
- Dos niveles de potenciación del razonamiento: High (equilibrio entre rendimiento y consumo de tokens) y Max (máximo de capacidades, pero con alto consumo de recursos).
- Licencia abierta MIT sin restricciones regionales, lo que permite ejecutar el modelo en equipos propios (self-hosting).
- Precio de la API se mantiene al nivel de la versión anterior, lo cual es un factor importante.
El modelo está disponible en HuggingFace y ModelScope, así como a través de la suscripción GLM Coding Plan, el agente de escritorio ZCode e incluso los entornos Claude Code y OpenCode.
Benchmarks: ¿Dónde es fuerte GLM-5.2 y dónde es débil?
Según las pruebas propias de Z.ai, GLM-5.2 es reconocido como el modelo abierto más potente del mercado. Sin embargo, en la mayoría de los escenarios no alcanza al buque insignia de Anthropic, Claude Opus 4.8.
En las pruebas estándar de programación, la brecha con GLM-5.1 es notable: 81,0 frente a 63,5 en Terminal-Bench 2.1 y 62,1 frente a 58,4 en SWE-bench Pro. Además, en Terminal-Bench 2.1, el resultado de 81,0 se acerca mucho a Opus 4.8 (85,0) y supera a Gemini 3.1 Pro (74,0).
Tabla comparativa en modo Max (pruebas clave):
| Benchmark | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62,1 | 58,4 | 69,2 | 58,6 | 54,2 |
| Terminal-Bench 2.1 | 81,0 | 63,5 | 85,0 | 84,0 | 74,0 |
| NL2Repo | 48,9 | 42,7 | 69,7 | 50,7 | 33,4 |
| DeepSWE | 46,2 | 18,0 | 58,0 | 70,0 | 10,0 |
| ProgramBench | 63,7 | 50,9 | 71,9 | 70,8 | 39,5 |
| MCP-Atlas | 76,8 | 71,8 | 77,8 | 75,3 | 69,2 |
| Tool-Decathlon | 48,2 | 40,7 | 59,9 | 55,6 | 48,8 |
En tareas de largo plazo (long-horizon), el panorama es similar. En la prueba FrontierSWE, GLM-5.2 está solo un 1% por detrás de Opus 4.8, pero supera a GPT-5.5 y a la versión anterior Opus 4.7. En PostTrainBench, el modelo supera a Opus 4.7 y GPT-5.5, quedando solo por detrás de Opus 4.8. Sin embargo, en el ultralargo SWE-Marathon, la desventaja frente a Opus 4.8 ya es del 13%.
El precio y las opiniones reales
La suscripción GLM Coding Plan se divide en tres tarifas: Lite ($12,6/mes), Pro ($50,4/mes) y Max ($112/mes). El consumo de cuota depende de la carga: factor 3x en horas punta y 2x fuera de ellas. Hasta finales de septiembre hay una promoción donde el uso fuera de horas punta se factura como 1x.
Los usuarios están divididos en sus opiniones. Puntos fuertes: el modelo es elogiado por tener mejor lógica base en comparación con 5.1, ser comparable a GPT-5.5 en un alto nivel de razonamiento y la capacidad de realizar tareas complejas de forma autónoma. Sin embargo, se critica por su infraestructura en la nube débil, el alto consumo de tokens en modo Max y la tendencia a quedarse atascado en bucles infinitos. Muchos señalan que el modelo solo se muestra realmente en modo Max, que consume muchos más recursos que High.
Conclusión: ¿asesino o no?
No hay una respuesta clara. GLM-5.2 es el mejor modelo abierto actual para programación y tareas autónomas. En ciertos escenarios, se acerca mucho al buque insignia de Anthropic. La licencia abierta MIT, la posibilidad de ejecutarlo en equipos propios y el bajo umbral de entrada lo convierten en un actor destacado.
Mi opinión profesional: llamar a GLM-5.2 el "asesino" de Claude es más una estrategia de marketing que una realidad. En la mayoría de las pruebas, la propia Z.ai sitúa su modelo por debajo de Opus 4.8. Además, los usuarios se quejan de una infraestructura inestable y un alto consumo de tokens. El modelo reduce la brecha con los líderes, pero aún no los supera. Para entusiastas y desarrolladores que necesitan un modelo abierto potente, es una excelente opción. Pero para quienes buscan estabilidad y previsibilidad, Claude o GPT siguen siendo opciones más fiables.