GLM-5.2 contra Claude: ¿Realmente la red neuronal china se ha convertido en la «asesina» del líder del mercado?
En el mundo de la inteligencia artificial surge un nuevo debate: la empresa china Z.ai ha presentado el modelo GLM-5.2, al que algunos entusiastas ya han bautizado como el «asesino» del producto estrella de Anthropic, Claude Opus 4.8. ¿Qué tan justas son estas afirmaciones tan rotundas? Analicémoslo.
¿Qué es GLM-5.2 y cuál es su fortaleza?
GLM-5.2 es un modelo insignia creado para sesiones de trabajo prolongadas. Su principal ventaja frente a su predecesora GLM-5.1 es una ventana de contexto estable de 1 millón de tokens, frente a los 200 mil anteriores. Esto significa que el modelo es capaz de mantener en su campo de visión una base de código completa o un proyecto voluminoso sin perder calidad.
Características clave:
- Contexto de 1 millón de tokens sin degradación en sesiones extremadamente largas.
- Dos niveles de refuerzo de razonamiento: High para equilibrar rendimiento y consumo de tokens, y Max para capacidades máximas.
- Licencia MIT abierta sin restricciones regionales: se puede ejecutar en equipos propios (self-hosting).
- Precio de API se mantiene al nivel de GLM-5.1.
El modelo está disponible en HuggingFace y ModelScope, así como a través de la suscripción GLM Coding Plan, el agente de escritorio ZCode y los entornos Claude Code y OpenCode.
¿Qué muestran los benchmarks?
Según las pruebas propias de Z.ai, GLM-5.2 es reconocida como el modelo abierto más potente del mercado. Sin embargo, en la mayoría de los casos no alcanza a Claude Opus 4.8.
En las pruebas estándar de programación, la brecha con GLM-5.1 es notable: 81,0 frente a 63,5 en Terminal-Bench 2.1 y 62,1 frente a 58,4 en SWE-bench Pro. Además, en Terminal-Bench 2.1, el resultado de 81,0 se acerca mucho a Opus 4.8 (85,0) y supera a Gemini 3.1 Pro (74,0).
Comparación con competidores en modo de razonamiento máximo:
| Benchmark | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62,1 | 58,4 | 69,2 | 58,6 | 54,2 |
| Terminal-Bench 2.1 | 81,0 | 63,5 | 85,0 | 84,0 | 74,0 |
| NL2Repo | 48,9 | 42,7 | 69,7 | 50,7 | 33,4 |
| DeepSWE | 46,2 | 18,0 | 58,0 | 70,0 | 10,0 |
| ProgramBench | 63,7 | 50,9 | 71,9 | 70,8 | 39,5 |
| MCP-Atlas | 76,8 | 71,8 | 77,8 | 75,3 | 69,2 |
| Tool-Decathlon | 48,2 | 40,7 | 59,9 | 55,6 | 48,8 |
En tareas de larga duración (long-horizon), el panorama es similar. En la prueba FrontierSWE, donde el modelo gestiona proyectos técnicos abiertos que duran decenas de horas, GLM-5.2 se queda solo un 1% por detrás de Opus 4.8. Sin embargo, supera a GPT-5.5 y a la versión anterior Opus 4.7.
¿Cuánto cuesta la IA y cuál es el truco?
La suscripción GLM Coding Plan se divide en tres tarifas con un descuento anual del 30%: Lite — $12,6/mes, Pro — $50,4/mes, Max — $112/mes. Dentro de la suscripción, el consumo de cuota depende de la carga: coeficiente 3x en horas pico y 2x fuera de pico. Hasta finales de septiembre hay una promoción donde el uso fuera de pico se tarifica como 1x.
Las opiniones de los usuarios están divididas. Puntos fuertes:
- El modelo abierto más potente hasta la fecha.
- La lógica base es notablemente mejor que en la versión 5.1.
- Realiza tareas complejas de forma autónoma mediante agentes auxiliares.
- Lento, pero extremadamente persistente en alcanzar el objetivo.
Críticas:
- Infraestructura en la nube débil y tarificación cara.
- Tendencia a quedarse atascado en bucles infinitos e ignorar comandos.
- Muchos consideran que el modelo está optimizado exclusivamente para benchmarks.
Resumen: en benchmarks, es un modelo insignia, pero en código real, es una IA de presupuesto limitado.
Entonces, ¿es un «asesino» de Claude o no?
No hay una respuesta definitiva. GLM-5.2 es reconocido como el mejor modelo abierto para programación y tareas autónomas. En ciertos escenarios largos, se acerca mucho al buque insignia de Anthropic. La licencia MIT abierta, la posibilidad de ejecutarlo en equipos propios y el bajo umbral de entrada lo convierten en un actor destacado.
Sin embargo, son los blogueros quienes llaman «asesino» de Claude a la novedad, no los benchmarks. En la mayoría de las pruebas, la propia Z.ai sitúa su modelo por debajo de Opus 4.8. Además, los usuarios se quejan de una infraestructura en la nube inestable, un alto consumo de tokens en modo Max y un soporte deficiente. La nueva IA reduce la brecha con los líderes, pero aún no los supera.
Mi conclusión experta: GLM-5.2 es un paso impresionante para los modelos abiertos, especialmente en el segmento de programación. Pero llamarlo «asesino» de Claude es prematuro. Es más un perseguidor que un líder, y su valor real se determinará no por los benchmarks, sino por la estabilidad y la comodidad en proyectos reales.