OpenAI presenta GPT-5.5-Cyber: respuesta a las limitaciones de Anthropic y un nuevo giro en la carrera de seguridad de la IA
El 22 de junio, OpenAI lanzó oficialmente la versión completa del modelo especializado GPT-5.5-Cyber, diseñado para buscar, verificar y corregir vulnerabilidades de software. Este lanzamiento se produjo en medio de severas restricciones impuestas a los modelos de Anthropic, lo que creó una ventana de mercado única para OpenAI.
El modelo es un componente clave de la iniciativa Daybreak, el programa de ciberdefensa de OpenAI. Es importante destacar: GPT-5.5-Cyber no está destinado al usuario masivo. Solo tendrán acceso a él especialistas en ciberseguridad verificados que necesiten herramientas mejoradas para labores de protección autorizadas.
Cómo surgió la "ventana de oportunidad"
El 9 de junio, Anthropic abrió el acceso a dos versiones de sus modelos Claude: Fable 5 y la "privada" Claude Mythos 5, con restricciones reducidas. Sin embargo, el 12 de junio, tras recibir una directiva del gobierno de EE. UU. en el marco del control de exportaciones, Anthropic se vio obligada a desactivar estos modelos. Esta decisión provocó una ola de problemas: el 23 de junio, la empresa Legion presentó una demanda contra el gobierno de EE. UU., alegando que la pérdida de acceso a los modelos de Anthropic interrumpió el funcionamiento de sus herramientas para la preparación de documentos legales.
OpenAI eligió un camino fundamentalmente diferente. La empresa coordinó previamente sus verificaciones con las agencias federales de EE. UU. y luego abrió GPT-5.5-Cyber exclusivamente para usuarios verificados. Esta es una jugada estratégica que demuestra cómo se puede equilibrar la innovación con los requisitos regulatorios.
Qué puede hacer GPT-5.5-Cyber: cifras y hechos
Los resultados de las pruebas son impresionantes. En el benchmark CyberGym, el modelo obtuvo un 85,6% frente al 81,8% del GPT-5.5 estándar. La brecha es aún más significativa en ExploitGym: 39,5% frente a 25,95%. En SEC-bench Pro, los resultados fueron del 69,8% frente al 63,1%. Estas pruebas evalúan la capacidad del modelo para convertir vulnerabilidades en exploits funcionales y realizar búsquedas a largo plazo de pruebas de concepto.
De particular interés es la comparación con Anthropic Mythos 5. En CyberGym, GPT-5.5-Cyber superó al competidor: 85,6% frente a 83,8%. Sin embargo, los datos del Instituto de Seguridad de IA del Reino Unido (AISI) pintan un panorama más complejo. En la simulación de un ataque corporativo "The Last Ones", GPT-5.5-Cyber completó el escenario en 2 de cada 10 intentos, mientras que Mythos Preview lo hizo en 3 de cada 10. Posteriormente, AISI actualizó los datos: la nueva versión de Mythos Preview superó la prueba en 6 de cada 10 intentos, y GPT-5.5 en 3 de cada 10.
Estrategia de acceso y asociaciones
OpenAI ha limitado claramente el acceso al modelo. Para la mayoría de los clientes, se sigue recomendando GPT-5.5 con Trusted Access for Cyber y Codex Security. Paralelamente, se ha lanzado el programa Daybreak Cyber Partner Program. Entre los participantes se encuentran Akamai, Check Point, Cisco, CrowdStrike, IBM, Palo Alto Networks, Proofpoint, SentinelOne, Wiz, Zscaler y otros gigantes de la seguridad.
Otra área importante es la iniciativa Patch the Planet para proyectos de código abierto, creada en colaboración con Trail of Bits y con la participación de HackerOne. Entre los primeros participantes se encuentran cURL, Go, Python, Sigstore y pyca/cryptography. Según la empresa, desde marzo, la versión en la nube de Codex Security ha escaneado más de 30 millones de commits en más de 30,000 bases de código, y los revisores humanos han marcado más de 70,000 hallazgos como corregidos.
Mi comentario: El lanzamiento de GPT-5.5-Cyber no es solo un paso tecnológico, sino una señal clara para el mercado. OpenAI demuestra que está dispuesta a trabajar dentro de las restricciones regulatorias, obteniendo al mismo tiempo una ventaja competitiva. Sin embargo, los datos de AISI muestran que la carrera por la seguridad de la IA está lejos de terminar: diferentes modelos muestran una eficacia variable en diferentes escenarios. La cuestión clave sigue siendo no solo el rendimiento del modelo, sino su capacidad para adaptarse a condiciones de ataque reales, no de laboratorio. El mercado de vulnerabilidades de día cero se enfrenta a una transformación importante.