Coinbase ha reducido a la mitad los gastos en IA mientras el consumo de tokens crece explosivamente: el secreto no está en los límites
El CEO de Coinbase, Brian Armstrong, compartió detalles de cómo el exchange logró reducir los costos de inteligencia artificial casi a la mitad, a pesar del crecimiento exponencial en el consumo de tokens. La clave del éxito no radica en restricciones estrictas ni límites presupuestarios, sino en una configuración inteligente de la infraestructura.
Armstrong afirmó directamente: los ingenieros de Coinbase pueden elegir cualquier modelo de IA, pero la configuración predeterminada es crucial. La empresa está experimentando con el uso predeterminado de modelos más económicos de peso abierto, como GLM 5.2 y Kimi 2.7, a través de una puerta de enlace interna. Es notable que el 91% de los empleados nunca ha alcanzado los límites establecidos, por lo que en Coinbase optaron por optimizar los parámetros predeterminados en lugar de reducir las cuotas. Esto permitió no solo contener el crecimiento de los costos, sino revertirlo.
Enrutamiento, almacenamiento en caché y ahorro de contexto
En los sistemas propios de Coinbase, las solicitudes se procesan previamente y se dirigen al modelo más adecuado según la probabilidad de acierto en la caché y el costo. Por ejemplo, un modelo avanzado es necesario para la planificación, pero es excesivo para la ejecución rutinaria. Armstrong destaca que, en última instancia, la selección del modelo debe ser automatizada por la propia IA, no por un humano.
Se presta especial atención al almacenamiento en caché. Los fallos en los datos guardados son la forma más sencilla de disparar los costos. En Coinbase, todas las solicitudes están configuradas para reutilizar información ya procesada. En el servicio LibreChat, la tasa de aciertos en la caché aumentó del 5% al 60% tras una configuración adecuada.
También es fundamental el ahorro de contexto. Armstrong recomienda iniciar nuevas sesiones al cambiar de tarea, limitar estrictamente el contexto de los archivos y desactivar herramientas no utilizadas. El objetivo no es gastar menos tokens, sino minimizar su uso innecesario. Fue este enfoque integral lo que permitió a Coinbase reducir los costos de IA casi a la mitad en medio del continuo crecimiento del consumo.
La estrategia de «barra» de Deutscher: 10-80-10
El analista Miles Deutscher describe un enfoque similar, llamándolo la era de la «ingeniería de tokens». Propone una estrategia de «barra» para reducir los costos de IA en un 50% o más. Recomienda confiar el primer 10% del trabajo (planificación del proyecto) a los modelos más inteligentes, como Opus o GPT, ya que es la etapa más crucial.
Según él, el 80% principal del trabajo rutinario debe realizarse con un modelo de código abierto más económico. El 10% final y la verificación de resultados los vuelve a encargar a modelos de alto nivel. Deutscher afirma que ha estado aplicando este esquema durante varios meses y lo considera la mejor manera de reducir el gasto excesivo en IA.
Análisis de Cryptalist: La experiencia de Coinbase es un manual ilustrativo para toda la industria. Estamos pasando de la era de «simplemente usa el modelo más potente» a la era de «usa el modelo correcto para la tarea correcta». El enrutamiento inteligente y el almacenamiento en caché agresivo no son solo ahorro, sino el nuevo estándar de eficiencia. Las empresas que no implementen prácticas similares corren el riesgo de quemar capital en un consumo descontrolado de IA.