Coinbase ha reducido a la mitad los costos de IA en medio de un explosivo crecimiento del consumo: el secreto está en la ingeniería de tokens
El CEO de Coinbase, Brian Armstrong, compartió una estrategia inesperada: la empresa logró reducir los costos de inteligencia artificial casi a la mitad, a pesar del crecimiento exponencial en el consumo de tokens. El secreto no radica en límites estrictos o prohibiciones, sino en un enrutamiento inteligente, almacenamiento en caché y configuraciones predeterminadas.
Armstrong explicó que los ingenieros de Coinbase pueden elegir cualquier modelo, pero son las configuraciones predeterminadas las que realmente importan. La empresa está experimentando con el uso predeterminado de modelos de pesos abiertos, como GLM 5.2 y Kimi 2.7, a través de una puerta de enlace interna. Es notable que el 91% de los empleados nunca ha alcanzado los límites, por lo que Coinbase optó por configuraciones más económicas en lugar de reducir los límites.
Enrutamiento, caché y ahorro de contexto
En los sistemas internos de Coinbase, las solicitudes se procesan previamente y se dirigen al modelo más adecuado según los aciertos de caché y el costo. Por ejemplo, un modelo avanzado es necesario para la planificación, pero resulta excesivo para la ejecución. La selección del modelo debe ser automatizada por la propia IA, no por una persona.
Armstrong prestó especial atención al almacenamiento en caché. Los fallos en los datos guardados son la forma más sencilla de disparar los costos, por lo que todas las solicitudes en Coinbase están configuradas para reutilizar información ya procesada. En el servicio LibreChat, la proporción de estos aciertos aumentó del 5% al 60% tras una configuración adecuada.
El ahorro de contexto también fue un factor importante. Armstrong recomienda iniciar nuevas sesiones al cambiar de tarea, limitar estrictamente el contexto de los archivos y desactivar herramientas no utilizadas. El objetivo no es gastar menos tokens, sino desperdiciar menos.
La estrategia de "barra" de Deutscher
El analista Miles Deutscher describió un enfoque similar, denominándolo "ingeniería de tokens" y proponiendo una estrategia de "barra" para reducir los costos de IA en un 50% o más. Sugiere confiar el primer 10% del trabajo y la planificación del proyecto a los modelos más inteligentes, como Opus o GPT. El 80% restante del trabajo rutinario debe realizarse con un modelo de código abierto más económico. El último 10% y la verificación de resultados deben delegarse nuevamente a modelos de alto nivel. Deutscher ha estado aplicando este esquema durante varios meses y lo considera la mejor manera de reducir el gasto excesivo en IA.
Opinión del experto: La estrategia de Coinbase no es solo un ahorro, sino un nuevo estándar para la IA corporativa. La división de tareas entre modelos "pesados" y "ligeros", combinada con un almacenamiento en caché inteligente, permite escalar el uso de la IA sin un aumento proporcional del presupuesto. Esta es una lección para toda la industria: la eficiencia es más importante que la fuerza bruta.