Coinbase redujo a la mitad los gastos en IA: la paradoja del crecimiento del consumo de tokens
El CEO de Coinbase, Brian Armstrong, compartió una estrategia inesperada de la empresa: a pesar del crecimiento exponencial en el consumo de tokens de computación, lograron reducir los costos de inteligencia artificial a la mitad. Según él, el secreto no reside en limitaciones o topes banales, sino en un ajuste fino de la infraestructura.
No límites, sino enrutamiento inteligente
Armstrong explicó que los ingenieros de Coinbase pueden elegir cualquier modelo de IA, pero la clave está en las configuraciones predeterminadas. La empresa experimenta con el uso de modelos abiertos, como GLM 5.2 y Kimi 2.7, a través de una puerta de enlace interna. Es notable que el 91% de los empleados nunca ha alcanzado los límites, por lo que la empresa migró a configuraciones más económicas sin reducir los umbrales.
La base del ahorro es el enrutamiento inteligente de solicitudes. El sistema dirige automáticamente la tarea al modelo más adecuado, considerando el almacenamiento en caché y el costo. Por ejemplo, para la planificación estratégica se utiliza el modelo insignia, mientras que para tareas rutinarias se emplea uno más ligero y barato. Armstrong enfatiza que la selección del modelo debe ser automatizada por la propia IA, no por un humano.
Caché y contexto: los dos pilares del ahorro
Se destaca especialmente el papel del almacenamiento en caché. Fallar en los datos guardados es la forma más sencilla de disparar los costos. En Coinbase, todas las solicitudes están configuradas para reutilizar información ya procesada. En el servicio LibreChat, la tasa de aciertos en caché aumentó del 5% al 60% tras una configuración adecuada.
Igualmente importante es el ahorro de contexto. Armstrong recomienda iniciar nuevas sesiones al cambiar de tarea, limitar estrictamente el contexto de los archivos y desactivar herramientas no utilizadas. El objetivo no es gastar menos tokens, sino no desperdiciarlos. Este enfoque permitió a Coinbase reducir los costos casi a la mitad mientras el consumo seguía creciendo.
La estrategia de "barra" de Deutscher
El analista Miles Deutscher describe un método similar, al que llama "ingeniería de tokens". Propone una estrategia de "barra" para reducir los costos de IA en un 50% o más. El primer 10% del trabajo y la planificación del proyecto deben confiarse a los modelos más inteligentes (Opus, GPT), ya que es una etapa crítica. El 80% restante de las tareas rutinarias debe realizarse con un modelo de código abierto más barato. El último 10% y la verificación de resultados recomienda nuevamente asignarlos a modelos de alto nivel. Deutscher ha aplicado este esquema durante varios meses y lo considera la mejor manera de reducir los gastos excesivos en IA.
Opinión del experto: La experiencia de Coinbase es un claro ejemplo de que la eficiencia de la infraestructura de IA no está determinada por el volumen de inversión, sino por la arquitectura de su uso. Para la industria cripto, donde cada céntimo cuenta, el enrutamiento inteligente y el almacenamiento en caché se convierten no solo en una opción, sino en una necesidad. Es una lección para todos los proyectos que buscan escalar la IA sin costos desmesurados.