El agujero que David Cahn de Sequoia planteó en 2023 nunca se llenó en el lado del entrenamiento. Se llenó en el lado de la inferencia, y el mercado solo ha comenzado a tenerlo en cuenta en el precio en las últimas semanas. Con Nvidia reestructurando sus informes financieros en torno a los «tokens de servicio» y la salida a bolsa de Cerebras obteniendo una suscripción excesiva de 20 veces, la batalla por el cuello de botella ha terminado, y la verdadera pregunta se ha convertido en la siguiente: cuando la inferencia se convierta en un recurso escaso, ¿en qué capa de la pila de computación se acumulará el valor?

Uno. Siguiendo a las GPU: del problema de los 200 mil millones de dólares al problema de los 600 mil millones de dólares

En 2023, David Cahn de Sequoia planteó la pregunta que pendía sobre toda la construcción de IA, el «problema de los 200 mil millones de dólares». Por cada dólar gastado en GPU, se necesita gastar aproximadamente otro dólar en el centro de datos para alimentarlas, por lo que cada CapEx anual de GPU significa que estos chips deben generar aproximadamente 200 mil millones de dólares en ingresos para recuperar este capital. Incluso con suposiciones muy generosas sobre los ingresos de IA, todavía encontró un «agujero» de más de 125 mil millones de dólares entre la «inversión» y lo que los clientes finales pagan realmente. La preocupación era sencilla: las GPU se estaban construyendo en exceso, adelantándose a la demanda real.

Un año después, la brecha no solo no se ha reducido, sino que se ha ampliado. En la secuela de Cahn de 2024, a medida que el CapEx de los hiperescaladores se expande, lo redefine como el «problema de los 600 mil millones de dólares». La lógica bajista converge en una forma familiar: la construcción excesiva conduce a un exceso de oferta, y el exceso quema capital. Ambos artículos preguntan en realidad lo mismo: ¿quién llenará este agujero? La respuesta nunca apareció en el libro de contabilidad del lado del «entrenamiento». Apareció en el lado de la inferencia, y el mercado solo ha comenzado a tenerlo en cuenta en el precio en las últimas semanas.

Dos. IPO de Cerebras y la presión de la inferencia

Cerebras salió a bolsa el jueves. Esta IPO obtuvo una suscripción excesiva de 20 veces, con un precio cercano al doble del precio final aumentado el miércoles. La demanda no provino de una apuesta por el «próximo asesino de Nvidia», sino de algo más simple: el mercado está empezando a darse cuenta de que el verdadero cuello de botella en IA es la inferencia, no el entrenamiento. La especialidad de Cerebras es una arquitectura de chip que hace que la inferencia sea extremadamente rápida. No entrenamiento, sino inferencia. Esto es lo que entusiasmó a Wall Street.

El mercado de inferencia es recurrente y se expande con el uso. Cada vez que Claude responde una pregunta, cada vez que un agente realiza una tarea, se consume potencia de cálculo. El entrenamiento ocurre una vez, la inferencia nunca se detiene. J.P. Morgan estima que el tamaño del mercado de inferencia es de 10 a 50 veces el del entrenamiento. Cuando las máquinas comienzan a realizar tareas dictadas por otras máquinas, es decir, la expansión agentic (basada en agentes), la demanda de inferencia ya no se expande con el número de usuarios, sino con la potencia de cálculo en sí.

Tres. Nvidia redibuja el mapa: la inferencia se convierte en el titular

Si Cerebras fue el despertar del mercado, los últimos resultados financieros de Nvidia son la confirmación de la cima de la cadena de suministro. En la última llamada de resultados, Jensen Huang aclaró la verdad tácita: la demanda de IA está creciendo parabólicamente. La razón es simple: la IA agentic ha llegado. La IA convencional ha pasado de la inferencia de una sola vez, a la inferencia lógica, y ahora a la etapa de agentes que pueden llamar a herramientas y orquestar tareas por sí mismos. Huang dijo: «Los tokens son ahora rentables». En la era de la IA, la potencia de cálculo es ingresos y beneficios. Esto ha remodelado toda la industria.

El entrenamiento es un costo único para construir un modelo, la inferencia es el costo recurrente para ejecutarlo, y el cuello de botella actual está en la inferencia, no en el entrenamiento. Nvidia ha incorporado este juicio en sus propios informes financieros. Ahora informa en dos plataformas, en lugar de una: Data Center y Edge Computing. El centro de datos (aproximadamente 75 mil millones de dólares en el trimestre, +92% interanual) se desglosa aún más en Hyperscale (aproximadamente 38 mil millones de dólares, +12% intertrimestral) y ACIE, es decir, AI Cloud, Industrial y Enterprise (aproximadamente 37 mil millones de dólares, +31% intertrimestral). Una nueva línea es Edge Computing: 6.4 mil millones de dólares, +29% interanual, que cubre la ejecución real de IA agentic y IA física en terminales como PC, estaciones de trabajo, estaciones base AI-RAN, robots y automóviles.

El borde todavía representa menos del 8% de los ingresos totales, pero Nvidia lo ha elevado a un «segundo pilar» junto con el centro de datos. La señal es: la inferencia se está dividiendo en dos frentes, la inferencia en la nube en los centros de datos y la inferencia en el punto final en el borde, y la IA necesita ver, moverse y actuar en el mundo físico. El hoja de ruta sigue la misma lógica: Vera Rubin, que se enviará a partir del tercer trimestre, tendrá una potencia de inferencia hasta 35 veces superior a la de Blackwell; Huang también ha proporcionado un nuevo TAM de 200 mil millones de dólares para Vera CPU, diseñada para cargas de trabajo agentic. Se espera que todas las empresas de modelos de vanguardia cambien por completo a ella desde el primer día. Cuando la empresa más valiosa del mundo reestructura su divulgación financiera en torno a los «tokens de servicio», la batalla por el cuello de botella ha terminado.

El resto de este artículo discute quién capturará el valor cuando la inferencia (en lugar del entrenamiento) se convierta en un recurso escaso. Hagamos una aclaración del alcance. En estos dos frentes, este artículo discute la inferencia en la nube, es decir, las GPU de centros de datos alquiladas que brindan servicios de token API a otros. La inferencia en el punto final se ejecuta en chips locales dentro del propio dispositivo (Jetson, RTX, Drive, AI-RAN de Nvidia) y no pasa por la pila de alquiler y agregación de GPU debajo. Aquí, considérelo como un viento de cola que amplifica la economía de inferencia y corrobora el argumento del cuello de botella, en lugar del mercado donde se encuentran Hyperbolic y Venice, que están completamente en la línea de la nube.

Cuatro. La presión ya ha llegado

Anthropic es el canario en la mina de carbón. El uso superó con creces la capacidad preconfigurada, y las quejas sobre que Claude fue «lobotomizado» inundaron la red, incluido el estrangulamiento de las respuestas, la inferencia más lenta y la reducción de la ventana de contexto. La solución es pura potencia de cálculo: en mayo de 2026, Anthropic se hizo cargo de todo el centro de datos Colossus 1 de SpaceX, con más de 220.000 GPU Nvidia, 300+ megavatios, y lo dedicó exclusivamente a la inferencia, no al entrenamiento. Esta capacidad desbloqueó una serie de cambios en los límites, cada uno de los cuales fue una señal.

El 6 de mayo, Anthropic duplicó el límite de cinco horas de Claude Code, eliminó el estrangulamiento en horas pico y aumentó significativamente el límite de velocidad de la API de Opus. El 13 de mayo, aumentó el límite semanal de Claude Code en un 50% adicional (hasta el 13 de julio). Luego, a partir del 15 de junio, hizo lo contrario de «generoso»: separó el uso agentic y programático (Agent SDK, modo sin cabeza claude -p, canalizaciones de CI) de la suscripción plana y los colocó en un grupo de créditos medido por separado (de 20 a 200 dólares al mes, facturado a precio de API). Este último paso condensó todo el argumento en una sola acción: los agentes consumen inferencia a un ritmo mucho mayor de lo que el diseño de suscripción plana puede soportar, por lo que debe fijarse su precio según su «costo recurrente» real. El entrenamiento es un gasto de capital único. La inferencia es un costo operativo recurrente que se acumula de forma compuesta con cada nuevo usuario, cada nuevo agente.

Cinco. Esta pila: seis capas, un cuello de botella

Cada aplicación de IA se asienta sobre una cadena de suministro que comienza en las fábricas de obleas de TSMC y termina en los puntos finales de la API: la mayoría de las empresas poseen solo una de estas capas. Nvidia posee el silicio, CoreWeave posee metal desnudo, Together AI posee optimización de inferencia, OpenRouter posee enrutamiento de API de modelos. Solo una excepción.

Seis. Hyperbolic: la única empresa que abarca tres capas

Hyperbolic lanzará su mercado de GPU bajo demanda en junio de 2025. En los primeros meses, sus desarrolladores superaron los 200.000, y los adoptantes abarcan laboratorios de IA de vanguardia, motores de búsqueda y grandes plataformas de consumo. Lo interesante es su arquitectura. Hyperbolic no posee ninguna GPU propia. Cada tarjeta proviene de neocloud y centros de datos, incluidos CoreWeave, Lambda Labs, Nebius y operadores más pequeños con capacidad inactiva. Esto suena como una debilidad, pero en realidad es un foso.

Al sentarse entre los proveedores y los consumidores de GPU, Hyperbolic puede ver datos en tiempo real que otros no pueden. Sabe quién compra qué GPU, a qué precio y cuándo. Ve el exceso de oferta antes de que se haga público y la demanda pico antes de que golpee el mercado. Hoy, el foso en sí es esta agregación multi-cloud. Hyperbolic une la capacidad fragmentada de docenas de nubes y centros de datos independientes en un grupo unificado y estandarizado, lo que permite a los desarrolladores alquilar las GPU disponibles más baratas en cualquier lugar sin tener que negociar con cada operador ni administrar una pila de cuentas. Cuantas más nubes se conecte, más profunda será la liquidez y más ricos serán los datos de precios.

Más allá de eso, el equipo está explorando cómo utilizar estos datos para modelar las curvas de precios de las GPU y, finalmente, invertir capital propio para suavizar la oferta y la demanda, actuando como un creador de mercado para la potencia de cálculo física; pero este objetivo aún está en sus primeras etapas, y lo que realmente se acumula hoy es la capa de agregación. Este es el volante: más nubes conectadas → más oferta agregada → mercado más profundo y datos de precios en tiempo real → enrutamiento más inteligente. Hyperbolic es la única empresa que abarca simultáneamente las capas de alquiler de GPU, implementación y API de modelos.

Siete. Venice, el espejo

Venice es la manifestación más clara de la economía de inferencia en la capa de aplicación y un útil contraste con la posición de Hyperbolic. Es una aplicación de inferencia prioritaria en la privacidad: una API compatible con OpenAI, junto con suscripciones para consumidores, que enruta las solicitudes a aproximadamente 75 modelos. La clave es que Venice no posee una potencia de cálculo significativa por sí misma. Alquila a socios de GPU no revelados y proveedores de computación confidencial, y paga a laboratorios de vanguardia para que transmitan, por lo que su verdadero costo de ingresos es la potencia de cálculo de inferencia, no el alojamiento SaaS.

Lo que Venice realmente vende es privacidad. La «privacidad» aquí no significa convertir la potencia de cálculo pública en propiedad privada, sino envolver la inferencia comercializada en una garantía: no se conservan datos, no se utilizan para entrenamiento y las solicitudes se anonimizan. La potencia de cálculo subyacente es un producto básico, y el precio adicional se basa en esta capa de prima de privacidad. El margen bruto de Venice = precio de suscripción – costo de inferencia pagado a downstream, y la cantidad adicional que puede cobrar sobre el precio de la API desnuda se basa casi por completo en esta prima de privacidad. Es un negocio real, pero un negocio de bajo margen cuya economía está limitada por la potencia de cálculo que compra. Esta es precisamente la razón por la que Hyperbolic está una capa por encima de ella. Si Venice es una gasolinera, Hyperbolic es una refinería.

Ocho. Por qué esto es importante ahora

Nvidia ha reestructurado sus finanzas en torno a los «tokens de servicio». La IPO de Cerebras demuestra que el mercado ha entendido que la inferencia es el cuello de botella. Anthropic está buscando capacidad, lo que demuestra que es un problema real. La IA agentic y la IA física aumentarán la demanda en varios órdenes de magnitud, abarcando tanto la nube como los puntos finales. Y también cierra el círculo del «problema de los 600 mil millones de dólares» desde el otro lado. La lógica bajista de Cahn, es decir, la construcción excesiva seguida de un exceso, probablemente se validará. Pero el exceso es precisamente la condición óptima para los agregadores de activos ligeros: a medida que los precios de las GPU bajan y la oferta se fragmenta en docenas de nubes, el jugador que no posee ningún hardware y enruta cada carga de trabajo a la tarjeta disponible más barata obtendrá la diferencia de precio.

Hyperbolic está comprando el exceso, no vendiéndolo en corto. La empresa que finalmente gane no será la que posea la mayor cantidad de GPU, sino la que pueda decirle qué GPU están disponibles, dónde y a qué precio, y enrutar cada carga de trabajo a donde pueda ejecutarse al menor costo. Hyperbolic está construyendo una empresa así. No posee GPU propias, es puramente software, abarca tres capas en profundidad, pero se está construyendo como la capa de agregación definitiva para la potencia de cálculo de inferencia. [IOSG]

Análisis exclusivo de RichSilo:

Cuando la Inferencia se Convierte en el Cuello de Botella: Las Oportunidades Crypto en el Problema de los $600 Mil Millones de la IA

La obsesión del mercado crypto con la IA se ha centrado principalmente en memecoins, derivados de staking líquido y bots de trading impulsados por IA. Mientras tanto, se ha producido un cambio fundamental en la infraestructura subyacente de IA que la mayoría de los participantes del mercado han pasado por alto. El análisis de Frank Fu de IOSG revela un punto de inflexión crítico: el cuello de botella en la IA se ha desplazado definitivamente del entrenamiento a la inferencia, creando una oportunidad de $600 mil millones que el mercado solo ha comenzado a incorporar recientemente.

El Desplazamiento del Entrenamiento a la Inferencia

El problema de «$200 mil millones» de David Cahn se ha inflado en un problema de «$600 mil millones» mientras que los gastos de capital de los proveedores hiprescalares continúan superando los ingresos reales de los usuarios finales. Aunque inicialmente el mercado temía que el exceso de construcción de GPU llevaría a una sobreoferta y destrucción de capital, la respuesta real para cubrir esta brecha surgió no del lado del entrenamiento sino del lado de la inferencia.

Esto no es simplemente un debate académico: está siendo validado por los jugadores más importantes del mercado. La reestructuración de Nvidia de sus estados financieros en torno a «tokens de servicio» y la IPO 20x suscrita de Cerebras no son coincidencias. Señalan que Wall Street y la industria de semiconductores ahora reconocen la inferencia como el verdadero cuello de botella. Como declaró Jensen Huang: «Los tokens ahora son rentables», una admisión notable de que el poder de cómputo se ha vuelto directamente monetizable a través de servicios API.

El mercado de inferencia es fundamentalmente diferente del de entrenamiento: es recurrente en lugar de único, se expande con cada interacción de usuario y despliegue de agentes. JP Morgan estima que es 10-50 veces más grande que el mercado de entrenamiento, y a medida que la IA pasa de la inferencia básica a la orquestación basada en agentes, la curva de demanda se vuelve casi vertical.

Oportunidades de Tokenización en la Pila de Inferencia

Para los inversores crypto, este cambio crea varias oportunidades atractivas:

1. Tokenización de Recursos de Cómputo

La implicación más directa es la tokenización potencial de recursos de cómputo. La presentación de Nvidia de «tokens de servicio» sugiere que podríamos ver instrumentos financieros que representen reclamos sobre capacidad de GPU. En el mundo crypto, esto podría evolucionar en:
– Futuros o perpétuos de capacidad GPU
– Tokens que representen acciones en granjas GPU descentralizadas
– Mecanismos de staking que asignen recursos de cómputo inactivos al postor más alto

2. Mercados Descentralizados de GPU

Los proyectos que creen mercados descentralizados para recursos GPU podrían capturar valor significativo a medida que el mercado se vuelve cada vez más fragmentado. El éxito de Hyperbolic, que agrega capacidad de múltiples proveedores de nube sin poseer ningún hardware, demuestra el poder del modelo de agregador. Las implementaciones nativas de crypto podrían:
– Permitir a los individuos monetizar capacidad GPU inactiva
– Proporcionar mecanismos de precios transparentes para recursos de cómputo
– Crear mercados de liquidez para capacidad GPU

3. Oráculos de Agentes IA y Mercados de Datos

A medida que los agentes IA comienzan a realizar tareas para otros agentes, la necesidad de datos confiables en tiempo real se vuelve crítica. Los proyectos crypto que proporcionan:
– Redes de oráculos descentralizadas para datos IA
– Conjuntos de datos tokenizados para entrenamiento y ajuste fino
– Mercados de datos que preservan la privacidad para datos de entrenamiento sensibles de IA

podrían convertirse en infraestructura indispensable.

4. Optimización de Enrutamiento a Través de Incentivos en Tokens

El artículo identifica correctamente que el ganador no será la empresa con más GPUs, sino la que pueda enrutar cargas de trabajo a los recursos disponibles más baratos. Esto crea una oportunidad para:
– Protocolos de enrutamiento basados en tokens que optimicen cargas de trabajo entre proveedores
– Mecanismos para el descubrimiento de precios en mercados de cómputo fragmentados
– Estructuras de incentivos para la utilización de capacidad inactiva

Riesgos y Desafíos

A pesar de la tesis convincente, varios riesgos merecen consideración:

Riesgo de Centralización: Incluso mientras la comunidad crypto construye soluciones descentralizadas, el hardware subyacente permanece concentrado en manos de algunos grandes proveedores. Esta centralización podría limitar la eficacia de los enfoques descentralizados.

Timing del Mercado: El mercado podría estar adelantándose a sí mismo al incorporar la oportunidad de inferencia. El caso bajista presentado por Cahn—de que el exceso de construcción lleva a sobreoferta—podría aún materializarse, creando vientos en contra a corto plazo para los proveedores de infraestructura.

Incertidumbre Regulatoria: A medida que la IA se vuelve más crítica para la infraestructura, el escrutinio regulatorio probablemente aumentará. Los proyectos operando en la intersección de la IA y el crypto podrían enfrentar desafíos regulatorios únicos.

Obsolescencia Técnica: El ritmo del desarrollo de IA significa que las soluciones óptimas de hoy podrían volverse obsoletas rápidamente. Los proyectos necesitan innovación continua para mantener su propuesta de valor.

Posición de Hyperbolic y el Foso del Agregador

El análisis destaca a Hyperbolic como un caso de estudio interesante: una empresa que abarca las capas de arrendamiento, despliegue y modelo de GPU sin poseer ningún hardware. Este enfoque «ligero de activos» crea un foso poderoso a medida que el mercado se vuelve más fragmentado.

Para los inversores crypto, esto sugiere que los proyectos más valiosos pueden no ser aquellos que construyen infraestructura física, sino aquellos que crean las capas económicas que optimizan la asignación de recursos. El valor real reside en la coordinación y optimización de recursos existentes, no necesariamente en poseerlos.

Conclusión

El desplazamiento del entrenamiento a la inferencia representa una reordenación fundamental del valor en la pila de IA. Para los inversores crypto, esto crea oportunidades para construir las capas financieras y económicas que permitirán la asignación eficiente de recursos de cómputo. Los proyectos más prometedores serán probablemente aquellos que puedan crear liquidez en mercados fragmentados, optimizar el enrutamiento entre proveedores y habilitar la tokenización de capacidad de cómputo.

A medida que la presión de la inferencia se acelera y los agentes IA comienzan a consumir recursos a una tasa exponencial, el rol del mercado crypto en crear la infraestructura financiera para este nuevo paradigma se volverá cada vez más importante. El problema de $600 mil millones podría finalmente resolverse no construyendo más hardware, sino creando mercados más eficientes para recursos existentes.

Cuando la Inferencia se Convierte en el Cuello de Botella: Las Oportunidades Crypto en el Problema de los $600 Mil Millones de la IA

El Desplazamiento del Entrenamiento a la Inferencia

Oportunidades de Tokenización en la Pila de Inferencia

1. Tokenización de Recursos de Cómputo

2. Mercados Descentralizados de GPU

3. Oráculos de Agentes IA y Mercados de Datos

4. Optimización de Enrutamiento a Través de Incentivos en Tokens

Riesgos y Desafíos

Posición de Hyperbolic y el Foso del Agregador

Conclusión

More from SiloRadar

Stablecoins frente a tokens de depósito: aparentemente separados por un río y una frontera, pero en realidad formando alianzas estratégicas

Nvidia rescata dramáticamente el mercado de valores de Corea del Sur

Fundador de Baixing.com: Mis 14 experiencias prácticas con el código de Claude

Yang Ge Gary: Economía de agentes y economía submicroscópica de la IA

Diluir la posición es la verdadera salida: Cuando los VCs de criptomonedas diluyen su posición para aprovechar los efectos de red