作者:Frank Fu,IOSG。2023 年 David Cahn 提出的那个窟窿,从未在训练侧被填上。它被填在了推理侧,而市场只是在过去几周才开始把它计入定价。当英伟达围绕「服务 token」重组财报口径、Cerebras 上市获 20 倍超额申购,瓶颈之争已经结束,真正的问题变成了下一个:当推理成为稀缺资源,价值会沉淀在算力栈的哪一层。
一、跟着 GPU 走:从 2000 亿美元问题到 6000 亿美元问题
2023 年,Sequoia 的 David Cahn 提出了悬在整个 AI 建设之上的那个问题,即「2000 亿美元问题」。每花 1 美元买 GPU,大约还要再花 1 美元在数据中心里给它供电,因此每一年的 GPU CapEx,都意味着这些芯片最终必须产生约 2000 亿美元的收入才能收回这笔资本。即便对 AI 收入做出非常慷慨的假设,他仍发现「投入」与「终端客户实际付费」之间存在一个 1250 亿美元以上的窟窿。担忧很直白:GPU 正在被超前于真实需求地过度建设。
一年之后,缺口非但没有收窄,反而扩大了。Cahn 在 2024 年的续作里,随着超大规模厂商 CapEx 膨胀,把它重新定义为「6000 亿美元问题」。看空逻辑收敛成一个熟悉的形状:过度建设导致供给过剩,而过剩会烧毁资本。两篇文章其实都在问同一件事:谁来填这个窟窿?答案从未出现在「训练」这一侧的账本上。它出现在 inference(推理)这一侧,而市场只是在过去这几周才开始把它计入定价。
二、Cerebras IPO 与推理挤压
Cerebras 于周四上市。这次 IPO 获得 20 倍超额申购,定价接近周三最终加价的两倍。需求并非来自对「下一个 Nvidia 杀手」的押注,而是源于一件更简单的事:市场开始意识到,在 AI 中真正的瓶颈是 inference,而不是训练。Cerebras 的看家本领,是一种让推理极快的芯片架构。不是训练,是推理。这正是让华尔街兴奋的点。
inference 市场是经常性的,它随使用量扩张。每一次 Claude 回答问题、每一次 agent 执行任务,都在消耗算力。训练只发生一次,推理永不停止。J.P. Morgan 把 inference 市场规模估算为训练的 10 到 50 倍。当机器开始执行由其他机器下达的任务,即 agentic(智能体)式扩张,inference 需求就不再随用户数扩张,而是随算力本身扩张。
三、Nvidia 重画版图:推理成为头条
如果说 Cerebras 是市场的觉醒,那么 Nvidia 最新一季财报就是来自产业链顶端的确认。在最新财报电话会上,Jensen Huang 把那句心照不宣的话挑明了:AI 需求正在呈抛物线式增长。原因很简单:agentic AI 已经到来。主流 AI 已经从一次性推理,过渡到逻辑推理,再进入会自己调用工具、编排任务的 agent 阶段。Huang 说,「Tokens 现在是有利可图的。」在 AI 时代,算力就是收入和利润。这重塑了整个行业。
训练是构建一个模型的一次性成本,inference 则是运行它的经常性成本,而如今的瓶颈在推理,不在训练。Nvidia 把这个判断写进了自己的财报口径。它现在按两个平台披露,而非一个:Data Center(数据中心)与 Edge Computing(边缘计算)。数据中心(当季约 750 亿美元,同比 +92%)进一步拆为 Hyperscale(约 380 亿美元,环比 +12%)和 ACIE,即 AI 云、工业与企业(约 370 亿美元,环比 +31%)。全新的一条线是 Edge Computing:64 亿美元,同比 +29%,覆盖 agentic AI 和 physical AI 真正运行的终端,比如 PC、工作站、AI-RAN 基站、机器人和汽车。
边缘目前仍占总收入不到 8%,但 Nvidia 已把它提升到与数据中心并列的「第二平台」。这个信号是:inference 正在分裂为两条战线,数据中心里的 cloud inference(云端推理),以及边缘侧的 endpoint inference(端点推理),AI 要在物理世界里看见、移动并行动。路线图遵循同样的逻辑:从第三季度开始出货的 Vera Rubin,推理吞吐量最高可达 Blackwell 的 35 倍;Huang 还为面向 agentic 负载打造的 Vera CPU 给出了一个全新的 2000 亿美元 TAM。每一家前沿模型公司预计都会在第一天就全面转向它。当地球上市值最高的公司围绕「服务 token」重组财务披露时,瓶颈之争就已尘埃落定。
本文余下的部分,讨论的是当 inference(而非训练)成为稀缺资源后,价值由谁捕获。先做一个范围说明。在这两条战线中,本文讨论的是 cloud inference,即对外提供 API token 服务的、租来的数据中心 GPU。endpoint inference 跑在设备本身内部的本地芯片上(Nvidia 的 Jetson、RTX、Drive、AI-RAN),完全不经过其下的 GPU 租赁与聚合栈。在这里,请把它视为放大整个 inference 经济、佐证瓶颈论点的顺风,而非 Hyperbolic 和 Venice 所在的市场,这两家完全处在云端那条线上。
四、挤压已经到来
Anthropic 是煤矿里的金丝雀。使用量远超预先配置的产能,关于 Claude 被「脑叶切除」的抱怨刷屏全网,包括被限流的回复、变慢的推理、被压缩的上下文窗口。解法是赤裸裸的算力:2026 年 5 月,Anthropic 从 SpaceX 手中接管了整个 Colossus 1 数据中心,22 万+ 张 Nvidia GPU、300+ 兆瓦,并将其专门用于 inference,而非训练。这部分产能解锁了一连串限额变动,每一次都是一个信号。
5 月 6 日,Anthropic 把 Claude Code 的五小时限额翻倍、取消高峰时段限流,并大幅提高 Opus 的 API 速率限制。5 月 13 日,又把 Claude Code 的周限额再提高 50%(至 7 月 13 日)。随后,从 6 月 15 日起,它做了与「慷慨」相反的事:把 agentic 与程序化使用(Agent SDK、无头模式 claude -p、CI 流水线)从扁平订阅中切出去,放进一个独立计量的 credit 池(每月 20 至 200 美元,按 API 价计费)。最后这一步把整套论点浓缩在一个动作里:agent 消耗 inference 的速度,远超扁平订阅的设计承受能力,因此必须按它本来的「经常性成本」来定价。训练是一次性的资本支出。inference 是一项经常性的运营成本,随每一个新用户、每一个新 agent 而复利累积。
五、这套栈:六层,一个瓶颈
每一个 AI 应用,都坐落在一条从 TSMC 晶圆厂开始、到 API 端点结束的供应链上:大多数公司只拥有其中一层。Nvidia 拥有硅,CoreWeave 拥有裸金属,Together AI 拥有推理优化,OpenRouter 拥有模型 API 路由。只有一家除外。
六、Hyperbolic:唯一横跨三层的公司
Hyperbolic 于 2025 年 6 月推出其按需 GPU 市场。在最初几个月里,它的开发者数量就突破了 20 万+,采用方覆盖前沿 AI 实验室、搜索,以及大型消费级平台。有意思的是它的架构。Hyperbolic 自己一张 GPU 都不持有。每一张卡都来自 neocloud 和数据中心,包括 CoreWeave、Lambda Labs、Nebius,以及手握闲置产能的更小运营商。这听起来像弱点,实则是护城河。
通过坐在 GPU 供给方与消费方之间,Hyperbolic 能看到别人看不到的实时数据。它知道谁在以什么价格、在什么时间买什么 GPU。它在供给过剩公开化之前就看到它,在需求飙升冲击市场之前就看到它。如今,护城河本身就是这套 multi-cloud 聚合。Hyperbolic 把来自数十个独立云与数据中心的碎片化产能,缝合成一个标准化的统一池,让开发者无需与每一家运营商谈判、也无需管理一堆账户,就能在任何地方租到最便宜的可用 GPU。它接入的云越多,流动性越深,定价数据越丰富。
再往后,团队正在探索如何用这些数据来建模 GPU 价格曲线,并最终投入自有资本来平滑供需,扮演物理算力的做市商角色;但这一目标仍处早期,真正在当下复利的是聚合层。这就是飞轮:接入更多云 → 更多被聚合的供给 → 更深的市场与实时定价数据 → 更聪明的路由。Hyperbolic 是唯一同时横跨 GPU 租赁层、部署层与模型 API 层的公司。
七、Venice 这面镜子
Venice 是 inference 经济在应用层最清晰的体现,也是与 Hyperbolic 所处位置的一个有用对照。它是一个隐私优先的推理应用:一套 OpenAI 兼容的 API,加上面向消费者的订阅,把请求路由到约 75 个模型上。关键在于,Venice 自己并不拥有有意义的算力。它从未公开的 GPU 合作方和机密计算供应商那里租用,并向前沿实验室付费做透传,所以它真正的 cost of revenue 是 inference 算力,而非 SaaS 托管。
Venice 真正卖的是隐私。这里说的「隐私化」不是把公共算力变成私产,而是给商品化的推理裹上一层保证:不留存数据、不拿去训练、请求匿名化。底层算力是大路货,加价卖的就是这层 privacy 包装。Venice 的毛利 = 订阅价 − 向下游支付的 inference 成本,而它能比裸 API 价多收的那部分,几乎全靠这层 privacy 溢价撑着。这是一门真实的生意,但是一门薄利的生意,其经济性受制于它所购买的算力。这正是 Hyperbolic 处在它上面一层的原因。如果说 Venice 是加油站,Hyperbolic 就是炼油厂。
八、为什么这件事此刻重要
Nvidia 围绕「服务 token」重组了财务。Cerebras 的 IPO 证明市场已经明白 inference 是瓶颈。Anthropic 为产能四处奔走,证明这是一个真实的问题。agentic 与 physical AI 将把需求放大几个数量级,横跨云端与端侧两条线。而它也从另一侧合上了「6000 亿美元问题」的环。Cahn 的看空逻辑,即过度建设、然后过剩,最终很可能会被验证。但过剩恰恰是轻资产聚合方的最优行情:当 GPU 价格下行、供给碎片化分散在数十个云上,那个不持有任何硬件、把每一份工作负载路由到最便宜可用卡上的玩家会赚取价差。
Hyperbolic 是做多过剩,而非做空它。最终胜出的公司,不会是拥有最多 GPU 的那一家,而是能告诉你哪些 GPU 在哪里、以什么价格可用,并把每一份工作负载路由到能以最低成本运行之处的那一家。Hyperbolic 正在打造这样一家公司。不自己拥有 GPU,纯软件,纵深三层,但却打造成为 inference 终极算力的聚合层。[IOSG]
当推理成为瓶颈:AI 6000亿美元问题中的加密货币机会
加密市场对人工智能的痴迷主要集中在迷因币、流动性质押衍生品和人工智能驱动的交易机器人上。与此同时,大多数市场参与者忽略了一个基础性转变:人工智能的基础设施已经发生了根本性转变。IOSG的Frank Fu分析揭示了一个关键的转折点:人工智能的瓶颈已经从训练阶段明确转向推理阶段,创造了一个6000亿美元的机会,而市场最近才开始对其定价。
从训练到推理的转变
随着超大规模供应商的资本支出持续超过最终用户的实际收入,David Cahn提出的”2000亿美元问题”已经膨胀为”6000亿美元问题”。尽管市场最初担心GPU的过度建设会导致供应过剩和资本破坏,但填补这一差距的真正解决方案并未出现在训练端,而是出现在推理端。
这不仅仅是一个学术辩论——它正被市场最重要的参与者所验证。NVIDIA围绕”服务代币”重组其财务报表,以及Cerebras股票认购超20倍的IPO,都不是巧合。它们表明,华尔街和半导体行业现在认识到推理才是真正的瓶颈。正如黄仁勋(Jensen Huang)所说:”代币现在是有利可图的”,这一非凡的承认表明计算能力已经可以通过API服务直接变现。
推理市场与训练市场有着根本性的不同——它是持续性的而非一次性的,随着每次用户交互和智能体部署而扩展。摩根大通估计它比训练市场大10-50倍,随着人工智能从基本推理转向基于智能体的编排,需求曲线几乎呈垂直增长。
推理堆栈中的代币化机会
对于加密投资者来说,这种转变创造了几种引人注目的机会:
1. 计算资源代币化
最直接的推算是计算资源的潜在代币化。NVIDIA对”服务代币”的构建表明,我们可能会看到代表GPU容量要求权的金融工具。在加密领域,这可能发展为:
– GPU容量期货或永续合约
– 代表去中心化GPU农场份额的代币
– 将闲置计算资源分配给出价最高者的质押机制
2. 去中心化GPU市场
随着市场变得越来越碎片化,创建GPU资源去中心化市场的项目可能捕获巨大价值。Hyperbolic的成功证明了聚合模式的强大之处,它从多个云提供商聚合容量而不拥有任何硬件。加密原生实现可以:
– 使个人能够将闲置GPU容量变现
– 为计算资源提供透明的定价机制
– 创建GPU容量的流动性市场
3. AI智能体预言机和数据市场
随着AI智能体开始为其他智能体执行任务,对可靠、实时数据的需求变得至关重要。提供以下服务的加密项目可能:
– 用于AI数据的去中心化预言机网络
– 用于训练和微调的代币化数据集
– 用于敏感AI训练数据的隐私保护数据市场
可能成为不可或缺的基础设施。
4. 通过代币激励优化路由
文章正确地指出,赢家不是拥有最多GPU的公司,而是能够将工作负载路由到最便宜可用资源的公司。这创造了以下机会:
– 基于代币的路由协议,优化跨提供商的工作负载
– 在碎片化计算市场中实现价格发现的机制
– 闲置容量利用的激励结构
风险与挑战
尽管这一论点引人注目,但仍需考虑几个风险:
集中化风险:尽管加密社区正在构建去中心化解决方案,但底层硬件仍集中在少数几家大型提供商手中。这种集中化可能会限制去中心化方法的有效性。
市场时机:市场在对推理机会的定价上可能超前于实际发展。Cahn提出的看跌观点——过度建设导致供应过剩——仍然可能成为现实,给基础设施提供商带来短期阻力。
监管不确定性:随着人工智能对基础设施变得越来越重要,监管审查可能会增加。在人工智能和加密领域交叉运营的项目可能面临独特的监管挑战。
技术过时:人工智能发展的速度意味着今天的最佳解决方案可能会很快过时。项目需要持续创新以维持其价值主张。
Hyperbolic的定位与聚合护城河
分析将Hyperbolic作为一个有趣的案例研究——一家跨越GPU租赁、部署和模型API层而不拥有任何硬件的公司。随着市场变得更加碎片化,这种”轻资产”方法创造了强大的护城河。
对于加密投资者而言,这表明最有价值的项目可能不是那些构建物理基础设施的项目,而是那些创造优化资源分配的经济层级的项目。真正的价值在于协调和优化现有资源,而不一定在于拥有它们。
结论
从训练到推理的转变代表了AI堆栈中价值的根本性重新排序。对于加密投资者来说,这创造了构建金融和经济层级的机会,这些层级将实现计算资源的高效分配。最有前景的项目很可能是那些能够在碎片化市场中创造流动性、优化跨提供商路由并实现计算容量代币化的项目。
随着推理压力的加剧和AI智能体开始以指数速率消耗资源,加密市场在这种新模式中创建金融基础设施的作用将变得越来越重要。6000亿美元的问题最终可能不是通过构建更多硬件来解决,而是通过为现有资源创建更高效的市场来解决。