OpenAI 发布智能合约基准测试,这意味着什么?

这不仅是合约能力测评,更是 Agent 的链上生存考试。

早上起床收到了一大堆私信,吓得我还以为 AGI 实现了。仔细看是 OpenAI 新发布了智能合约基准测试,简单讲讲这个。

一句话总结,Agent 理解、修复和运用智能合约的能力,并不是用来抢加密安全公司饭碗的。在我看来,这些能力指向的是一个更根本的问题:Agent 未来能否真正在加密环境中生存和行动。而 OpenAI 发布的 evmbench,就是衡量这种生存能力的刻度尺。

过年在外面还来不及详细解读报告,简单速揽了一遍,初步感觉是:这是个有创新,但总体还比较早期和简陋的 benchmark。基准使用了现实世界中 40 个真实项目里发生的 120 个高危漏洞。

考试分三科:科目一:找茬。寻找漏洞。科目二:修补。给它有漏洞的代码,让它把漏洞修好。科目三:攻击,AI 扮演黑客,在一个本地搭建的环境里,给通过操作加密钱包进行攻击。更具体的技术层不展开了,相比 evmbench 的方法论和题目细节本身,我更感兴趣的是为什么 OpenAI 会发布这个。

过去几年间,OpenAI 并未特别展现出对加密领域的兴趣。这次发布里显然有加密 VC Paradigm 在推波助澜,Paradigm 的动机自然不难理解,但发表的第一作者署名是 OpenAI,这说明 OpenAI 不只是被动配合,而是有主动意愿的。

那这个意愿从哪里来?一个直接的解释是这是 OpenAI 内部 Preparedness Framework 的延伸,评估前沿模型在高风险场景下的能力边界,智能合约安全只是其中一个部分。但这显然不是全部。

Agent 利用加密网络,不只是一种可能性,某种程度上是一种必然。OpenAI 当然也看得到这一点。在发布报告里也很明确提到 “we expect agentic stablecoin payments to grow”

但我认为这个命题并不止于 Agent 支付。我们现在讨论的 Agent,大多数还是工具属性的,人发出指令,Agent 执行,结果返回给人。但这个形态不会是终点。当 Agent 的数量足够多、能力足够强,它们之间显然会开始直接协作:一个 Agent 雇佣另一个 Agent 完成子任务,一个 Agent 向另一个 Agent 购买数据或算力,一个 Agent 代表某个组织与另一个组织的 Agent 谈判、签约、履约。

人退出了交易的中间环节。这时候一个根本问题浮出水面:当人不再居中,这套经济体系靠什么运转?

人类社会解决信任和协作,靠的是几千年碳基文明积累出来的一套体系,法律、声誉、机构担保等等。但这套体系的底层逻辑是为人设计的:参与方有持续身份,有社会后果,有被追责的可能。Agent 天然不满足这个前提。它可以一秒发起千笔交易,可以随时销毁重建身份,可以无视任何司法边界。

有人会说,那就把 Agent 和人类身份强行绑定,用人类授权来做担保。但这等于把一套为碳基生命设计的枷锁,套在一个运行速度和规模完全不同的物种身上,不只是低效,而是从根本上误解了 Agent 是什么。更何况,Agent 的演化方向必然指向更高的自主性。未来的 Agent 很可能不依附于任何人类个体,没有 “主人”,没有可以绑定的人类身份,它就是独立的行动者。到那时,这套绑定逻辑连锚点都找不到。

把人类的信任基础设施套在 Agent 社会上,就像用马车的路规来管飞机。Agent 社会需要自己的基础设施。

智能合约提供了这种可能。它不依赖 “你相信对方会履约”,而是把履约条件写进代码,由网络强制执行。没有仲裁员,没有等待期,条件触发,结果自动发生。

更进一步,智能合约可能不只是结算工具,而是 Agent 组织形态本身——治理规则、资源分配、任务调度,全部在链上定义,执行靠代码,不需要任何人居中。

而当一部分 Agent 就生活在链上,与各种合约交互本身就是它每一天的全部。如何读懂一份合约,如何在复杂的协议里找到自己的位置,如何识别陷阱、规避风险、在这个没有客服、没有申诉、没有撤销键的世界里活下去。这一切依赖的,都是对合约的理解和运用。能力不够,就是真实的损失,判断失误,就是永久的。

所以回头看 EVMbench,它测的能力,读懂合约、发现漏洞、构造交易、执行攻击,本质上是在回答一个问题:Agent 是否已经学会做这个新世界生存。

🚀 Bybit 限时优惠: 全球流动性第一平台!新用户注册享最高 30,000 USDT 体验金,并自动激活 20% 永久手续费返佣
立即加入 Bybit

OpenAI 大概率已经意识到,谁的 Agent 学会在链上世界自主生存,谁就拿到了下一阶段的入场券。更进一步,未来的 agent 可能已经不能用谁的来形容。他们也许就是独立的个体。

最后说点不相干的,大家集体 DM 我是因为我在一年半前曾经做过一个兴趣项目 CryptoBench,感谢朋友们还记得它。GitHub – xxcg322/CryptoBench

这是第一个检测 AI 在加密领域能力的 Benchmark,包括了从密码学算法,区块链底层,智能合约,生态,DAO 治理等多方面的测试,其中智能合约部分也包含了检测和修复,而参考的漏洞本身,一部分和 OpenAI 这次参考的漏洞集是一样的。

Benchmark 发布的时候还是得到了不少朋友的支持和鼓励。不过那时候我的感觉是,真正理解他的朋友并不是太多。虽然我很久没提过这玩意了,但我对它还是很满意和骄傲的。过几天讲讲这个背后的故事,我为什么认为这类的基准非常重要,我从过程中学到什么,以及为什么最近一年没再提这事。

另外 Benchmark 本身也是我在 AI 领域非常感兴趣的方向,我最近刚刚对 2019-2025 年发布的 2 万 2 千个各类的 AI benchmark 做了数据研究,也有很多有趣的发现。等我玩回来也给大家分享下。

[Wu Shuo]

RichSilo独家分析:

OpenAI的evmbench:AI与区块链融合的范式转变

OpenAI发布evmbench标志着人工智能与区块链技术交汇处的一个分水岭时刻。这不仅仅是在拥挤的人工智能评估领域中的另一个基准测试;这是一种深思熟虑的战略定位,表明OpenAI认识到区块链环境是自主代理能力的关键测试场。对于经验丰富的加密货币投资者来说,这一发展需要立即关注,因为它正在重塑我们对价值将在即将到来的AI代理经济中积累在哪里的理解。

战略意义

使evmbench特别值得注意的是,OpenAI之前与加密生态系统的关系甚微。加密货币VC Paradigm的参与表明存在战略一致,但OpenAI作为报告的作者表明这不仅仅是被动合作——而是主动的、有意的参与。这使得OpenAI成为区块链安全领域潜在的颠覆者,而这个领域传统上由专业公司和审计机构主导。

基准测试的三部分结构——识别漏洞、修补代码和执行攻击——为评估AI代理的链上能力创建了一个全面框架。参考了40个真实项目中120个高危漏洞,evmbench建立了一个基线,这将不可避免地提高区块链环境中AI能力的要求。

市场影响:链上生存经济

文章的核心论点是,这个基准测试衡量的是代理在加密环境中”生存”的能力,这与加密货币投资者的认识产生了强烈共鸣。我们正在见证我所称的”链上生存经济”的出现,在这个经济体系中,AI代理需要自主导航区块链协议、管理资源、执行交易和减轻风险,而无需人工干预。

这创造了几项直接的投资启示:

  1. AI-区块链集成代币:使AI代理能够与区块链协议无缝交互的项目可能会看到不成比例的价值捕获。寻找促进代理间交易、计算资源共享和去中心化AI模型部署的代币。

  2. 智能合约安全演变:传统安全模式将面临颠覆。我们将看到以人为中心的审计与AI驱动的持续监控之间的分化,为那些能够利用AI进行实时漏洞检测和响应的平台创造机会。

  3. 代理基础设施:对特定于代理的基础设施——身份管理、声誉系统和激励机制——的需求将创造新的投资前沿。在代理经济中解决协调问题的项目将获得显著上涨的潜力。

风险与挑战

AI与区块链的融合并非没有重大风险:

  • 攻击向量演变:随着代理变得更加复杂,他们可能会开发出当前安全框架无法预见的新型攻击模式。evmbench的”攻击”部分承认了这一现实,表明我们正在进入一个由AI生成的安全威胁时代。

  • 监管不确定性:在区块链网络上运行的自主代理存在于监管的灰色地带。随着这些系统能力的提升,监管审查将加强,可能会为启用代理经济的项目创造合规障碍。

  • 技术复杂度差距:当前的AI模型仍然难以理解复杂智能合约所需的细微差别。正如作者所指出的,基准测试的”初步”性质表明我们仍处于早期阶段,仍有重大的技术障碍需要克服。

机会分析

对于精明的投资者来说,出现了几个战略机会:

  1. 早期AI代理项目:寻找结合了深厚AI专业知识和区块链理解的团队。evmbench的成功可能会催生一类专为区块链环境设计的AI代理。

  2. 即用基准测试服务:基准测试趋势将超越OpenAI的倡议,为提供AI区块链能力评估服务的专业公司创造机会。

  3. 跨协议创新:随着生态系统变得更加碎片化,使AI代理能够跨多个区块链协议交互的项目将获得战略重要性。

  4. 去中心化AI网络:作者关于代理可能成为”独立个体”的见解表明,我们将看到真正去中心化AI网络的出现,其中所有权和控制权是分散的,而非集中化的。

个人反思:CryptoBench的先例

作者提及他们早期的CryptoBench项目,增添了重要的历史背景。CryptoBench在当时就认识到在特定加密领域评估AI能力的重要性,领先于时代。一些漏洞引用与OpenAI最新基准测试重叠的事实验证了作者的前瞻性,表明我们正在进入一个专业化AI评估将变得日益重要的时代。

这种融合不仅仅代表技术进步——它标志着一个新的经济范式开始,在这个范式中,自主代理在区块链网络上运行、交易和协调。对于投资者来说,理解和定位这一转变对于捕捉加密生态系统中的下一波价值创造至关重要。

问题不再是AI是否会与区块链交互,而是哪些项目将最有效、最安全地实现这种交互。OpenAI的evmbench刚刚使这个问题比以往任何时候都更加紧迫——也更加充满机遇。

🚀 Bybit 限时优惠: 全球流动性第一平台!新用户注册享最高 30,000 USDT 体验金,并自动激活 20% 永久手续费返佣
立即加入 Bybit