Cloudflare 的 AI 平台:为 agent 设计的推理层

原文:Cloudflare’s AI Platform: an inference layer designed for agents Source: https://blog.cloudflare.com/ai-platform/

2026-04-16

AI 模型变化得很快:今天用于 agentic coding 的最佳模型,三个月后可能就是来自不同提供商的完全不同的模型。除此之外,真实世界的用例往往需要调用不止一个模型。你的客户支持 agent 可能用一个快速、便宜的模型对用户消息分类;用一个大型推理模型来计划行动;用一个轻量模型来执行单独的任务。

这意味着你需要访问所有模型,而不是在财务上和运营上把自己绑到单一的供应商。你还需要合适的系统来跨供应商监控成本,在某个供应商出现停机时确保可靠性,并且无论你的用户在哪儿都能管理延迟。

每当你在用 AI 构建时,这些挑战都存在,但当你构建 agent 时,它们变得更紧迫。一个简单的聊天机器人可能每个用户提示进行一次推理调用。一个 agent 可能链接十次调用来完成一个任务,突然之间,一个慢的供应商不是增加 50ms,而是 500ms。一次失败的请求不是一次重试,而突然之间是一连串下游故障。

自从推出 AI Gateway 和 Workers AI 以来,我们见证了在 Cloudflare 上构建 AI 驱动应用的开发者们令人难以置信的采纳,我们也一直在快速迭代以跟上!仅在过去几个月,我们重做了 dashboard,添加了零设置的默认 gateway、上游故障时的自动重试,以及更细粒度的日志控制。今天,我们将 Cloudflare 变成一个统一的推理层:一个 API 访问任何提供商的任何 AI 模型,生来就快速且可靠。

一个 catalog,一个统一 endpoint

从今天起,你可以使用与 Workers AI 相同的 AI.run() binding 调用第三方模型。如果你正在使用 Workers,从一个 Cloudflare 托管的模型切换到来自 OpenAI、Anthropic 或任何其他提供商的模型只需一行更改。

const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});

对于不使用 Workers 的人,我们将在接下来几周发布 REST API 支持,这样你可以从任何环境访问完整的模型 catalog。

我们也很高兴地分享,你现在可以访问超过 12 家提供商的 70+ 模型——所有这些都通过一个 API、一行代码切换、一套 credit 来支付。我们正在快速扩展。

你可以浏览我们的模型 catalog来找到适合你用例的最佳模型,从托管在 Cloudflare Workers AI 上的开源模型,到主要模型供应商的专有模型。我们很高兴扩展访问 Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway 和 Vidu 的模型——他们将通过 AI Gateway 提供他们的模型。值得注意的是,我们正在扩展我们的模型产品以包括图像、视频和语音模型,这样你可以构建多模态应用。

通过一个 API 访问所有模型也意味着你可以在一个地方管理所有 AI 支出。今天大多数公司平均跨多个供应商调用 3.5 个模型,这意味着没有一个供应商能给你一个 AI 用量的整体视图。有了 AI Gateway,你将得到一个集中的地方来监控和管理 AI 支出。

通过在请求中包含自定义 metadata,你可以按你最关心的属性获取成本细分,例如按免费 vs 付费用户、按个别客户,或按你应用中的特定工作流。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
prompt: 'What is AI Gateway?'
      },
      {
metadata: { "teamId": "AI", "userId": 12345 }
      }
    );

自带模型

AI Gateway 通过一个 API 给你访问所有提供商的模型。但有时你需要运行一个你在自己的数据上微调过的模型,或一个为你的特定用例优化过的模型。为此,我们正在让用户把自己的模型带到 Workers AI。

我们绝大多数流量来自运行自定义模型的企业客户的专用实例,我们想把这个能力带给更多客户。为此,我们利用 Replicate 的 Cog 技术帮你把机器学习模型容器化。

Cog 设计得相当简单:你需要做的就是在一个 cog.yaml 文件中写下依赖,在一个 Python 文件中写下你的推理代码。Cog 抽象掉了打包 ML 模型的所有难事,例如 CUDA 依赖、Python 版本、权重加载等。

cog.yaml 文件示例:

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

predict.py 文件示例,它有一个设置模型的函数和一个在你收到推理请求(预测)时运行的函数:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self,
            image: Path = Input(description="Image to enlarge"),
            scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

然后,你可以运行 cog build 来构建你的容器镜像,把你的 Cog 容器推送到 Workers AI。我们将为你部署和服务这个模型,然后你通过你常用的 Workers AI API 来访问它。

我们正在做一些大项目以将这个能力带给更多客户,例如面向客户的 API 和 wrangler 命令,这样你可以推送自己的容器,以及通过 GPU snapshot 实现更快的冷启动。我们一直在内部与 Cloudflare 团队和一些指导我们愿景的外部客户测试。如果你有兴趣成为我们的设计合作伙伴,请联系我们!很快,任何人都将能够打包他们的模型并通过 Workers AI 使用它。

通向首个 token 的快速路径

如果你正在构建实时 agent,使用 Workers AI 模型加 AI Gateway 特别有威力——用户对速度的感知取决于首个 token 时间或 agent 多快开始响应,而不是完整响应需要多久。即使总推理是 3 秒,把那个首个 token 提早 50ms 也使得 agent 感觉灵活和迟缓之间的差别。

Cloudflare 在全球 330 个城市的数据中心网络意味着 AI Gateway 既靠近用户也靠近推理 endpoint,把流式开始之前的网络时间降到最低。

Workers AI 也在其公共 catalog 上托管开源模型,现在包括为 agent 量身打造的大型模型,包括 Kimi K2.5 和实时语音模型。当你通过 AI Gateway 调用这些 Cloudflare 托管的模型时,因为你的代码和推理运行在同一个全球网络上,所以没有跨公网的额外跳数,给你的 agent 提供尽可能低的延迟。

为可靠性而生,自动 failover

构建 agent 时,速度不是用户唯一关心的因素——可靠性也很重要。Agent 工作流中的每一步都依赖于它之前的步骤。可靠的推理对 agent 至关重要,因为一次调用失败可能影响整个下游链。

通过 AI Gateway,如果你正在调用一个在多个提供商上可用的模型,而其中一个提供商宕机,我们将自动路由到另一个可用的提供商,无需你写任何 failover 逻辑。

如果你正在用 Agents SDK 构建长时间运行的 agent,你的流式推理调用对断开也是有韧性的。AI Gateway 在生成时缓冲流式响应,独立于你的 agent 生命周期。如果你的 agent 在推理中途被中断,它可以重新连接到 AI Gateway 并取回响应,无需进行新的推理调用,也不必为相同的输出 token 付费两次。结合 Agents SDK 的内置 checkpoint,最终用户永远不会注意到。

Replicate

Replicate 团队已正式加入我们的 AI Platform 团队,以至于我们甚至不再认为自己是独立的团队。我们一直在努力做 Replicate 与 Cloudflare 之间的集成,包括把所有 Replicate 模型带到 AI Gateway 上,以及把托管模型重新平台化到 Cloudflare 基础设施上。很快,你将能通过 AI Gateway 访问你在 Replicate 上喜欢的模型,也能在 Workers AI 上托管你部署在 Replicate 上的模型。

开始

要开始,查看我们的文档:AI Gateway 或 Workers AI。通过 Agents SDK 了解更多关于在 Cloudflare 上构建 agent 的信息。

Keyboard shortcuts