全球化的智能
Token 服务

我们将 AI 推理抽象为标准化、可计量、可治理的 Smart Token Service——连接主流基础模型，适配各类 GPU 厂商。

查看文档

全球城市

<300ms

首 Token 延迟 (P50)

99.9%

SLA 目标

GPU / xPU 厂商

一个 API · 覆盖主流基础模型

OpenAIAnthropicGoogleDeepSeekQWENDoubaoLlamaMistralKimiZhipuGROKGemini

01 / 即插即用

三行代码，
就是这么简单。

我们兼容 OpenAI 协议。如果你的代码已经在调用 openai.chat.completions，只需改一个 base URL 即可。换模型只用改一个字符串，无 SDK 绑定。

✓OpenAI 兼容 · 适配 openai SDK、Claude Code、Cursor、Codex、LangChain

✓主流开源模型全覆盖 · DeepSeek、Qwen、豆包、Gemini、Llama、Mistral、Kimi —— 同一个 base URL

✓自动容灾 · 上游故障时自动切换，业务无感知

example.py

# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="https://smartoken.top/v1",
    api_key="stk-live-••••••••••••",
)

response = client.chat.completions.create(
    model="gpt-5.4-mini",
    messages=[
        {"role": "user", "content": "Explain TaaS in one tweet."}
    ],
)

print(response.choices[0].message.content)

● 200 OKrouted → sg-2 / gpt-5.4-mini

TTFT 38ms·247 tokens

$ run example

02 / 快速开始

四分钟上线，
不用四个迭代。

从注册到第一个 Token，一杯咖啡的时间足够了。

注册账号

支持邮箱或 GitHub 注册。

约 30 秒

账户充值

支持微信支付与 Stripe，按量付费。

约 1 分钟

创建密钥

按项目创建独立 API Key。

约 30 秒

接入应用

无缝集成到你的 Agent。

约 2 分钟

已支持：Claude CodeCodexCursorOpenClawHermesOpenRouterLangChainClineContinueAider

03 / 模型市场

主流模型，
一站接入。

浏览完整模型库 →

04 / 你真正能用上的能力

为生产环境而生，
而不只是 PPT。

智能 Token 工厂：覆盖广泛、计量精准、容灾智能，基础设施让数据留在该留的地方。

●

全球边缘推理 i

请求按地域就近处理：新加坡流量在新加坡跑，伦敦在伦敦跑——无需跨境数据传输，适合合规敏感型业务。

●

一个 API，覆盖全模态 ii

豆包、Qwen、DeepSeek、Gemini、Llama，以及企业自研模型——覆盖文本、图像、视频与多模态。OpenAI 兼容，换模型只用改一个字符串。

●

统一加速层 iii

在 NVIDIA GPU、AMD GPU、Google TPU 与 Groq LPU 之上提供统一抽象。自建优化推理栈（vLLM、SGLang、TensorRT-LLM）+ 分布式调度，性能稳定可预期。

●

智能路由与容灾 iv

当上游厂商发生异常，流量秒级切换到次优节点。模型名不变，业务无需改动——你的服务持续可用，直到上游修复。

●

Token 精准计量 v

按实际用量计费，输入/输出 Token 分别统计，可按项目、团队、密钥拆账。无需绑定信用卡即可开始，无最低消费。

●

面向企业的运维能力 vi

SSO、审计日志、按密钥限流、IP 白名单，所有模型统一开票。带 SLA 的可用性，配套状态页与故障处置流程。

05 / 价格

只为 Token 付费，
没有别的。

一种简单的模式：按 Token 用量付费。无席位费、无平台费、无最低消费。注册、充值、上线。

★ 大多数团队的选择

按量付费

¥0/ 起步免费，之后按 Token 计费

按实际 Token 用量逐次计费。每个模型的单价公开透明——无隐藏加价、无平台订阅费。任意金额充值即可开始。

+主流模型 / 全模态全覆盖
+Token 级精确计量，账单明细可查
+内置智能路由与自动容灾
+无需信用卡，无最低消费

企业版

面议

面向高并发、强监管、需要专属容量的团队。提供阶梯报价、定制 SLA 与多种部署方式。

+阶梯报价与预留容量
+专属端点，延迟稳定
+定制 SLA、审计日志、SSO 与 RBAC
+区域绑定与私有化部署
+专属解决方案工程师，7×24 支持

· 各模型单价在控制台公示· 账单自助查看，可在控制台下载明细发票· 量大自动享受阶梯折扣

06 / 从 Demo 到生产

不只是路由，
而是一个能撑起业务的平台。

专为「从 Demo 走到真实生产流量」这段路而设计——智能路由、边缘加速、深度推理优化、数据安全，皆为默认。

自营运，而非纯转发

关键模型由我们在自有基础设施上托管运营。

纯路由型平台会把上游每一次故障原样传给你。我们会替你吸收掉——多活部署、热备容量，以及在用户感知前先被报警拉起的工程师。

99.9%

SLA 目标

全球 PoP

全

模态覆盖

●

跨厂商智能路由

每次请求按延迟、成本或质量选择最优端点；可固定容灾链路，让上游故障表现为降级，而不是宕机。

●

全球网络加速

多地域 PoP 节点 + Anycast 入口 + 热池常驻，请求就近接入边缘节点，降低 TLS 握手与冷启动开销。

●

推理引擎深度优化

Prefill–Decode 分离、Continuous Batching、Paged KV Cache、Speculative Decoding —— 在相同硬件上把吞吐做高、把首 Token 延迟做低。

●

零留存数据安全

默认不留存任何 Prompt 与输出；区域绑定保证数据不出辖区；敏感业务可启用按密钥审计与请求签名。

07 / 常见问题

常见问题

没找到想问的？可以查看更详尽的文档，或直接联系我们。

查看文档

什么是 Token-as-a-Service (TaaS)？

TaaS 是一个统一的 API 平台，通过一个 OpenAI 兼容的端点访问主流闭源与开源 AI 模型——覆盖 LLM、图像、视频与音频。你按用量付 Token 费用，模型托管、容量、调度与容灾由我们负责。

Smartoken 与普通的 API 聚合服务有什么不同？

大多数聚合服务只是薄薄的一层代理：上游一抖，你的应用就跟着抖。我们在自有基础设施上托管运营关键模型，跨厂商做智能路由，并以 SLA 为整套服务兜底。你得到的是更广的覆盖、更高的可靠性，以及一张统一账单。

什么情况下应该用 TaaS 而不是自己部署？

如果团队的核心价值并不在于运维 GPU 集群，TaaS 能让你更快进入生产：不用做资源预置、批调度代码，也不必为推理故障专门轮班。把 80% 受益于弹性的业务交给 TaaS，只有当某个特定业务确实需要时再考虑自建专属端点。

价格到底是怎么算的？

按 Token 计量、按量付费。每个模型有公开的「每百万 Token」输入/输出单价。账户余额预先充值，调用时按实际消耗扣减。无平台费、无席位费、无最低消费。用量大可自动享受阶梯折扣，大客户可单独议价。

数据隐私与合规如何保障？

默认情况下，请求会在发起地的所在区域内处理——新加坡流量在新加坡跑，伦敦在伦敦跑。对敏感业务可开启零留存模式（不存储任何 Prompt 与输出）、区域绑定，以及按密钥的审计日志。可支持 PDPA、GDPR 等合规要求，也能配合金融级合规场景。

从 OpenAI 或其他厂商迁移过来麻烦吗？

把 base_url 和 API key 换掉就行——整个迁移就这两步。我们的端点 OpenAI 兼容（chat completions、embeddings、function calling、streaming），原有 SDK、Prompt 与工具链都无需改动。随时可以切回去，我们不锁定你的数据。

如何从按量付费切换到专属算力？

账号和 API 都不变。当某项业务规模超出共享容量——例如对延迟有稳定要求、处在强监管环境，或需要长期承载高 QPS——我们会在你现有密钥旁边再开通专属端点。迁移是一次配置变更，不是一次重新搭平台。

都支持哪些模型？

开源类：DeepSeek、Qwen、Llama、豆包、Mistral 等，覆盖文本、视觉与音频，共数十款。闭源类：Gemini 及部分企业模型，新供应商持续接入。完整目录在模型库中，可按能力、上下文窗口与价格筛选。

别再为不同厂商
的 API 来回拼接。

只对接一次，即可通过一个 OpenAI 兼容的端点接入所有主流模型、所有区域、所有价位档。

无需信用卡 · 按量付费 · 随时可停用

全球化的智能Token 服务

三行代码，就是这么简单。

四分钟上线，不用四个迭代。