返回博客列表

中国大模型 API 全球接入指南:从注册到生产部署

API 接入中国大模型OpenAI 兼容Claude API开发者指南

中国大模型 API 全球接入指南:从注册到生产部署

中国大模型 API 的性价比优势已经不是秘密了。问题是:人在海外,怎么把这些模型接进自己的应用?

这篇文章从拿到 API Key 开始,一路讲到生产可用的代码,附带 curl、Python、Node.js 完整示例。

好消息是——如果你的应用已经对接了 OpenAI 或 Anthropic API,接入中国大模型基本只是改个配置,不需要重写代码。

整体架构:海外如何调用中国大模型

海外用户调用中国大模型,通常通过聚合平台完成。这类平台部署在全球可达的节点上,对外暴露标准 API 协议,你不需要 VPN、中国手机号或任何特殊网络配置。

架构很简单:

你的应用 → 聚合平台(全球节点) → 中国大模型厂商

聚合平台负责上游认证、请求路由、负载均衡和计费。对你的应用来说,调用体验和直接调 OpenAI 或 Anthropic 没有区别。

支持的协议:

  • OpenAI 兼容协议: /v1/chat/completions —— 任何 OpenAI SDK 客户端直接可用
  • Claude 原生协议: /v1/messages —— Anthropic SDK 直接可用
  • Responses API: /v1/responses —— 支持 OpenAI 新版 Agent 风格接口

Base URL: https://gpt-agent.cc/v1

本文所有示例使用此地址。如果你用的是其他平台,替换成对应 URL 即可。

第一步:获取 API Key

流程很快:

  1. 打开聚合平台网站(如 https://gpt-agent.cc)。
  2. 用邮箱注册账号。
  3. 进入充值页面。
  4. 选一个小额套餐($10-$20 足够测试)。
  5. 支持国际信用卡、PayPal、USDT 付款。
  6. 付款后在控制台复制 API Key,即时生效。

一个 Key 通用所有模型,不需要为不同厂商分别申请。

第二步:配置客户端

Claude Code

在 Claude Code 配置中设置 API 端点:

{
  "apiBaseUrl": "https://gpt-agent.cc",
  "apiKey": "your-api-key"
}

所有请求会通过聚合平台路由,以更低的 token 单价使用 Claude 模型。

Cursor

在 Cursor 设置中找到 AI 配置,填入:

  • API Base URL: https://gpt-agent.cc/v1
  • API Key: 控制台中的 Key

VS Code(Continue 等扩展)

大多数 OpenAI 兼容的 VS Code 扩展都支持自定义 Base URL:

{
  "openai.baseUrl": "https://gpt-agent.cc/v1",
  "openai.apiKey": "your-api-key"
}

自定义应用

取决于你用的 SDK,参考下面的代码示例。

第三步:代码示例

curl

最快的连通性测试:

curl https://gpt-agent.cc/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "gpt-4o",
    "messages": [
      {"role": "user", "content": "用一段话解释量子计算。"}
    ]
  }'

换成中国大模型,只需要改 model 参数:

curl https://gpt-agent.cc/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "deepseek-r1",
    "messages": [
      {"role": "user", "content": "逐步求解:23! / 20! 等于多少?"}
    ]
  }'

Python(OpenAI SDK)

pip install openai

基础调用:

from openai import OpenAI

client = OpenAI(
    base_url="https://gpt-agent.cc/v1",
    api_key="your-api-key"
)

response = client.chat.completions.create(
    model="qwen-max",
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手。"},
        {"role": "user", "content": "越南的主要出口商品有哪些?"}
    ],
    temperature=0.7,
    max_tokens=1024
)

print(response.choices[0].message.content)

Python(Anthropic SDK —— Claude 原生协议)

pip install anthropic
import anthropic

client = anthropic.Anthropic(
    base_url="https://gpt-agent.cc",
    api_key="your-api-key"
)

message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "写一个 Python 函数,合并两个有序列表。"}
    ]
)

print(message.content[0].text)

Node.js(OpenAI SDK)

npm install openai
import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://gpt-agent.cc/v1",
  apiKey: "your-api-key",
});

async function main() {
  const response = await client.chat.completions.create({
    model: "deepseek-v3",
    messages: [
      { role: "user", content: "解释 REST 和 GraphQL 的区别。" },
    ],
    temperature: 0.7,
  });

  console.log(response.choices[0].message.content);
}

main();

流式输出

所有端点都支持流式响应(streaming),这对面向用户的应用至关重要——首个 token 的到达时间远快于等待完整响应。

Python 流式示例:

from openai import OpenAI

client = OpenAI(
    base_url="https://gpt-agent.cc/v1",
    api_key="your-api-key"
)

stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "写一个关于机器人的短故事。"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="", flush=True)

Node.js 流式示例:

const stream = await client.chat.completions.create({
  model: "gpt-4o",
  messages: [{ role: "user", content: "写一个关于机器人的短故事。" }],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content || "";
  process.stdout.write(content);
}

流式输出的行为与 OpenAI、Anthropic 官方 API 完全一致,无需额外配置。

错误处理与排查

常见问题及解决方法:

401 Unauthorized API Key 无效或已过期。检查控制台中的 Key,确认没有多余的空格或换行符。

402 Payment Required / 余额不足 预付 token 余额用完了。去平台控制台充值。

429 Too Many Requests 触发了速率限制。聚合平台的并发上限通常比直连厂商更高,但仍有限制。建议在客户端实现指数退避:

import time
from openai import OpenAI, RateLimitError

client = OpenAI(base_url="https://gpt-agent.cc/v1", api_key="your-api-key")

def call_with_retry(messages, model="gpt-4o", max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.chat.completions.create(model=model, messages=messages)
        except RateLimitError:
            wait = 2 ** attempt
            time.sleep(wait)
    raise Exception("重试次数已用尽")

500 / 502 / 503 服务端错误 上游临时故障,聚合平台通常会自动恢复。稍等片刻重试即可。如果持续超过几分钟,查看平台状态页。

超时错误 对于长时间运行的请求(大 max_tokens 或 DeepSeek-R1 等推理模型),需要增加客户端超时时间:

client = OpenAI(
    base_url="https://gpt-agent.cc/v1",
    api_key="your-api-key",
    timeout=120.0  # 秒
)

性能优化建议

按任务选模型。 简单分类任务不需要 GPT-4o,GLM-4-Flash 或 Qwen-Turbo 就够了,成本可能只有 1/50。模型能力要匹配任务复杂度。

利用缓存机制。 如果你的应用会重复发送相似 prompt(比如客服模板),平台的缓存命中机制会自动降低费用。把 system message 写成固定部分、user input 作为变量部分,可以最大化缓存命中率。

面向用户的场景一定要用流式输出。 首 token 延迟远低于等待完整响应,用户体验差距很大。

控制 prompt 长度。 输入 token 也要钱。system prompt 写精炼一点,不要每次请求都塞一堆无关上下文。

非实时任务做批处理。 如果有不急的工作负载(比如每晚的数据处理),集中在低峰时段跑,延迟可能更低。

模型选型速查表

| 模型 | 适用场景 | 上下文窗口 | 相对成本 | |---|---|---|---| | GPT-4o | 通用任务、复杂推理 | 128K | 中高 | | Claude 3.5 Sonnet | 编程、分析、长文档 | 200K | 中高 | | DeepSeek-R1 | 数学、逻辑、逐步推理 | 64K | 中 | | DeepSeek-V3 | 通用任务、高性价比 | 128K | 中低 | | Qwen-Max | 多语言、编程、推理 | 128K | 中 | | Qwen-Plus | 性能与成本均衡 | 128K | 中低 | | Qwen-Turbo | 速度优先、简单任务 | 128K | 低 | | Kimi(Moonshot) | 超长文档、研究分析 | 200K | 中 | | GLM-4 | 中英双语、通用任务 | 128K | 中低 | | GLM-4-Flash | 大批量、成本敏感 | 128K | 极低 | | MiniMax | 对话式 AI、聊天机器人 | 64K | 低 |

总结

接入中国大模型 API 没什么复杂的。如果你能调 OpenAI API,就能通过聚合平台调中国大模型。协议一样,SDK 一样,代码改动通常只是换个 Base URL 和 API Key。

真正的价值在于:一个 API Key 就能访问几十个模型,覆盖中西方主流厂商,价格比直连低得多。无论你在东南亚、欧洲还是其他地方,想优化 AI 开支,这是目前最实际的方案。

先充个小额测试,确认模型质量满足需求,再逐步放量。

中国大模型 API 全球接入指南:从注册到生产部署 - 贵州大模型云算力 Token 平台