Step-3.7-Flash 上线:面向 Agent、Coding 和多模态工作流的旗舰 Flash 模型
StepFun/阶跃星辰在 2026 年 5 月 29 日正式发布了 step-3.7-flash。从官方资料看,这不是一个只强调聊天体验的通用模型,而是更明确地面向 Agent、Coding、工具调用、长上下文和多模态工作流:它支持 256K tokens 上下文,提供 OpenAI Chat Completions 与 Anthropic Messages 兼容接口,同时开放权重,适配 vLLM、SGLang、Transformers、llama.cpp 和 NVIDIA NIM 等推理栈。
如果你的业务正在做自动化 Agent、代码生成与修复、长文档处理、截图转代码、图片/视频理解、票据转表格,step-3.7-flash 值得进入候选模型池。需要说明的是,本文涉及的参数、价格、速度和榜单指标主要来自 StepFun 官方文档、模型卡和合作平台披露;在更广泛的第三方复现之前,建议把这些数字作为“官方公布指标”引用,并用自己的任务集做上线前评测。
一句话概括
step-3.7-flash 是 StepFun 新上线的开权重多模态推理模型,主打高频 Agent、Coding 和多模态任务。它采用稀疏 MoE 架构,官方文档写到约 198B 总参数、约 11B 激活参数;模型卡进一步说明为 196B 语言主干加 1.8B 视觉编码器。上下文长度为 256K tokens,官方称最高生成速度可达 400 tokens/s,并支持 low、medium、high 三档 reasoning effort。
这组特性意味着它的核心卖点不是单个维度,而是组合能力:长上下文能装下更多任务状态,视觉编码器让图片和视频进入同一个工作流,MoE 设计兼顾总容量与活跃计算量,reasoning effort 则让开发者可以在延迟、成本和复杂推理之间做更细的调度。
核心规格速览
| 项目 | 信息 |
| --- | --- |
| 模型 ID | step-3.7-flash |
| 发布方 | StepFun / 阶跃星辰 |
| 官方发布页日期 | 2026-05-29 |
| 定位 | 旗舰多模态推理模型,面向 Agent、Coding、多模态工作流 |
| 架构 | 稀疏 MoE |
| 参数规模 | 约 198B 总参数,约 11B 激活参数 |
| 模型卡细节 | 196B 语言主干 + 1.8B 视觉编码器 |
| 上下文 | 256K tokens |
| 推理强度 | low、medium、high |
| 生成速度 | 厂商称最高可达 400 tokens/s |
| 权重许可 | Apache-2.0 |
| API 协议 | OpenAI Chat Completions、Anthropic Messages |
对工程团队来说,最应该优先验证的是三个点:长上下文质量、工具调用稳定性、多模态结构化输出。一个模型能写出漂亮回答不等于能稳定完成生产任务;真正的价值要落在它是否能减少 Agent 步数、降低人工修正率、通过测试,以及在长输入下仍然抓住关键约束。
为什么它适合 Agent
Agent 系统通常不是一次问答,而是“读任务 -> 规划 -> 调工具 -> 观察结果 -> 修正计划 -> 输出”的循环。这个循环对模型提出了几个要求:
- 能理解足够长的任务上下文。
- 能稳定输出工具参数和结构化 JSON。
- 能在低延迟和深推理之间切换。
- 能处理截图、表格、文档、日志等混合输入。
step-3.7-flash 的 256K tokens 上下文适合承载更完整的任务状态,例如系统规则、工具说明、历史调用结果、产品文档、代码片段和用户原始材料。对于需要多轮工具调用的 Agent,长上下文可以减少反复摘要带来的信息损失。
reasoning effort 的三档控制也很实用。low 可以用于分类、路由、简单抽取和低风险草稿;medium 可以用于常规分析和代码辅助;high 更适合跨文件定位问题、长文档推理、多步计划和严格格式转换。实际部署时,不建议所有请求都开最高档,而是按任务风险和复杂度路由。
Coding 场景:先从可验证任务开始
在 AI 编程里,模型的“看起来会写代码”不够,关键是生成的 patch 是否能通过测试,解释是否符合真实代码结构,修复是否不会引入新问题。step-3.7-flash 可以优先放到这些任务里试:
- 根据错误日志定位可能的 bug。
- 为现有函数补测试用例。
- 解释 PR diff 和潜在风险。
- 根据 API 变更迁移调用方式。
- 把截图中的 UI 拆成前端组件结构。
- 在长上下文里阅读多个相关文件并提出最小修改方案。
建议不要只用公开 benchmark 做判断。更好的做法是拿自己的历史 issue、真实 PR、CI 失败样本、前端页面截图和内部代码规范做小型评测。指标可以包括测试通过率、人工修改次数、首 token 延迟、完整任务成本、格式错误率和代码审查通过率。
多模态:从“看懂图片”走向“完成工作流”
多模态能力的价值不只是描述图片内容,而是把图片、视频和文本材料转成可执行的结构化结果。step-3.7-flash 官方资料强调图片和视频理解,模型卡也把视觉编码器列入架构说明,因此它适合优先测试这些任务:
- 截图转代码:从产品截图生成 HTML/CSS、React 组件草稿或 UI 区块说明。
- 票据转表格:从收据、发票、订单截图里提取字段。
- 图表转数据:识别图表中的趋势、标签和数值。
- 视频/录屏分析:总结操作路径、定位异常状态。
- 表单理解:从复杂表单截图中抽取字段、校验规则和填写状态。
这些任务尤其需要真实样本。清晰截图和模糊截图、中文票据和英文票据、标准表格和歪斜扫描件,难度完全不同。上线前最好准备一套 golden set,用字段级准确率、格式稳定性和人工复核时间来评估。
API、区域和价格
StepFun 官方资料显示,step-3.7-flash 可通过中国区和国际区 API 接入:
- 中国区 Base URL:
https://api.stepfun.com/v1 - 国际区 Base URL:
https://api.stepfun.ai/v1 - 模型 ID:
step-3.7-flash
协议上,它兼容 OpenAI Chat Completions,也兼容 Anthropic Messages。对已经接入 OpenAI SDK、Anthropic SDK、Claude Code、Cursor 或自建模型网关的团队来说,初始接入通常是改 base URL、model ID、鉴权和少量参数,而不是重写业务逻辑。
截至本文整理时,官方价格如下:
| 区域 | 输入缓存未命中 | 输入缓存命中 | 输出 | | --- | ---: | ---: | ---: | | 中国区 | 1.35 元 / 1M tokens | 0.27 元 / 1M tokens | 8.1 元 / 1M tokens | | 国际区 | $0.20 / 1M tokens | $0.04 / 1M tokens | $1.15 / 1M tokens |
对长上下文和 Agent 业务来说,缓存命中价格非常关键。系统 prompt、工具描述、schema、策略说明、固定代码上下文如果能复用,缓存会明显影响单任务成本。反过来,如果每次请求都包含大量变化内容,长上下文成本仍然需要认真核算。
OpenAI 兼容调用示例
如果你使用 OpenAI SDK,可以按 Chat Completions 风格接入:
from openai import OpenAI
client = OpenAI(
api_key="your-stepfun-api-key",
base_url="https://api.stepfun.ai/v1"
)
response = client.chat.completions.create(
model="step-3.7-flash",
messages=[
{"role": "system", "content": "你是谨慎的代码审查助手。"},
{"role": "user", "content": "请阅读这段错误日志,推测最可能的修复方向:..."}
],
temperature=0.2
)
print(response.choices[0].message.content)
中国区可把 base_url 换成 https://api.stepfun.com/v1。多模态内容、reasoning effort 参数、流式输出和工具调用细节,建议以当前官方文档为准。
Anthropic Messages 兼容接入
如果你的应用已经围绕 Claude Messages 建立,也可以用 Anthropic Messages 风格逐步评估:
import anthropic
client = anthropic.Anthropic(
api_key="your-stepfun-api-key",
base_url="https://api.stepfun.ai/v1"
)
message = client.messages.create(
model="step-3.7-flash",
max_tokens=2048,
system="你是熟悉前端工程的多模态助手。",
messages=[
{
"role": "user",
"content": "请根据这张产品截图,整理主要 UI 区块与可实现的组件拆分。"
}
]
)
print(message.content[0].text)
这类兼容能力适合渐进式上线:先把低风险任务切到新模型,保留现有日志、限流、fallback 和成本统计,再逐步扩大到更复杂的 Agent 或多模态任务。
开权重和本地部署
step-3.7-flash 的模型卡和权重以 Apache-2.0 形式开放,并提供 vLLM、SGLang、Transformers、llama.cpp、NVIDIA NIM 等部署路径。对有数据安全、内网部署、低延迟或成本可控需求的团队,这是一个重要信号。
不过自建推理并不自动等于更便宜。你需要把 GPU、调度、并发、监控、缓存、版本升级、多模态预处理和故障恢复都算进去。比较稳妥的路线是先用 API 建立真实任务评测,再根据调用量、数据合规和延迟要求判断是否值得自建。
接入建议:把它作为模型路由的一部分
工程上,不建议把任何新模型直接当成唯一答案。更稳的方式是把 step-3.7-flash 放进统一 LLM API gateway 或模型路由层:
- 用同一套日志记录模型、任务、输入长度、输出长度、延迟和成本。
- 按任务类型选择 reasoning effort。
- 对代码任务接入测试结果和人工审查反馈。
- 对多模态任务记录字段级准确率和复核耗时。
- 保留 fallback 模型,避免单一路由异常影响业务。
这样接入的好处是,你可以同时比较 step-3.7-flash 与其他模型在真实任务中的表现,而不是只看厂商发布页。对客户侧产品来说,也可以通过 OpenAI 兼容或 Claude Messages 兼容接口渐进接入,不需要让每个业务模块分别理解不同厂商 API。
小结
step-3.7-flash 的亮点在于组合能力:256K 长上下文、多模态理解、MoE 架构、reasoning effort 控制、OpenAI/Anthropic 兼容接口,以及 Apache-2.0 开权重路线。它特别适合进入 Agent、Coding、长文档和视觉结构化任务的候选池。
但真正是否适合生产,不取决于宣传页上的单个数字,而取决于你自己的任务集:能否通过测试,能否稳定输出结构化结果,能否降低人工处理时间,能否在成本和延迟上达标。建议从小流量、可验收、可回滚的任务开始,把官方指标当作线索,把真实评测当作决策依据。