Step-3.7-Flash 上线：面向 Agent、Coding 和多模态工作流的旗舰 Flash 模型

2026年5月30日

StepFunstep-3.7-flashAgentAI 编程多模态模型

StepFun/阶跃星辰在 2026 年 5 月 29 日正式发布了 step-3.7-flash。从官方资料看，这不是一个只强调聊天体验的通用模型，而是更明确地面向 Agent、Coding、工具调用、长上下文和多模态工作流：它支持 256K tokens 上下文，提供 OpenAI Chat Completions 与 Anthropic Messages 兼容接口，同时开放权重，适配 vLLM、SGLang、Transformers、llama.cpp 和 NVIDIA NIM 等推理栈。

如果你的业务正在做自动化 Agent、代码生成与修复、长文档处理、截图转代码、图片/视频理解、票据转表格，step-3.7-flash 值得进入候选模型池。需要说明的是，本文涉及的参数、价格、速度和榜单指标主要来自 StepFun 官方文档、模型卡和合作平台披露；在更广泛的第三方复现之前，建议把这些数字作为“官方公布指标”引用，并用自己的任务集做上线前评测。

一句话概括

step-3.7-flash 是 StepFun 新上线的开权重多模态推理模型，主打高频 Agent、Coding 和多模态任务。它采用稀疏 MoE 架构，官方文档写到约 198B 总参数、约 11B 激活参数；模型卡进一步说明为 196B 语言主干加 1.8B 视觉编码器。上下文长度为 256K tokens，官方称最高生成速度可达 400 tokens/s，并支持 low、medium、high 三档 reasoning effort。

这组特性意味着它的核心卖点不是单个维度，而是组合能力：长上下文能装下更多任务状态，视觉编码器让图片和视频进入同一个工作流，MoE 设计兼顾总容量与活跃计算量，reasoning effort 则让开发者可以在延迟、成本和复杂推理之间做更细的调度。

核心规格速览

| 项目 | 信息 | | --- | --- | | 模型 ID | step-3.7-flash | | 发布方 | StepFun / 阶跃星辰 | | 官方发布页日期 | 2026-05-29 | | 定位 | 旗舰多模态推理模型，面向 Agent、Coding、多模态工作流 | | 架构 | 稀疏 MoE | | 参数规模 | 约 198B 总参数，约 11B 激活参数 | | 模型卡细节 | 196B 语言主干 + 1.8B 视觉编码器 | | 上下文 | 256K tokens | | 推理强度 | low、medium、high | | 生成速度 | 厂商称最高可达 400 tokens/s | | 权重许可 | Apache-2.0 | | API 协议 | OpenAI Chat Completions、Anthropic Messages |

对工程团队来说，最应该优先验证的是三个点：长上下文质量、工具调用稳定性、多模态结构化输出。一个模型能写出漂亮回答不等于能稳定完成生产任务；真正的价值要落在它是否能减少 Agent 步数、降低人工修正率、通过测试，以及在长输入下仍然抓住关键约束。

为什么它适合 Agent

Agent 系统通常不是一次问答，而是“读任务 -> 规划 -> 调工具 -> 观察结果 -> 修正计划 -> 输出”的循环。这个循环对模型提出了几个要求：

能理解足够长的任务上下文。
能稳定输出工具参数和结构化 JSON。
能在低延迟和深推理之间切换。
能处理截图、表格、文档、日志等混合输入。

step-3.7-flash 的 256K tokens 上下文适合承载更完整的任务状态，例如系统规则、工具说明、历史调用结果、产品文档、代码片段和用户原始材料。对于需要多轮工具调用的 Agent，长上下文可以减少反复摘要带来的信息损失。

reasoning effort 的三档控制也很实用。low 可以用于分类、路由、简单抽取和低风险草稿；medium 可以用于常规分析和代码辅助；high 更适合跨文件定位问题、长文档推理、多步计划和严格格式转换。实际部署时，不建议所有请求都开最高档，而是按任务风险和复杂度路由。

Coding 场景：先从可验证任务开始

在 AI 编程里，模型的“看起来会写代码”不够，关键是生成的 patch 是否能通过测试，解释是否符合真实代码结构，修复是否不会引入新问题。step-3.7-flash 可以优先放到这些任务里试：

根据错误日志定位可能的 bug。
为现有函数补测试用例。
解释 PR diff 和潜在风险。
根据 API 变更迁移调用方式。
把截图中的 UI 拆成前端组件结构。
在长上下文里阅读多个相关文件并提出最小修改方案。

建议不要只用公开 benchmark 做判断。更好的做法是拿自己的历史 issue、真实 PR、CI 失败样本、前端页面截图和内部代码规范做小型评测。指标可以包括测试通过率、人工修改次数、首 token 延迟、完整任务成本、格式错误率和代码审查通过率。

多模态：从“看懂图片”走向“完成工作流”

多模态能力的价值不只是描述图片内容，而是把图片、视频和文本材料转成可执行的结构化结果。step-3.7-flash 官方资料强调图片和视频理解，模型卡也把视觉编码器列入架构说明，因此它适合优先测试这些任务：

截图转代码：从产品截图生成 HTML/CSS、React 组件草稿或 UI 区块说明。
票据转表格：从收据、发票、订单截图里提取字段。
图表转数据：识别图表中的趋势、标签和数值。
视频/录屏分析：总结操作路径、定位异常状态。
表单理解：从复杂表单截图中抽取字段、校验规则和填写状态。

这些任务尤其需要真实样本。清晰截图和模糊截图、中文票据和英文票据、标准表格和歪斜扫描件，难度完全不同。上线前最好准备一套 golden set，用字段级准确率、格式稳定性和人工复核时间来评估。

API、区域和价格

StepFun 官方资料显示，step-3.7-flash 可通过中国区和国际区 API 接入：

中国区 Base URL：https://api.stepfun.com/v1
国际区 Base URL：https://api.stepfun.ai/v1
模型 ID：step-3.7-flash

协议上，它兼容 OpenAI Chat Completions，也兼容 Anthropic Messages。对已经接入 OpenAI SDK、Anthropic SDK、Claude Code、Cursor 或自建模型网关的团队来说，初始接入通常是改 base URL、model ID、鉴权和少量参数，而不是重写业务逻辑。

截至本文整理时，官方价格如下：

| 区域 | 输入缓存未命中 | 输入缓存命中 | 输出 | | --- | ---: | ---: | ---: | | 中国区 | 1.35 元 / 1M tokens | 0.27 元 / 1M tokens | 8.1 元 / 1M tokens | | 国际区 | $0.20 / 1M tokens | $0.04 / 1M tokens | $1.15 / 1M tokens |

对长上下文和 Agent 业务来说，缓存命中价格非常关键。系统 prompt、工具描述、schema、策略说明、固定代码上下文如果能复用，缓存会明显影响单任务成本。反过来，如果每次请求都包含大量变化内容，长上下文成本仍然需要认真核算。

OpenAI 兼容调用示例

如果你使用 OpenAI SDK，可以按 Chat Completions 风格接入：

from openai import OpenAI

client = OpenAI(
    api_key="your-stepfun-api-key",
    base_url="https://api.stepfun.ai/v1"
)

response = client.chat.completions.create(
    model="step-3.7-flash",
    messages=[
        {"role": "system", "content": "你是谨慎的代码审查助手。"},
        {"role": "user", "content": "请阅读这段错误日志，推测最可能的修复方向：..."}
    ],
    temperature=0.2
)

print(response.choices[0].message.content)

中国区可把 base_url 换成 https://api.stepfun.com/v1。多模态内容、reasoning effort 参数、流式输出和工具调用细节，建议以当前官方文档为准。

Anthropic Messages 兼容接入

如果你的应用已经围绕 Claude Messages 建立，也可以用 Anthropic Messages 风格逐步评估：

import anthropic

client = anthropic.Anthropic(
    api_key="your-stepfun-api-key",
    base_url="https://api.stepfun.ai/v1"
)

message = client.messages.create(
    model="step-3.7-flash",
    max_tokens=2048,
    system="你是熟悉前端工程的多模态助手。",
    messages=[
        {
            "role": "user",
            "content": "请根据这张产品截图，整理主要 UI 区块与可实现的组件拆分。"
        }
    ]
)

print(message.content[0].text)

这类兼容能力适合渐进式上线：先把低风险任务切到新模型，保留现有日志、限流、fallback 和成本统计，再逐步扩大到更复杂的 Agent 或多模态任务。

开权重和本地部署

step-3.7-flash 的模型卡和权重以 Apache-2.0 形式开放，并提供 vLLM、SGLang、Transformers、llama.cpp、NVIDIA NIM 等部署路径。对有数据安全、内网部署、低延迟或成本可控需求的团队，这是一个重要信号。

不过自建推理并不自动等于更便宜。你需要把 GPU、调度、并发、监控、缓存、版本升级、多模态预处理和故障恢复都算进去。比较稳妥的路线是先用 API 建立真实任务评测，再根据调用量、数据合规和延迟要求判断是否值得自建。

接入建议：把它作为模型路由的一部分

工程上，不建议把任何新模型直接当成唯一答案。更稳的方式是把 step-3.7-flash 放进统一 LLM API gateway 或模型路由层：

用同一套日志记录模型、任务、输入长度、输出长度、延迟和成本。
按任务类型选择 reasoning effort。
对代码任务接入测试结果和人工审查反馈。
对多模态任务记录字段级准确率和复核耗时。
保留 fallback 模型，避免单一路由异常影响业务。

这样接入的好处是，你可以同时比较 step-3.7-flash 与其他模型在真实任务中的表现，而不是只看厂商发布页。对客户侧产品来说，也可以通过 OpenAI 兼容或 Claude Messages 兼容接口渐进接入，不需要让每个业务模块分别理解不同厂商 API。

小结

step-3.7-flash 的亮点在于组合能力：256K 长上下文、多模态理解、MoE 架构、reasoning effort 控制、OpenAI/Anthropic 兼容接口，以及 Apache-2.0 开权重路线。它特别适合进入 Agent、Coding、长文档和视觉结构化任务的候选池。

但真正是否适合生产，不取决于宣传页上的单个数字，而取决于你自己的任务集：能否通过测试，能否稳定输出结构化结果，能否降低人工处理时间，能否在成本和延迟上达标。建议从小流量、可验收、可回滚的任务开始，把官方指标当作线索，把真实评测当作决策依据。