返回博客列表

Step-3.7-Flash 上线:面向 Agent、Coding 和多模态工作流的旗舰 Flash 模型

StepFunstep-3.7-flashAgentAI 编程多模态模型

StepFun/阶跃星辰在 2026 年 5 月 29 日正式发布了 step-3.7-flash。从官方资料看,这不是一个只强调聊天体验的通用模型,而是更明确地面向 Agent、Coding、工具调用、长上下文和多模态工作流:它支持 256K tokens 上下文,提供 OpenAI Chat Completions 与 Anthropic Messages 兼容接口,同时开放权重,适配 vLLM、SGLang、Transformers、llama.cpp 和 NVIDIA NIM 等推理栈。

如果你的业务正在做自动化 Agent、代码生成与修复、长文档处理、截图转代码、图片/视频理解、票据转表格,step-3.7-flash 值得进入候选模型池。需要说明的是,本文涉及的参数、价格、速度和榜单指标主要来自 StepFun 官方文档、模型卡和合作平台披露;在更广泛的第三方复现之前,建议把这些数字作为“官方公布指标”引用,并用自己的任务集做上线前评测。

一句话概括

step-3.7-flash 是 StepFun 新上线的开权重多模态推理模型,主打高频 Agent、Coding 和多模态任务。它采用稀疏 MoE 架构,官方文档写到约 198B 总参数、约 11B 激活参数;模型卡进一步说明为 196B 语言主干加 1.8B 视觉编码器。上下文长度为 256K tokens,官方称最高生成速度可达 400 tokens/s,并支持 lowmediumhigh 三档 reasoning effort。

这组特性意味着它的核心卖点不是单个维度,而是组合能力:长上下文能装下更多任务状态,视觉编码器让图片和视频进入同一个工作流,MoE 设计兼顾总容量与活跃计算量,reasoning effort 则让开发者可以在延迟、成本和复杂推理之间做更细的调度。

核心规格速览

| 项目 | 信息 | | --- | --- | | 模型 ID | step-3.7-flash | | 发布方 | StepFun / 阶跃星辰 | | 官方发布页日期 | 2026-05-29 | | 定位 | 旗舰多模态推理模型,面向 Agent、Coding、多模态工作流 | | 架构 | 稀疏 MoE | | 参数规模 | 约 198B 总参数,约 11B 激活参数 | | 模型卡细节 | 196B 语言主干 + 1.8B 视觉编码器 | | 上下文 | 256K tokens | | 推理强度 | lowmediumhigh | | 生成速度 | 厂商称最高可达 400 tokens/s | | 权重许可 | Apache-2.0 | | API 协议 | OpenAI Chat Completions、Anthropic Messages |

对工程团队来说,最应该优先验证的是三个点:长上下文质量、工具调用稳定性、多模态结构化输出。一个模型能写出漂亮回答不等于能稳定完成生产任务;真正的价值要落在它是否能减少 Agent 步数、降低人工修正率、通过测试,以及在长输入下仍然抓住关键约束。

为什么它适合 Agent

Agent 系统通常不是一次问答,而是“读任务 -> 规划 -> 调工具 -> 观察结果 -> 修正计划 -> 输出”的循环。这个循环对模型提出了几个要求:

  1. 能理解足够长的任务上下文。
  2. 能稳定输出工具参数和结构化 JSON。
  3. 能在低延迟和深推理之间切换。
  4. 能处理截图、表格、文档、日志等混合输入。

step-3.7-flash 的 256K tokens 上下文适合承载更完整的任务状态,例如系统规则、工具说明、历史调用结果、产品文档、代码片段和用户原始材料。对于需要多轮工具调用的 Agent,长上下文可以减少反复摘要带来的信息损失。

reasoning effort 的三档控制也很实用。low 可以用于分类、路由、简单抽取和低风险草稿;medium 可以用于常规分析和代码辅助;high 更适合跨文件定位问题、长文档推理、多步计划和严格格式转换。实际部署时,不建议所有请求都开最高档,而是按任务风险和复杂度路由。

Coding 场景:先从可验证任务开始

在 AI 编程里,模型的“看起来会写代码”不够,关键是生成的 patch 是否能通过测试,解释是否符合真实代码结构,修复是否不会引入新问题。step-3.7-flash 可以优先放到这些任务里试:

  • 根据错误日志定位可能的 bug。
  • 为现有函数补测试用例。
  • 解释 PR diff 和潜在风险。
  • 根据 API 变更迁移调用方式。
  • 把截图中的 UI 拆成前端组件结构。
  • 在长上下文里阅读多个相关文件并提出最小修改方案。

建议不要只用公开 benchmark 做判断。更好的做法是拿自己的历史 issue、真实 PR、CI 失败样本、前端页面截图和内部代码规范做小型评测。指标可以包括测试通过率、人工修改次数、首 token 延迟、完整任务成本、格式错误率和代码审查通过率。

多模态:从“看懂图片”走向“完成工作流”

多模态能力的价值不只是描述图片内容,而是把图片、视频和文本材料转成可执行的结构化结果。step-3.7-flash 官方资料强调图片和视频理解,模型卡也把视觉编码器列入架构说明,因此它适合优先测试这些任务:

  • 截图转代码:从产品截图生成 HTML/CSS、React 组件草稿或 UI 区块说明。
  • 票据转表格:从收据、发票、订单截图里提取字段。
  • 图表转数据:识别图表中的趋势、标签和数值。
  • 视频/录屏分析:总结操作路径、定位异常状态。
  • 表单理解:从复杂表单截图中抽取字段、校验规则和填写状态。

这些任务尤其需要真实样本。清晰截图和模糊截图、中文票据和英文票据、标准表格和歪斜扫描件,难度完全不同。上线前最好准备一套 golden set,用字段级准确率、格式稳定性和人工复核时间来评估。

API、区域和价格

StepFun 官方资料显示,step-3.7-flash 可通过中国区和国际区 API 接入:

  • 中国区 Base URL:https://api.stepfun.com/v1
  • 国际区 Base URL:https://api.stepfun.ai/v1
  • 模型 ID:step-3.7-flash

协议上,它兼容 OpenAI Chat Completions,也兼容 Anthropic Messages。对已经接入 OpenAI SDK、Anthropic SDK、Claude Code、Cursor 或自建模型网关的团队来说,初始接入通常是改 base URL、model ID、鉴权和少量参数,而不是重写业务逻辑。

截至本文整理时,官方价格如下:

| 区域 | 输入缓存未命中 | 输入缓存命中 | 输出 | | --- | ---: | ---: | ---: | | 中国区 | 1.35 元 / 1M tokens | 0.27 元 / 1M tokens | 8.1 元 / 1M tokens | | 国际区 | $0.20 / 1M tokens | $0.04 / 1M tokens | $1.15 / 1M tokens |

对长上下文和 Agent 业务来说,缓存命中价格非常关键。系统 prompt、工具描述、schema、策略说明、固定代码上下文如果能复用,缓存会明显影响单任务成本。反过来,如果每次请求都包含大量变化内容,长上下文成本仍然需要认真核算。

OpenAI 兼容调用示例

如果你使用 OpenAI SDK,可以按 Chat Completions 风格接入:

from openai import OpenAI

client = OpenAI(
    api_key="your-stepfun-api-key",
    base_url="https://api.stepfun.ai/v1"
)

response = client.chat.completions.create(
    model="step-3.7-flash",
    messages=[
        {"role": "system", "content": "你是谨慎的代码审查助手。"},
        {"role": "user", "content": "请阅读这段错误日志,推测最可能的修复方向:..."}
    ],
    temperature=0.2
)

print(response.choices[0].message.content)

中国区可把 base_url 换成 https://api.stepfun.com/v1。多模态内容、reasoning effort 参数、流式输出和工具调用细节,建议以当前官方文档为准。

Anthropic Messages 兼容接入

如果你的应用已经围绕 Claude Messages 建立,也可以用 Anthropic Messages 风格逐步评估:

import anthropic

client = anthropic.Anthropic(
    api_key="your-stepfun-api-key",
    base_url="https://api.stepfun.ai/v1"
)

message = client.messages.create(
    model="step-3.7-flash",
    max_tokens=2048,
    system="你是熟悉前端工程的多模态助手。",
    messages=[
        {
            "role": "user",
            "content": "请根据这张产品截图,整理主要 UI 区块与可实现的组件拆分。"
        }
    ]
)

print(message.content[0].text)

这类兼容能力适合渐进式上线:先把低风险任务切到新模型,保留现有日志、限流、fallback 和成本统计,再逐步扩大到更复杂的 Agent 或多模态任务。

开权重和本地部署

step-3.7-flash 的模型卡和权重以 Apache-2.0 形式开放,并提供 vLLM、SGLang、Transformers、llama.cpp、NVIDIA NIM 等部署路径。对有数据安全、内网部署、低延迟或成本可控需求的团队,这是一个重要信号。

不过自建推理并不自动等于更便宜。你需要把 GPU、调度、并发、监控、缓存、版本升级、多模态预处理和故障恢复都算进去。比较稳妥的路线是先用 API 建立真实任务评测,再根据调用量、数据合规和延迟要求判断是否值得自建。

接入建议:把它作为模型路由的一部分

工程上,不建议把任何新模型直接当成唯一答案。更稳的方式是把 step-3.7-flash 放进统一 LLM API gateway 或模型路由层:

  • 用同一套日志记录模型、任务、输入长度、输出长度、延迟和成本。
  • 按任务类型选择 reasoning effort。
  • 对代码任务接入测试结果和人工审查反馈。
  • 对多模态任务记录字段级准确率和复核耗时。
  • 保留 fallback 模型,避免单一路由异常影响业务。

这样接入的好处是,你可以同时比较 step-3.7-flash 与其他模型在真实任务中的表现,而不是只看厂商发布页。对客户侧产品来说,也可以通过 OpenAI 兼容或 Claude Messages 兼容接口渐进接入,不需要让每个业务模块分别理解不同厂商 API。

小结

step-3.7-flash 的亮点在于组合能力:256K 长上下文、多模态理解、MoE 架构、reasoning effort 控制、OpenAI/Anthropic 兼容接口,以及 Apache-2.0 开权重路线。它特别适合进入 Agent、Coding、长文档和视觉结构化任务的候选池。

但真正是否适合生产,不取决于宣传页上的单个数字,而取决于你自己的任务集:能否通过测试,能否稳定输出结构化结果,能否降低人工处理时间,能否在成本和延迟上达标。建议从小流量、可验收、可回滚的任务开始,把官方指标当作线索,把真实评测当作决策依据。

参考资料