返回博客列表

腾讯 Marvis 多模态案例拆解:图片、语音、视频、文档为什么开始合到一条 AI 工作流里了?

Marvis腾讯多模态图像识别语音输入视频理解AI 助手

Marvis 多模态公开配图

如果说前几篇 Marvis 文章聊的是:

  • 它能不能接管电脑
  • 它能不能读本地文件
  • 它能不能在办公室里替你省时间

那这一篇更想回答一个正在越来越实际的问题:

当图片、语音、视频、表格、文档一起进来时,Marvis 能不能把它们收成一条真正可执行的工作流?

我把 Marvis 官网,以及腾讯云开发者社区里那篇更偏“多模态实战”的公开稿重新过了一遍。我的结论先放前面:

Marvis 现在最值得关注的,不只是它会不会看图,而是它开始把图像理解、语音输入、文档生成、图表输出,收成一个更像真实生产环境的连续任务链。

这也是为什么我觉得,Marvis 真正的竞争点,不只是“本地模式”或者“远程控电脑”,而是:

它在往“多模态桌面工作流入口”走。

先说结论

  • 截至 2026 年 6 月 29 日,公开资料里,Marvis 在多模态方向最有说服力的能力,集中在四类任务:
    1. 图片 / 截图理解与内容提取
    2. 语音输入到文档生成
    3. 图像 + 文本 + 表格联合分析
    4. 报告、Word、Excel 图表的一次性交付
  • Marvis 官网已经明确把多模态相关能力写进产品口径里:
    • 搜索文件 / 图片内容
    • 搜索图片内文字
    • 文档、表格深度理解
    • 图表生成
    • 文案润色
    • 格式转换
  • 腾讯云开发者社区公开稿里,已经出现了比较完整的真实任务链,不再只是“问一句答一句”,而是:
    • 看图识别
    • 提参数
    • 写分析
    • 出 Word
    • 做 Excel 图表

为什么多模态这件事,比“会聊天”更重要

很多 AI 工具到今天还停留在一个逻辑里:

  • 你给它一段文字
  • 它回你一段文字

但真实工作里的输入,根本不是纯文本。

更常见的是:

  • 你拍了一张产品图
  • 你截了一张后台页面
  • 你录了一段会议语音
  • 你扔进来一份长文档和一张表
  • 你还想让它最后给你一个能交付的结果

也就是说,真实工作里最消耗人的,通常不是“让模型回答”,而是:

把不同模态的信息收进来,再拼成一个你真的能拿去用的产物。

而这正是 Marvis 这种系统级助手,最有机会和普通聊天 AI 拉开差距的地方。

官网公开能力已经把这条线说得很清楚

从 Marvis 官网公开描述看,它在多模态方向的目标非常直接:

  • 可以搜索 文件 / 图片内容
  • 可以搜索 图片内文字
  • 可以根据人像、主题、地点等维度组织图库和文档库
  • 可以对 文档、表格 做深度理解
  • 支持 图表生成、文案润色、格式转换

这组能力放在一起,其实已经不是单点功能了,而是一条比较完整的多模态链:

  • 看内容
  • 找内容
  • 理解内容
  • 生成结果

也就是说,Marvis 在这条线上的野心,并不是“支持图片输入”这么简单,而是:

让图片、文字、文档、表格这些不同输入,最终汇到一个桌面级任务结果里。

案例 1:看图识别,不只是描述图片,而是直接提参数

腾讯云开发者社区那篇公开稿里,最能说明问题的实战案例,是一个:

智能手表竞品分析报告

它的任务目标不是单轮问答,而是一个很像真实商业工作的交付:

  • 收集 3 款竞品的图片和参数
  • 做对比分析
  • 生成 Word 报告
  • 生成 Excel 图表

这已经不是“帮我看看这张图是什么”,而是更接近:

把图像输入变成分析任务的一部分。

按公开稿件里的步骤,第一步就是:

  • 上传 3 款智能手表图片
  • Marvis 识别产品并提取关键参数

公开结果里,Marvis 给出的输出包括:

  • 心率监测
  • 血氧检测
  • 续航
  • 价格

这意味着它做的事情不只是图像描述,而是:

  • 识别对象
  • 提取结构化字段
  • 为后续报告和图表继续服务

这类能力为什么重要?因为真实工作里的图片,很少只是“看看而已”,更常见的是:

  • 从截图里找字段
  • 从产品图里找参数
  • 从图表里找趋势
  • 从页面里找关键差异

如果只能看图说话,价值很有限。 但如果能把图像里的信息继续推进到下一步工作流,那才是真正的生产力。

案例 2:语音输入,不只是转文字,而是直接变成文档任务

同一篇多模态公开稿里,另一个很值得看的例子,是:

  • 用户直接对着电脑说
  • “帮我创建一个 Word 文档,标题是‘周会纪要’,内容是今天的会议记录”

按公开稿件的链路,Marvis 做的是:

  1. 语音识别
  2. 理解指令
  3. 调用 Office API
  4. 生成桌面上的 Word 文档
  5. 再语音反馈结果

这和很多人理解的“语音功能”不太一样。

很多产品说支持语音,其实只是:

  • 把语音转成文字
  • 再把文字贴进聊天框

Marvis 这里更像是:

语音只是任务入口,重点是后面真的执行了文档操作。

这对一些真实场景特别有意义:

  • 开会时来不及打字
  • 需要边操作边下口令
  • 想让它直接把结果落成文件

所以在桌面环境里,语音的价值不是“能说话”,而是:

能不能把语音直接接进系统工作流。

案例 3:真正像生产环境的,是它把“看图 + 分析 + 出报告 + 做图表”串成一套

这个智能手表竞品分析案例之所以适合单独写一篇,就是因为它不是单点演示,而是一整条多模态任务链。

公开稿件里,后面的步骤继续往下走:

第一步:图像理解

  • 识别 3 款手表图片
  • 提参数

第二步:文本分析

  • 基于参数生成竞品对比分析
  • 写出功能、价格、用户评价结论

第三步:文档生成

  • 生成标题为“智能手表竞品分析报告”的 Word
  • 写入章节、表格、结论

第四步:数据可视化

  • 创建 Excel
  • 写入参数和评分
  • 自动生成柱状图、雷达图

这条链为什么特别重要?

因为它暴露了一个真实的工作模式:

多模态 AI 的价值,不在某个单点能力最炫,而在它能不能把不同模态串成一个最终交付。

这已经很接近真实办公室或商业分析工作的样子了:

  • 输入不是纯文字
  • 输出也不是一句总结
  • 中间还要跨图像、文字、表格、文档

案例 4:效率对比虽然是公开口径,但足够说明它在瞄准什么

这篇公开稿还给了一个非常典型的效率对比表:

  • 识别竞品图片:30 分钟 -> 2 分钟
  • 生成对比分析:60 分钟 -> 3 分钟
  • 生成 Word 报告:45 分钟 -> 5 分钟
  • 制作 Excel 图表:30 分钟 -> 3 分钟
  • 总计:165 分钟 -> 13 分钟

也就是公开口径里的:

12.7 倍效率提升

这种数字你当然不能当成任何团队都能稳定复现的承诺。 但它至少说明了一件事:

Marvis 在多模态方向瞄准的,不是“更像人地闲聊”,而是:

把原来分散在多个工具里的操作,尽量压进一条连续工作流。

截图、图片内文字、图表,这条线比普通 OCR 更接近桌面使用

Marvis 官网里另一个很关键的点,是它明确提到:

  • 搜图片内容
  • 搜图片内文字
  • 支持 AI 图库、AI 文档库

这件事为什么不能简单理解成“有 OCR”?

因为真正的桌面工作里,你碰到的图片通常不是孤立扫描件,而是:

  • 后台截图
  • 产品海报
  • 表格截图
  • 聊天记录截图
  • 方案页截图

很多时候你要的不是“把文字读出来”,而是:

  • 这张图里讲了什么
  • 关键参数在哪
  • 跟别的资料对不对得上
  • 能不能继续拿去做后续分析

这就是为什么我觉得它更接近:

截图问答 + 内容理解 + 任务推进

而不只是传统意义上的 OCR 工具。

视频理解这条线,现在更像能力预告而不是完全展开的生产案例

从公开多模态文章和官网口径看,Marvis 现在已经把 视频 列进多模态能力叙事里了。

但和图片、语音、文档、表格相比,视频方向的公开生产案例还没有那么完整。

现阶段能比较稳地确认的是,它在产品叙事上已经把视频纳入下面这种能力框架:

  • 视频作为输入模态之一
  • 可以做内容摘要
  • 可以做行为或内容分析

但如果你问我,今天 Marvis 最值得先实测的是哪条线,我还是会把优先级放在:

  1. 图片 / 截图理解
  2. 语音 -> 文档
  3. 图像 + 报告 + 图表联动

因为这些部分,公开资料已经更接近真实工作流,而不是概念展示。

它现在最适合哪些团队先试

适合马上试的人

  • 经常做竞品分析、产品分析的人
  • 需要把图片、文档、表格一起处理的运营 / 商分 / 研究岗位
  • 经常整理会议录音、语音备忘的人
  • 需要做图文混合材料分析的人
  • 想把截图、文档、表格都收进同一个桌面工作流的人

可以先观望的人

  • 只做纯文本聊天,不碰图片和文件
  • 工作里几乎不需要图像或语音输入
  • 更关注模型闲聊体验,而不是任务闭环
  • 还没有真实多模态资料处理需求的人

如果你想自己测,我建议这样测

  1. 不要先问“它懂不懂图片”,直接给真实任务。
  2. 最适合先试的切口通常是:
    • 截图问答
    • 产品图参数提取
    • 会议语音转 Word
    • 图像输入 + 报告生成
    • 表格 + 文档 + 图表联动
  3. 不只看答案像不像人,重点看:
    • 模态切换是否顺
    • 能不能少复制粘贴
    • 最终文件是否真的能交付
    • 中间是否减少了人工手工搬运
  4. 如果你本来就在评估桌面 AI,也可以顺手比较:
    • Marvis 更适合哪些多模态桌面任务
    • 哪些任务继续让专业 OCR、剪辑、报表工具来做更稳

如果你现在更关心的是:怎样把腾讯系、GLM、Kimi、DeepSeek、StepFun 等模型统一接进自己的多模态工作流,可以先看:

最后结论

如果只用一句话总结我对 Marvis 多模态方向的判断,那就是:

它真正有意思的,不是“支持图片和语音”这件事本身,而是它开始把图片、语音、文档、表格往一条桌面级任务链里收。

这件事一旦做顺,价值就不再是:

  • 看一张图
  • 听一段语音
  • 总结一句话

而是更接近:

  • 看图提参数
  • 语音下任务
  • 写报告
  • 出图表
  • 交付文件

也就是说,Marvis 这条线最值得测的,不是“多模态炫技”,而是:

它能不能把多模态输入真的变成多模态工作流。

参考资料