返回博客列表

腾讯 Marvis 6 人 AI 团队拆解:PM、File、Computer、Browser Agent,为什么它开始像桌面上的数字工位了?

Marvis腾讯AI Agent桌面智能体文件助手系统运维浏览器 Agent

Marvis 官方封面图

如果你把 Marvis 只理解成“腾讯做的另一个聊天 AI”,那最容易错过的,恰恰是它和普通聊天框完全不一样的那部分。

我这次专门把几类公开材料重新过了一遍:

  • Marvis 官网
  • 腾讯云开发者社区里的保姆级教程
  • 公开的多 Agent 协同实战稿

看完以后,我的判断很明确:

Marvis 最值得重视的,不是它回答问题有多像人,而是它开始把桌面任务拆给一支“AI 团队”来干。

也就是说,它不只是:

  • 你问一句
  • 它答一句

而是开始变成:

  • 你下一个任务
  • 它拆成几步
  • 再把不同步骤分给不同 Agent
  • 最后把结果交回来

这就是为什么我觉得,Marvis 更像:

桌面上的数字工位

而不是:

另一个会聊天的模型壳子

先说结论

  • 截至 2026 年 6 月 29 日,公开资料里,Marvis 已经被很明确地描述成:

    • 操作系统级 AI 助手
    • 1+5 智能体协作体系
    • 或者更直白一点,电脑里多了一个 6 人编 AI 团队
  • 这套团队在公开教程里最常见的分工是:

    1. PM Agent:理解任务、拆任务、派任务
    2. File Agent:找文件、转格式、读文档、做内容理解
    3. Computer Agent:查配置、调设置、关自启、做系统优化
    4. APP Agent:操作应用、跑流程、做跨应用执行
    5. Search Agent:联网检索、聚合信息、给出来源
    6. Browser Agent:网页抓取、网页交互、页面级数据处理
  • 最关键的信号不是“有 6 个名字”,而是公开教程里已经出现了很具体的任务链:

    • 电脑开机太慢 → PM 派给 Computer Agent
    • 多部门会议记录整理 → 多 Agent 协同提取、生成 PPT、提醒会议
    • 文件转换、合同审查、表格分析 → File / Office 向 Agent 处理
  • 如果你现在关心的是:

    • 桌面 Agent 到底和普通聊天 AI 差在哪
    • 多 Agent 在真实桌面任务里是不是噱头
    • Marvis 到底能不能开始替你串流程

    那这条线的参考价值,会比单纯看“它会不会聊天”高很多。

为什么“AI 团队”这个说法,在 Marvis 身上不是纯营销话术

很多产品现在也喜欢说:

  • 智能体
  • 多 Agent
  • 自动协同
  • AI 团队

但多数时候,说完这些词,最后交付给你的还是:

  • 一个聊天框
  • 一堆建议
  • 你自己继续手动操作

Marvis 公开资料里最不一样的点是,它试图把“团队”这件事具体化。

在腾讯云开发者社区的公开教程《Marvis 保姆级教程(一)|全网都在找的「AI牛马」到手,别只拿来聊天!》里,作者对它的描述很直白:

  • 安装后电脑里多了一个 “6 人编 AI 团队”
  • 24 小时待命
  • 用户不用学复杂工作流
  • 只要给一个任务,它会自己开始分工

这种描述之所以值得写,不是因为“6 个人”听起来热闹,而是因为它把桌面任务里最麻烦的一件事说出来了:

真正麻烦的不是某一步怎么做,而是不同步骤之间谁来接、怎么接。

公开教程里的 6 个工位,基本把 Marvis 的桌面路线讲清楚了

公开教程给出的 6 个角色,非常像一个真实办公室:

1. PM Agent

它的工作不是直接干活,而是先听懂你的任务,再拆任务,再派任务。

这点特别关键,因为真实用户不会说:

  • 先打开系统设置
  • 再读某个日志
  • 再判断哪个启动项能关

真实用户只会说:

  • 电脑开机太慢,帮我看看哪些程序能关

而 PM Agent 的价值,就是把这种“人话任务”先翻译成:

  • 这是系统优化问题
  • 应该先扫启动项
  • 然后交给系统 Agent
  • 再在关键操作前让用户确认

2. File Agent

官方和公开教程都把这一类能力讲得比较透:

  • 搜索文件
  • 找文件内容
  • 文档理解
  • 批量转格式
  • Word / Excel / PDF / 图片 OCR

它更像一个:

文件管家 + 内容解析器

而不是简单的“读一下文档”。

3. Computer Agent

这是 Marvis 最像“系统级 AI 助手”的部分。

它处理的是:

  • 查电脑配置
  • 调系统设置
  • 优化开机启动
  • 清理系统垃圾
  • 关广告、关多余启动项

也就是说,它不是在回答“应该怎么操作”,而是在尝试:

替你把系统层的小事做掉。

4. APP Agent

公开教程里把它描述成:

  • 能在电脑上操作应用
  • 跑流程
  • 做跨应用执行

这很重要,因为文件和系统之外,真实桌面工作还有一大块是:

  • 打开某个应用
  • 点几个按钮
  • 切到另一个应用
  • 再把结果导出来

一旦 App 层开始被纳入,Marvis 就不只是“系统助手”,而更像流程执行器。

5. Search Agent

它负责的是:

  • 联网查资料
  • 信息聚合
  • 给出来源

这跟普通模型的区别在于,普通模型经常只是“说一个答案”,而 Search Agent 这类定位更强调:

  • 信息从哪里来
  • 能不能回溯
  • 能不能把搜索结果拿去给别的 Agent 继续用

6. Browser Agent

它更像 Search 的延伸,但更偏执行:

  • 网页交互
  • 网页数据抓取
  • 页面级整理

换句话说,Search 更像“找到信息”,Browser 更像“进网页把事办一半”。

场景 1:最像真实上手场景的,不是复杂任务,而是“电脑开机太慢了”

公开教程里,第一个最接地气的例子,其实不是复杂办公,而是这个:

电脑开机太慢了,帮我看看哪些程序能关掉。

我很喜欢这个例子,因为它特别像真实用户第一次会对桌面 AI 说的话。

教程给出的公开执行链是这样的:

  1. PM Agent 接活:判断这是系统优化任务
  2. Computer Agent 扫描:检查启动项
  3. 输出“人话报告”:告诉你哪个软件拖慢启动、哪个硬件驱动建议保留
  4. 关键操作二次确认:关闭前弹确认

这段为什么特别重要?

因为它把 Marvis 和普通聊天 AI 的差别写得很具体:

  • 不是告诉你去哪里关
  • 不是丢给你一篇步骤说明
  • 而是先自己扫,再自己判断,再请你确认

这就是桌面 Agent 和普通问答 AI 最本质的区别之一:

它开始进入执行链。

场景 2:多部门会议记录 → 提取决策 → 生成 PPT → 下午演示,这才像多 Agent 协同

公开文章《Marvis 6 大 Agent 协同实战:以“打工好帮手”为例》给了一个比“关自启”更像复杂办公场景的例子。

里面的任务是:

  • 整理上周 3 个部门会议记录
  • 提取关键决策
  • 生成一份 PPT 报告
  • 在下午 2 点会议上演示

文章里最关键的不是最后的产物,而是它给出的协同逻辑:

  • 不是一个 Agent 把所有事都“硬扛”
  • 而是多 Agent 分工
  • 自动做文件查找、内容提取、PPT 生成、会议提醒

这为什么值得单独写?

因为“多 Agent”这件事一旦没有任务链,听起来很空;但一旦落到这种办公场景里,就很具体了:

  • 文件在哪
  • 先谁读
  • 谁提取结论
  • 谁生成汇报材料
  • 谁补提醒

也就是说,这类场景才真正证明:

Marvis 不是把大模型包装成多个名字,而是在尝试做任务路由。

场景 3:File Agent 真正值钱的地方,不是搜文件名,而是把文件工作流揉成一条链

Marvis 官方文件格式转换公开图

公开教程和官方口径都反复提到一件事:

文件相关的事情,它想一条线吃掉。

这包括:

  • 找文件
  • 按内容搜索
  • 转格式
  • 读文档
  • 做内容理解

公开教程里有一个很直接的例子:

把桌面上 2026年Q1销售数据.xlsx 转成 PDF,并优化排版。

教程给出的执行链是:

  • Computer / File 类 Agent 找文件
  • 读取 Excel
  • 生成 PDF
  • 自动调整列宽、页眉页脚
  • 保存到桌面

这说明 File Agent 真正想做的不是“读一个文件”,而是:

从文件定位到结果交付的一整条文档链。

如果这个链条稳定,办公室里很多最碎的活其实就开始被吃掉了。

场景 4:官方的“人话式交互”,本质是在替 PM Agent 降低任务拆解门槛

2671890 这篇公开稿《吊打所有 AI 助手!腾讯王炸 Marvis 上线,免费解锁电脑全智能操控》里,有一句我觉得特别值得写:

无需学习专业指令,不用摸索复杂功能,一句口语化需求,就能帮用户搞定所有琐碎操作。

这句话如果翻成人话,其实就是:

PM Agent 要足够强,才能让用户少学一层东西。

因为大多数用户根本不想学:

  • 该找哪个 Agent
  • 什么任务属于浏览器
  • 什么任务属于文件
  • 什么时候先系统后应用

他们只想说:

  • 我电脑太卡了
  • 帮我找回那个文件
  • 帮我把这份材料转成文档
  • 帮我查资料再写个提纲

如果 Marvis 真要成立,PM 这一层就必须替人把任务拆好。

公开资料里的“1+5 智能体协作体系”,说明它想做的是任务中间层

2671890 里还给了一个更适合架构视角理解的说法:

  • 主 Agent(调度)
  • 5 个专项 Agent

这说明 Marvis 的路线,不是单独做:

  • 文件工具
  • 系统管家
  • 浏览器插件

而是试图做成一个:

系统中间层

什么意思?

就是用户把目标给它,它决定:

  • 先去哪
  • 读什么
  • 怎么切
  • 结果放回哪里

如果这层成立,它的价值就不只是“一个功能比较多的助手”,而是:

桌面任务分发器。

这条线为什么比普通“聊天 AI”更有生产环境意义

我觉得 Marvis 这套 6 Agent / 1+5 协作体系的真正价值,在于它抓住了桌面生产环境里最耗人的那部分:

  • 文件太多
  • 步骤太碎
  • 应用太分散
  • 用户不想学流程

普通聊天 AI 可以在旁边给建议,但它很难替你解决:

  • 该用哪个应用
  • 数据在哪
  • 结果怎么落盘
  • 哪一步要确认

而多 Agent 体系如果稳定,就开始能替你处理这些“本来没人想做,但每天都在做”的中间活。

哪些人最适合先测这条线

我觉得下面这几类人,最值得优先看:

  • 每天要处理本地文档、系统设置、浏览器检索的人
  • 经常在 文件 -> 网页 -> 文档 -> 应用 之间切来切去的人
  • 想用自然语言完成桌面杂活,而不想学复杂自动化脚本的人
  • 想把“一个任务拆给多个 AI 模块”而不是只看一个聊天框的人

如果你现在最烦的是:

  • AI 会说,但不会干
  • 文件、应用、系统各是一摊
  • 最后还是自己点一遍

那 Marvis 这一套桌面 AI 团队路线,至少比普通“又一个聊天工具”更值得认真看。

我的最终看法

如果只用一句话总结这篇 Marvis 6 人 AI 团队拆解,我的结论是:

Marvis 最值得重视的地方,不是它多会聊天,而是它开始把桌面任务拆成一支可以分工的数字团队。

它已经公开展示出来的,不只是“有 6 个 Agent 名字”,而是更具体的几件事:

  • PM 理解任务、拆解任务
  • File 处理文件、转格式、读内容
  • Computer 管系统、改设置、做优化
  • Search / Browser 去网页世界拿资料
  • APP 把应用操作接进流程

一旦这些分工真能稳定协同,它的意义就不再是:

AI 帮你回答问题

而是:

AI 开始替你跑一部分桌面工作流

如果你现在更关心的是:

  • 当前接入路线
  • 模型与价格
  • API Key 购买
  • 使用教程

可以先看:

FAQ

Marvis 的“6 人 AI 团队”具体是哪些角色?

公开教程里最常见的说法是:

  • PM Agent
  • File Agent
  • Computer Agent
  • APP Agent
  • Search Agent
  • Browser Agent

而公开稿件里也会用“1+5 智能体协作体系”的说法来描述同一件事:一个主 Agent 做调度,多个专项 Agent 做执行。

Marvis 和普通聊天 AI 最大的差别是什么?

最大的差别不是答案风格,而是它开始试图进入:

  • 系统设置
  • 本地文件
  • 应用操作
  • 网页交互

也就是开始从“回答”往“执行”走。

公开教程里最典型的任务链是什么?

一个很典型的例子是:

  • 电脑开机太慢
  • PM 识别为系统优化任务
  • Computer Agent 扫描启动项
  • 输出建议
  • 关键关闭动作前再请用户确认

多 Agent 协同最像真实办公的例子是什么?

公开实战稿里,一个很典型的例子是:

  • 整理多个部门的会议记录
  • 提取关键决策
  • 生成 PPT
  • 补会议提醒

这比“单轮问答”更接近真实桌面任务。

如果我想先看 Marvis 当前公开信息,从哪里开始?

先看这几页最直接:

参考资料