PhoneBuddy – 腾讯混元开源的 4B 参数手机 Agent 模型
PhoneBuddy是什么
PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型,核心研究如何在真实手机场景中训练可用的 AI Agent。模型采用真实 App + Mock App混合 RL 训练方案,在 150 个真机评测任务中,单 App 和微信小程序任务成功率均超过 GPT-5.4,AndroidWorld 达 83.2%,证明小模型通过环境设计优化可具备强竞争力。

PhoneBuddy的主要功能
- 手机 GUI 理解与操作:识别手机屏幕截图,预测点击、滑动、输入等下一步动作。
- 单 App 任务执行:在单个原生应用内完成搜索、设置、内容创建等操作。
- 跨 App 信息流转:在多应用间传递信息,完成需要协作的复杂任务。
- 微信小程序操作:支持在微信小程序生态内完成搜索、预订、查询等任务。
- 真实环境任务验证:验证任务是否真正完成,如消息是否发出、文档是否保存。
PhoneBuddy的技术原理
两阶段训练架构:通过 Shared SFT 让模型同时学习真实 App 和 Mock App 的操作轨迹,建立统一的手机操作基础能力;进入 RL 阶段,分别对比仅在真实环境训练和真实+Mock 混合训练的效果。
Real+Mock 混合 RL:真实 App 提供真实业务逻辑、账号状态和副作用;PhoneWorld Mock App 提供可重置、可验证、可规模化的训练信号,两者互补解决真实但难训练与可控但不真实的矛盾。
PhoneWorld 环境构建:从真实 GUI 使用结构中重建可运行的 Android Mock App,保留页面结构、跳转关系、可交互元素和任务验证器,使 RL 获得稳定的 reward 信号。
任务级验证机制:直接检查任务最终状态,如酒店预算是否被筛选、请假条内容是否正确粘贴,确保 Agent 真正完成用户目标。
如何使用PhoneBuddy
环境准备:下载并配置 PhoneBuddy-4B 模型权重与依赖环境,准备 Android 真机或模拟器作为执行环境。
数据收集:采集真实 App 操作轨迹用于 SFT 阶段训练,同时构建或接入 PhoneWorld Mock App 获取可验证的交互数据。
模型训练:先执行 Shared SFT 训练使模型掌握统一操作格式,再选择 Real-only 或 Real+Mock 环境进行 RL 微调。
任务部署:将训练好的模型接入手机执行层(如 PhoneHarness),通过 GUI 或 CLI 方式下发任务指令。
结果验证:用任务验证器检查最终执行状态,确认任务是否真正完成而非仅页面看起来正确。
PhoneBuddy的核心优势
- 真实场景导向:训练直接面向真实手机和真实 App,而非仅优化离线 Benchmark 分数。
- 小模型高性能:仅 4B 参数就在单 App 和微信小程序任务上超过 GPT-5.4,证明环境设计比单纯堆参数更重要。
- 可验证的 RL 训练:PhoneWorld Mock 环境提供稳定 reward,使 RL 训练可规模化扩展。
- 完整技术栈开源:从环境、训练、执行到安全隐私评估全部公开。
- 任务完成度保障:通过约束跟随和信息转移验证,确保 Agent 真正执行用户意图。
PhoneBuddy的项目地址
项目官网:https://phonebuddyai.github.io/
GitHub仓库:https://github.com/PhoneBuddyAI/phonebuddy
HuggingFace模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
技术论文:https://phonebuddyai.github.io/assets/paper.pdf
PhoneBuddy的同类竞品对比
| 对比维度 | PhoneBuddy-4B-Real+Mock | GPT-5.4 |
|---|---|---|
| 模型规模 | 4B(开源) | 闭源大模型(估计数百B级) |
| 训练方式 | Real+Mock 混合 RL | 未公开具体手机 Agent 训练方案 |
| 单 App 成功率 | 62.0% | 50.0% |
| 微信小程序成功率 | 56.0% | 40.0% |
| AndroidWorld | 83.2% | 70.7% |
| 跨 App 成功率 | 18.0% | 未明确列出(文章未提) |
| 平均成功率 | 54.8% | 48.2% |
| 环境可控性 | 支持 Mock 环境重置与验证 | 依赖真实 API/环境 |
PhoneBuddy的应用场景
- 智能手机助手:用户通过自然语言指令让 Agent 完成查快递、订酒店、发消息等日常操作。
- 自动化测试:在真实 App 中自动执行 UI 测试流程,验证功能完整性和业务逻辑。
- 无障碍辅助:帮助视障或操作不便用户自动完成复杂的手机多步操作。
- 跨应用工作流:自动从邮件提取信息填入表格,或在多个办公 App 间传递数据。
- 小程序服务自动化:在微信小程序内完成查询、预约、下单等无需安装原生 App 的任务。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675








小宝贝乖乖的
