OPPO开源安卓AI代理框架X-OmniClaw

分类：热点 | 时间：2026-05-19 04:36 | 关注

　　OPPO 旗下 Multi-X 团队发布了开源安卓 AI 代理框架 X-OmniClaw。该项目主打“端侧优先”，核心控制、感知和执行流程都在手机本地完成，只有在复杂推理场景下才调用云端大模型。

　　这套框架瞄准的是手机作为持续型 AI 助手的使用场景，而不是一次问答式聊天工具。按照 OPPO 披露的设计，系统可结合摄像头、屏幕内容和语音输入理解当前环境，再直接在真实 App 中完成操作。

　　核心能力放在本地设备

　　目前不少移动端 AI 系统依赖云端运行，即在服务器上调用安卓虚拟环境代替用户操作。这样做虽然便于统一部署，但无法直接访问用户手机上的真实相机、相册和本地文件。

　　 X-OmniClaw 采用相反思路。技术报告显示，这一框架直接运行在用户的实体设备上，减少虚拟环境与真实使用场景之间的偏差。OPPO 将其结构概括为三部分：感知、执行和记忆，三者形成持续循环。

　　感知层整合摄像头、屏幕和语音输入执行层负责识别界面并完成点击与跳转记忆层保存跨任务、跨会话的上下文信息可识别屏幕与现实场景

　　在感知部分，系统会先用视觉语言模型理解当前画面，再决定下一步动作。比如用户把镜头对准一件商品并询问价格，代理会先识别物体，再打开相应购物应用发起搜索，而不是只根据文字指令猜测。

　　执行部分则结合 XML 界面数据、端侧视觉模型和 OCR 识别能力，判断页面上具体该点击哪里。即便界面广告较多、结构信息不完整，系统也能通过视觉识别辅助定位操作区域。

　　 OPPO 还加入了行为克隆能力。用户如果手动演示一次进入某个较深页面的路径，系统后续可借助安卓 deeplink 方式快速复现这一路径，减少重复操作。

　　引入跨会话语义记忆

　　与普通聊天机器人相比，X-OmniClaw 的一个重点是长期语义记忆。系统不仅能在单次任务中保留上下文，还会根据相册内容生成关于物体、场景和事件的结构化记录，用于后续检索和执行。

　　 OPPO 展示的案例包括数学题辅助和相册视频生成。前者可在悬浮界面中读取屏幕题目、逐步处理并自动进入下一题；后者则可根据“鹦鹉主题照片”这类要求，在相册中筛选相关图片，再通过 deeplink 打开剪映并批量生成视频。

　　这意味着手机端 AI Agent 的定位，正从单轮问答转向持续协助。报道提到，X-OmniClaw 基于开源项目 HermesApp 代码库开发，同时参考了 OpenClaw 的技能结构设计。项目代码已在 GitHub 上线，OPPO 表示后续还会继续公开相关资源并更新版本。

温馨提示：内容仅供参考