OPPO 旗下 Multi-X 团队发布了开源安卓 AI 代理框架 X-OmniClaw。该项目主打“端侧优先”,核心控制、感知和执行流程都在手机本地完成,只有在复杂推理场景下才调用云端大模型。
这套框架瞄准的是手机作为持续型 AI 助手的使用场景,而不是一次问答式聊天工具。按照 OPPO 披露的设计,系统可结合摄像头、屏幕内容和语音输入理解当前环境,再直接在真实 App 中完成操作。
核心能力放在本地设备
目前不少移动端 AI 系统依赖云端运行,即在服务器上调用安卓虚拟环境代替用户操作。这样做虽然便于统一部署,但无法直接访问用户手机上的真实相机、相册和本地文件。
X-OmniClaw 采用相反思路。技术报告显示,这一框架直接运行在用户的实体设备上,减少虚拟环境与真实使用场景之间的偏差。OPPO 将其结构概括为三部分:感知、执行和记忆,三者形成持续循环。
感知层整合摄像头、屏幕和语音输入 执行层负责识别界面并完成点击与跳转 记忆层保存跨任务、跨会话的上下文信息 可识别屏幕与现实场景
在感知部分,系统会先用视觉语言模型理解当前画面,再决定下一步动作。比如用户把镜头对准一件商品并询问价格,代理会先识别物体,再打开相应购物应用发起搜索,而不是只根据文字指令猜测。
执行部分则结合 XML 界面数据、端侧视觉模型和 OCR 识别能力,判断页面上具体该点击哪里。即便界面广告较多、结构信息不完整,系统也能通过视觉识别辅助定位操作区域。
OPPO 还加入了行为克隆能力。用户如果手动演示一次进入某个较深页面的路径,系统后续可借助安卓 deeplink 方式快速复现这一路径,减少重复操作。
引入跨会话语义记忆
与普通聊天机器人相比,X-OmniClaw 的一个重点是长期语义记忆。系统不仅能在单次任务中保留上下文,还会根据相册内容生成关于物体、场景和事件的结构化记录,用于后续检索和执行。
OPPO 展示的案例包括数学题辅助和相册视频生成。前者可在悬浮界面中读取屏幕题目、逐步处理并自动进入下一题;后者则可根据“鹦鹉主题照片”这类要求,在相册中筛选相关图片,再通过 deeplink 打开剪映并批量生成视频。
这意味着手机端 AI Agent 的定位,正从单轮问答转向持续协助。报道提到,X-OmniClaw 基于开源项目 HermesApp 代码库开发,同时参考了 OpenClaw 的技能结构设计。项目代码已在 GitHub 上线,OPPO 表示后续还会继续公开相关资源并更新版本。