主页 业界 要闻 快讯 热点 注册登陆
注册登陆
主页
19 05

OPPO开源安卓AI代理框架X-OmniClaw

分类:热点 | 时间:2026-05-19 04:36 | 关注

  OPPO 旗下 Multi-X 团队发布了开源安卓 AI 代理框架 X-OmniClaw。该项目主打“端侧优先”,核心控制、感知和执行流程都在手机本地完成,只有在复杂推理场景下才调用云端大模型。

   这套框架瞄准的是手机作为持续型 AI 助手的使用场景,而不是一次问答式聊天工具。按照 OPPO 披露的设计,系统可结合摄像头、屏幕内容和语音输入理解当前环境,再直接在真实 App 中完成操作。

   核心能力放在本地设备

   目前不少移动端 AI 系统依赖云端运行,即在服务器上调用安卓虚拟环境代替用户操作。这样做虽然便于统一部署,但无法直接访问用户手机上的真实相机、相册和本地文件。

   X-OmniClaw 采用相反思路。技术报告显示,这一框架直接运行在用户的实体设备上,减少虚拟环境与真实使用场景之间的偏差。OPPO 将其结构概括为三部分:感知、执行和记忆,三者形成持续循环。

   感知层整合摄像头、屏幕和语音输入 执行层负责识别界面并完成点击与跳转 记忆层保存跨任务、跨会话的上下文信息 可识别屏幕与现实场景

   在感知部分,系统会先用视觉语言模型理解当前画面,再决定下一步动作。比如用户把镜头对准一件商品并询问价格,代理会先识别物体,再打开相应购物应用发起搜索,而不是只根据文字指令猜测。

   执行部分则结合 XML 界面数据、端侧视觉模型和 OCR 识别能力,判断页面上具体该点击哪里。即便界面广告较多、结构信息不完整,系统也能通过视觉识别辅助定位操作区域。

   OPPO 还加入了行为克隆能力。用户如果手动演示一次进入某个较深页面的路径,系统后续可借助安卓 deeplink 方式快速复现这一路径,减少重复操作。

   引入跨会话语义记忆

   与普通聊天机器人相比,X-OmniClaw 的一个重点是长期语义记忆。系统不仅能在单次任务中保留上下文,还会根据相册内容生成关于物体、场景和事件的结构化记录,用于后续检索和执行。

   OPPO 展示的案例包括数学题辅助和相册视频生成。前者可在悬浮界面中读取屏幕题目、逐步处理并自动进入下一题;后者则可根据“鹦鹉主题照片”这类要求,在相册中筛选相关图片,再通过 deeplink 打开剪映并批量生成视频。

   这意味着手机端 AI Agent 的定位,正从单轮问答转向持续协助。报道提到,X-OmniClaw 基于开源项目 HermesApp 代码库开发,同时参考了 OpenClaw 的技能结构设计。项目代码已在 GitHub 上线,OPPO 表示后续还会继续公开相关资源并更新版本。

温馨提示:内容仅供参考
最新
XRP ETF单周净流入升至年内高位 伊朗据称拟推比特币航运保险服务 OPPO开源安卓AI代理框架X-OmniClaw 哈佛清仓8700万美元以太坊持仓 Anthropic收购开发工具公司Stainless 马斯克起诉OpenAI案败诉,陪审团驳回1500亿美元索赔 美伊外交关系紧张之际,伊朗加强了对霍尔木兹海峡的控制。 伊朗比特币通行费传闻扰动市场,BTC守在7.65万美元附近 油价与美债收益率走高,美股涨势放缓
推荐
天齐锂业A股涨停 华锦股份股价小幅上扬 石油行业板块表现受关注 广济药业股价小幅下跌 子公司收入虚增遭处罚 8月1日易方达战略新兴产业股票A净值下跌2.43%,近1个月累计上涨16.87% 美联储戴利:劳动力市场正在放缓、关税仅造成短期影响 美联储将很快降息 上市公司韧性评价|新力金融总分37.07分,居行业第71位 国英边缘技术有限公司成立,注册资本10000万人民币 融通行业景气混合A近一周上涨0.40% 诺尔丰肥业取得防结块水溶肥加工用原料滚筒筛专利,便于对原料进行投放和下料收集
2013-2029 - 南京万泓信息- wainiang.com - 版权所有 - 网站首页