
回看移动互联网的爆发原点,苹果的伟大之处不止于 iPhone 的硬件参数,更在于它通过 App Store 建立了一套契合用户需求的移动互联网的软件生态。
借用历史视角回望,我们或能窥见未来" iPhone "的雏形。
其软件价值是一种能繁荣 Agent 生态的聚合能力,其硬件形态也未必是手机,甚至可能是眼镜、头显、手表等其他智能终端。
从最初的" AI 是不是噱头",到" AI 只是多了个语音助手",再到" AI 功能很酷,但并不常用" …… 在定义何为"真正的 AI 手机"这件事上,行业始终争论不休。
但最近发生的几件事,把" AI 手机未来该往哪走"这一问题推到了台前。
一边是终端厂商的系统级融合。如字节豆包与中兴合作推出 AI 手机,试图将大模型作为底层原力注入硬件。再如向来奉行封闭生态的苹果,开始在系统级 AI 上向外"借脑",和谷歌、微软等外部大模型合作,用于升级 Siri 及 Apple Intelligence 功能。
另一边是应用巨头的"生态自建"。在腾讯 2025 年 Q3 财报电话会上,腾讯总裁刘炽平明确表示,微信会推出一个 AI 智能体(Agent),使它成为每位微信用户的个性化私人助理。
1 月 15 日,阿里旗下千问 APP 宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,用户通过语音或文字指令即可 30 秒完成跨平台复杂任务如点外卖、买东西、订机酒等。
看似分散的诸多事件,共同指向一个极具张力的宏大猜想:手机这个终端,正在从一个"装满 APP 的屏幕",进化为一个有自主性和感知决策能力的" AI 入口"。
AI 手机,路径分野
2023 年 10 月,高通发布骁龙 8Gen3,联发科推出天玑 9300,NPU 性能的暴涨让手机 +AI 大模型成为现实。Deepseek 爆火带动生成式 AI 应用全面开花,C 端用户的 AI 需求被彻底点燃。
技术条件成熟,应用需求得到验证,AI 手机也从概念走向规模化。IDC 中国区总裁霍锦洁表示,2024 年全球新一代 AI 手机出货量将达到 1.7 亿部,占智能手机整体出货量的 15%。行业预计 2026 年全球 AI 手机渗透率将突破 38%。

时至今日,围绕 AI 手机,业内已然分化出两条截然不同的演进路径。
一条是由操作系统或终端厂商主导的 AI 原生化,也就是我们常说的 GUI Agent。它并不要求应用本身为 AI 做出改造,而是试图让 AI 像人一样理解、操作界面。
豆包 AI 手机是 GUI 最为典型的落地样本。去年 12 月,豆包手机助手技术预览版发布,首次将" AI 接管决策"这一设想在终端完整呈现。用户只需一句「帮我比价下单」,手机页面开始自动跳转、识别界面、点击按钮、领券、结算,全程不依赖任何官方接口。这种近乎拟人化的操作拓展了 AI 手机的想象边界,迅速在科技圈引发热烈讨论。
魅族也是 GUI 路线的推崇者,它是国内最早提出"视觉一体化"概念的厂商之一。在去年 5 月最新发布的 Flyme AIOS 2 操作系统中,其搭载的" Task Robot "便是旨在由 AI 模拟人工在 GUI 界面上进行点击和操作。

另一条是由应用巨头主导的业务 AI 化。它不依赖对人类操作行为的模拟,而是通过 A2A(Agent to Agent)的方式,在应用内部拆解出可被调用的能力模块。各 Agent 之间通过统一协议直接交换数据、调用功能,从底层完成任务协作,绕过"看屏幕、点按钮"这一中间环节。
阿里千问和未来将要推出的腾讯微信 Agent 便是这一路线的践行者。前者通过 MCP+A2A 的通用 Agent 体系,把淘宝、飞猪、支付宝、高德等拆成大量原子能力,接入"任务助理";后者则被业界普遍预期,会把微信、企业微信、小程序等生态能力全面 Agent 化。
对用户来说,只需一句自然语言指令,便可以触发跨搜索、社交、支付、出行等多业务协作,真正体现出"任务拆解 + 跨服务调用"的 A2A 精髓。
在刚刚结束的千问发布会上,这一路线的落地效果有了更直观的呈现。用户只需一句「帮我点 40 杯霸王茶姬的伯牙绝弦」,千问即可在不跳转页面的情况下完成选品、下单和支付,几分钟后奶茶送达;输入「春节带家人去三亚」或「帮我规划云南旅行」,千问则会联动飞猪和高德完成机票、酒店、行程规划及必要电话确认,实现"一句话,整套行程自动排好";在政务和民生服务中,如用户问「杭州户口如何办理护照」,千问不仅能讲清政策和材料清单,还可直接给出线上办理入口,帮助用户少跑冤枉路。
如千问 C 端事业群总裁吴嘉在发布会上所言," AI 在拥有超强大脑之后,开始长出了能够触达真实世界的手和脚,在生活中实实在在地替用户干活。"

两条路线各有所长。GUI 路线最大优势在于"无感兼容",理论上,AI 只要能看懂屏幕,就能直接完成操作,A2A 由于是通过协议直接调用 APP,其执行的精准度与响应速度远高于模拟点击,在效率和准确性上更优,也更适合交易、支付、履约等高价值、高风险场景。
目前来看,两条路线虽然都撞上了既有 APP 生态的"柏林墙",但 GUI 路线下,由于涉及更多系统级权限与隐私数据,相关风险更早暴露,落地过程中的摩擦与阻力也更加明显。
豆包手机限量发售后仅 2-3 天,微信、支付宝、美团、以及建行、农行等主流银行 APP,便已经对豆包式的自动化操作做了不同程度的技术和风控限制:有的触发安全风控导致登录异常,有的直接识别并屏蔽此类"代操作"行为。
系统级 AI 的控制权,几乎是所有手机厂商都不愿外放的底牌,必须握在自己手中。这也导致豆包手机虽然在交互创新上给出了积极的探索,但短期内还是很难进入国内头部手机厂商的合作视野。
所以我们会看到,华为、荣耀、小米等头部手机厂商一边对豆包助手在 OS 做系统层掐断(如权限拒绝),一边力推自家 AI 助手。华为升级"小艺"把智能体深度绑定进鸿蒙生态,小米以"超级小爱"承接系统级多模态交互与跨应用执行,荣耀则在发布会上让 YOYO 上演"一口气点 2000 杯咖啡"的花活儿,向用户展示出"系统级会动手"。
某种程度上,这是手机厂商们在用"自有智能体"替代"外来总管",展示出其既要占住 AI 入口,又要守住生态主导权的决心。

相比之下,虽然能预见的是,A2A 同样绕不开不同应用厂商"商业授权"这道坎,却已是目前在局部范围内展现出的"最优解"。
阿里千问系 Agent 或微信 Agent,通过自有生态内的高频、高价值场景,验证 A2A 路线的技术可靠性,实现"小原生",再以统一协议和成熟范式为样板,逐步对外开放接口,吸引更多第三方服务以"接入 Agent 网络"的方式走向"更大的原生"。
据了解,吴嘉还在千问发布会后的采访中透露,"除了接入阿里生态,千问会在未来接入第三方的产品,这件事已在讨论中。"
至少在现阶段,这种从内部生长出来的秩序,比强行接管外部 APP 的 GUI 路线面临的阻力要更小。
可控性进化:AI 手机的第一要义
从演进方向来看,GUI 更像从更高一级调度层出发,"自上而下"统筹各类应用,A2A 则像由业务自身先完成智能体改造,再逐步形成协作网络的"自下而上"。
若论体验感,GUI 路线明显更优,因为它更"未来",用户很容易在演示场景中发现" Aha moment "。若论成熟度和稳定性,A2A 路线有更大概率发展成可持续的基础能力,也符合 AI 手机的演进方向。

(豆包手机演示图)
但这并不意味着两条路线必然走向对立。OPPO ColorOS 智慧产品研发负责人姜昱辰就曾在采访中提到," OPPO 将采取差异化策略,针对社交、支付等高频使用场景,优先构建智能体间的直接通信协议;而对于低频长尾需求,则保留图形界面交互作为补充方案。"
这背后,其实对应着两种截然不同的技术范式:AI 是"模拟人做事",还是"直接调用能力"。GUI Agent 在简单场景下尚可奏效,但一旦涉及多步骤、多分支的复杂任务,稳定性就会下降。
相比之下,当 AI 是从应用本身出发,完成从 APP 到 Agent 的升级,其基于工作流的进化和理解是循序渐进的,与之对应的是复杂任务成功率也会显著提升。由此可见,AI Agent 竞争的核心,不止在于"能力有多强",更在于"是否足够可控"。
真正的分水岭,出现在合规与责任界定。中国信通院牵头发布的《端云协同智能体交互双重授权安全指引》,重点提到了"构建由用户和应用双重授权的安全机制",明确智能体 AI"需同时获得应用授权与用户授权,才能合法访问第三方应用"。

GUI Agent绕过了应用对 AI 许可授权的过程,一旦在支付、游戏、金融等场景出现损失或争议,就会面临责任归属的难题:这是用户"自作主张"的后果?是 AI 服务提供方的责任?还是应用方没有做好防护?在没有"用户 + 应用双重授权"的前提下,很难建立一套各方都认可的责任与合规框架。
隐私与数据安全,进一步放大了 GUI 路线的风险。为了跨 APP 代操作,GUI Agent 往往需要使用诸如 READ_FRAME_BUFFER、INJECT_EVENTS 这类系统级敏感权限,直接读取屏幕画面、模拟点击与输入。
对普通用户而言,这等价于把自己的聊天记录、支付页面、验证码输入、银行余额,一次性暴露给一个"看不见的助手"。即便产品方声称"数据不上云""截图不存储",用户也很难真正理解数据在本地和云端之间的流动路径,信任门槛非常高。
这种担忧并非用户的"技术焦虑",而是已经在行业内部被反复讨论的现实风险。中国信通院数安智库专家曾令平接受媒体采访时坦言,系统级 AI 确实存在多重风险。
"顶格的系统权限如同开‘后门’,可读取屏幕上的所有信息,包括各种隐私数据;模拟点击功能可能被恶意利用,威胁资金安全;部分厂商权限开通不透明,责任划分模糊,也会放大安全隐患。"
从现实反馈来看,监管与头部平台对这种可能"越权"的系统级能力始终保持高度警惕。一旦允许某个外部智能体在屏幕层面对金融操作、登录验证进行自动化处理,从技术上就必须假设:只要有权限,就存在被恶意滥用、被中间人攻击或被其他恶意程序劫持的可能。这也是为何在豆包手机助手的测试阶段,银行、支付类应用的自动化能力很快就被主动收缩和下线。

(OWASP(开放全球应用安全项目)发布的《2026 年智能体应用安全十大风险》"身份与权限滥用"是十大风险之一)
与之对应,A2A 路线在设计之初便明确区分了角色边界:人是决策主体,AI 负责执行和优化。用户负责给出目标与偏好,主 Agent 拆解任务并规划步骤,子 Agent 则在各自业务域内,调用经过应用方授权和封装的能力,在可控边界内协同完成任务。
在这一过程中,"用户授权"和"应用授权"被天然地绑定在一起:应用方通过协议公开哪些能力可以被智能体调用、调用频率如何限制、涉及哪些数据字段,这构成了"应用授权"的硬边界,也让用户更容易理解 AI 的能力范围。
{jz:field.toptypename/}与此同时,用户会在具体场景里授权某个 Agent 代表自己调用这些能力,并在关键决策节点给予确认。
AI 提出建议,人来拍板,最终由业务方按照协议执行。既降低了对系统级高权限的依赖,也将隐私与责任问题拆解到更细粒度的接口与交互之中,更易被监管接受,也便于平台审计。
如果再把时间周期拉长,A2A 更等同于搭建了一个有 APP 安全和数据安全协议底层的"超级 Agent "。
它的进化方式并非推翻现有生态,而是基于既有的用户行为逻辑,在保留现阶段软件生态、APP 生态基础和商业价值生态的基础之上,向 AI 迈出一步,为 C 端用户提供一种有真实体感的"体验附加项"。
这也更符合近两年被频繁提及的"人本智能(Human-Centered AI)"理念,即AI 的核心价值并非取代人,而是在安全、可控的边界内,承接人的目标与责任,把技术能力转化为对教育、医疗等普惠场景的真实改善。

当然,A2A 路线也并非全无挑战,随着千问、微信等超级 Agent 继续向前演进,超级 Agent 之间如何打通协作,不同生态中谁作为主 Agent、谁作为子 Agent,以及底层模型之间的语义差异等等,都是绕不开的问题。
试想一下,未来的某一天,你让淘宝 Agent 负责采购野餐装备,同时调用美团 Agent 订附近的下午茶。但在两个 Agent 的"对话"中,两者对"即时送达"的理解并不一致——淘宝认为是"当天可送",而美团默认的是" 30 分钟内送达"。
结果在协商配送时间时,系统给出了一个双方都无法兑现的承诺:本该"无货"的商品,被包装成了"换个口味即可立刻送达",最终导致订单失败,用户白等一场。
但博弈往往是新秩序的前奏,就像过去二十年,互联网依赖 HTTP、TCP/IP 这样的底层共识运行,随着技术革新的深化,不排除未来政策或行业层面可能出现"超级 Agent to 超级 Agent "的公共协议。到那时,AI 手机才真正推开了通往全能交互的大门。
终极猜想:寻找 AI 时代的「iPhone」
如果说移动互联网时代的核心产品逻辑,是"以 APP 为中心组织服务",那么 AI 时代正在浮现的,是一个以 Agent 为中心重构产品、生态与用户体验的新范式。
回看移动互联网的爆发原点,苹果的伟大之处不止于 iPhone 的硬件参数,更在于它通过 App Store 建立了一套契合用户需求的移动互联网的软件生态。
借用历史视角回望,我们或能窥见未来" iPhone "的雏形。
其软件价值是一种能繁荣 Agent 生态的聚合能力,其硬件形态也未必是手机,甚至可能是眼镜、头显、手表等其他智能终端。
当应用不再是静止的图标,而是以 Agent 的形式流动起来时,AI 的角色也随之发生改变。它不再只是提升点击效率的辅助工具,而是开始真正介入并重塑价值创造的核心环节。
当 AI Agent 成为连接用户与服务的核心入口,竞争的焦点也不再是"谁占据了用户更多时间",而是谁更高效地完成了用户的真实需求——"流量"从"时间占有"升级为"需求满足"。
事实上,Agent 从"工具"进化为"服务主体"已逐渐成为业内共识。微软 CEO 萨提亚 · 纳德拉在微软 Build 2025 开发者大会上提到,AI 不只是协作工具,更是可被信赖的数字同事,能够独立思考、执行任务。
OpenAI CEO 萨姆 · 奥特曼也在 2025 年的访谈中提到,AI 正在经历从"推理引擎"到"个人代理(Personal Agent)"的跨越。
当用户选择某个 Agent,本质上是在选择一个能代替自己做决策的"智能服务商"。这也对未来的 AI 终端提出了更高要求:它不仅要理解指令,更要理解用户背后的利益边界、风险偏好与决策底线。
因此,无论是 AI 手机,还是未来可能出现的其他 AI 终端,本质上都是 AI Agent 的硬件载体,而非 Agent 本身。其核心演进逻辑,都应遵循"人本位"原则,即 AI 不应越俎代庖代替人类做决策。
这一判断,也与另一个正在显现的大趋势相呼应—— AI 时代,价值将更加集中地体现为企业可被 Agent 调用和放大的核心能力,比如阿里、京东的电商履约,比如腾讯的社交关系链等等,都被转化为一个明确的 AI 价值符号,最终这些符号进行排列组合,企业之间不断聚合协同,形成更极致的终极 AGI 产品。
近期国家市场监管总局对外卖行业巨头及携程的约谈,释放出一个清晰信号:协同聚合是符合社会价值的,平台"通吃"单打独斗反而会带来更大的用户和商业风险。
这意味着,未来的"终端霸主",需在商业变现、生态公平之间找到最优用户需求价值,和最优社会稳定价值的平衡点。
虽道阻且长,但沸腾推动进步,我们或许仍无法准确描绘 AI 时代「iPhone」的最终形态,但可以确信的是——它一定诞生于 Agent 生态真正繁荣、协同而非通吃成为共识的那一刻。

备案号: