对"豆包手机"的一点点思考(偏技术向)
豆包手机的感想
最近豆包手机很火,恰好看到智谱开源的AutoGLM,在群里吹水聊了下,记录下一点点思考。
我虽然没有真机体验,看了B站很多真实用户分享的视频,还是挺激动。之前在Github看到过类似手机ai相关项目,大多技术路线差不多:通过adb、无障碍、root等方式获取截图、ui层级、设备运行信息等,然后调用远程模型(deepseek、gpt等),搭配内置的提示词,实现自动化操作手机。比较出名的有:Operit AI,minitap-ai,droidrun 等,以及这几天智谱开源的Open-AutoGLM项目,智谱和其他不同的是使用了针对手机场景训练的AutoGLM-Phone-9B模型。
这些项目的原理和实现思路其实大同小异,前几个项目出来也有段时间了,我实际用过Operit AI。为啥选它呢?很简单,要是想体验舒服点,没人愿意一直用 adb 方式(总不能一直连电脑吧🤣),而 Operit AI 是独立APP方式,提供无障碍、root等方式激活运行,能获取UI层级、截图、执行shell命令,有很多内置库和mcp。但我实测简单的任务可以,比如打开打开网易云音乐搜索某首歌播放、打开B站搜索关键词播放并点赞,整体效果比较慢,主要受模型、提示词、实现逻辑等影响。体验后就很少使用了,主要是容易出错、体验不够流畅,当时就觉得这东西应该由手机厂商去做,系统有"上帝权限",根本不用靠无障碍或adb去拿设备信息,再加上端侧ai能力,也就是离线本地运行的模型,这样能避免很多问题:运行效率、隐私性等,就是肯定会更耗电。
豆包手机出来后,我觉得基本贴近我之前想的方案了,惊喜的是,它用了类似"虚拟屏"的技术方案,也就是ai操作可以放后台,后台应用能达到"前台效果",还不影响前台用户操作手机,也就是可以轻松完成以下类似场景:打游戏的时候呼出豆包助手,及时给老婆回条消息(现在不让操作微信了),B站上好多视频都展示过类似场景,这里就不专门吹了。还有一点,豆包手机整体ai操作比较丝滑,但是看到有的视频里提到有使用服务器额度的提示,也没见过断网后离线使用的实测,所以猜测大概率还是远程模型+本地轻量模型的方案。
豆包手机被限制
发布没几天,微信、阿里这些大厂的软件就开始封禁或抵制豆包手机了,具体表现为警告、限制登录等。由于没摸到真机,网上也没有流出解锁BL或Root的方案,无法逆向分析,只能从理论层面琢磨下,以下纯属个人"臆想"。
- 可能的风控因素:设备硬件参数(机型、设备指纹、系统参数、环境变量等)、AI技术特征(很多媒体提到的INJECT_EVENTS权限、无障碍技术的使用痕迹、“虚拟屏"的技术特征等)
- 可能的应对技术方案:
- 先说明下,这是不考虑合规性和舆论风险的纯技术猜想,豆包一定不会这么做
- 可以将设备参数随机化或伪装,既然可能风控的是努比亚M153参数,那么将机型参数改为努比亚M154或其他努比亚热门手机型号,避免被针对
- 把技术实现改为系统层调用,避免使用无障碍等技术。既然系统都是自家开发的,那么在系统层面将event改成用户手动event轻轻松松,这样APP就识别不了是否是模拟操作
- 可能的后续发展:技术发展不能以马车视角看蒸汽机,ai手机肯定是未来趋势,但是为了应对黑灰产、隐私性等要求,也为了守住自身的"护城河”,软件厂商短期内大概率会保持保守态度。未来手机厂商和各大软件厂商大概率会牵手合作,只开放基础的ai操作权限,而且需要用户手动开启,手机系统也可完全关闭AI功能。根据以往的经验,或许这块还得靠苹果来推动,iOS上了Android才有可能快速跟进,而且不用想,国内功能绝对有阉割或软件不配合。
理想中的 AI 手机
上面分析了豆包手机和同类开源项目的实现方案,也有其他因素(合规性、隐私性等)的限制。参照现在很多开源项目,我感觉未来也会有类似开源或极客形式的AI手机的方案,理想中的AI手机方案至少满足以下几点:
- 所有AI功能都在系统层实现,具体做法可以通过Fork LineageOS或开源Rom代码实现,也可通过类似Xposed模块等方式注入系统服务方式实现
- 支持离线运行AI模型,得平衡好功耗和模型能力(未来模型能力越来越强,还是很有可能的),毕竟移动设备,耗电多了也没人愿意用
- 系统层不依赖无障碍、Root、adb 等,能高效获取界面和操作设备。优先通过UI层级(也就是 View 树,类似网页的 Dom 树)获取信息,而且要做精简,只提取有实际显示内容的 View 节点;截图方式效率低、模型处理也慢,可以考虑降低分辨率和画质;其他设备操作优先用 shell 命令获取,比如启动 APP、发送广播、读取文件、设置定时任务这些
- 系统层直接实现自动化操作,模拟用户手动操作,让APP无法区分是自动化还是真人操作
- 支持MCP和插件,得有对开发者友好的扩展环境,搭建完善的插件生态
- 保障隐私,核心功能离线运行,要是有需要联网的功能,必须让用户手动确认
- 能识别并管控风险操作,毕竟有了系统最高权限,像删除文件、涉及金钱交易、执行高危命令这类操作,得让用户手动确认,或通过分级模式(比如极客模式、小白模式)降低使用门槛
以上纯属"臆想",至少现阶段(2025年底)很多要求都无法达到,期待 AI 快速发展的未来,能出现更多可能性,也希望手机厂商和软件厂商能多些开放合作,做出体验更好的 AI 手机。