天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

从编程助手到通用Agent:ZeroFlow突破跨端自动化难题 获千万天使投资

2026-03-18来源:快讯编辑:瑞雪

在跨端自动化领域,一场技术革新正悄然展开。两位来自知名硬件企业的工程师张志勇和单文榜,凭借自研的Agent ZeroFlow系统,在安卓设备、Chrome浏览器及PC桌面上实现了多模态操控能力。这一突破让AI能够像人类一样观察屏幕、执行点击、滑动和输入操作,完成复杂的跨平台任务。

当前市场上的主流方案各存局限。豆包手机通过与手机厂商深度合作获取高权限,却引发了应用开发者的强烈抵制;智谱的AutoGLM采用adb协议和远程虚拟机模式,但用户信任成本居高不下。ZeroFlow选择的技术路径截然不同——基于Android无障碍服务构建系统架构。这种设计使AI既能读取屏幕元素位置和内容,又能模拟人类操作手势,且无需突破应用安全机制,从原理上规避了被封禁的风险。

开发团队透露,实际研发过程充满挑战。国内网页普遍设置的反自动化机制构成主要障碍,部分按钮的实际代码位置与视觉呈现相距甚远,传统代码解析方式难以应对。多模态技术在此展现出独特优势,通过视觉识别可准确捕捉界面元素。工程团队还面临优化截图效率的难题,需在广告弹窗干扰下,用最少的图像数据实现精准意图理解,同时控制模型调用成本。

在安全架构设计上,ZeroFlow采用双重防护机制。沙箱环境将用户密钥等敏感信息隔离存储,连AI系统自身都无法直接访问;小模型实时监控用户与大模型的交互内容,对敏感信息进行脱敏处理。这种设计既保障了云端数据安全,又维持了系统运行效率。据测试,普通用户的Token消耗成本可降低30%。

便捷性是该系统的另一大亮点。用户只需通过浏览器注册账号,即可在对话框中直接使用服务,部署流程完全符合互联网产品使用习惯。针对国产大模型的适配优化,使提示词长度缩减近40%,显著提升了工具调用效率。目前系统已支持Kimi、DeepSeek等主流模型,覆盖财务分析、运营流程、内容生产等多个知识工作场景。

这项技术的起源可追溯至三年前。当时张志勇团队为提升编程效率,开发了具备上下文理解能力的代码辅助工具。随着大模型技术发展,他们逐渐意识到这套方法论具有更广泛的应用价值。"当看到OpenClaw的演示时,我们意识到三年积累的技术路径正在被全球验证。"张志勇表示,这促使他们将研发方向从专业工具转向通用智能体。

对于大厂竞争,开发团队保持乐观态度。他们认为生态隔离形成的壁垒,反而成为创业团队的优势——跨平台操作需求正是中小开发者的突破口。目前该项目已获得近千万元天使轮融资,资金将用于功能完善和市场推广。这个由两人组成的创业团队用行动证明,在技术创新领域,敏捷开发有时比资源堆砌更具竞争力。