iOS 自动化支持
Midscene 可以驱动 WebDriver 工具来支持 iOS 自动化。
由于适配了视觉模型方案,整个自动化过程可以适配任意的 App 技术栈,无论是 Native、Flutter 还是 React Native 构建的 App 或小程序都能使用。开发者只需面向最终效果调试 UI 自动化脚本即可。
iOS UI 自动化方案具备 Midscene 的全部特性:
- 支持使用 Playground 进行零代码试用。
- 支持 JavaScript SDK。
- 支持使用 YAML 格式的自动化脚本与命令行工具。
- 支持生成 HTML 报告回放所有操作路径。
案例展示
Prompt : 打开美团,帮我下单一杯 manner 超大杯冰美式咖啡,要加浓少冰喔,到结算页面让我确认
查看此次任务的完整报告:report.html
Prompt : Open Twitter and auto-like the first tweet by @midscene_ai
查看此次任务的完整报告:report.html
查看更多案例:showcases
在 Playground 中试用
借助 Playground,你无需编写任何代码即可体验 Midscene 的能力。
查看 开始使用 了解如何启动 Playground。
关于 WebDriverAgent
WebDriver 是 W3C 制定的浏览器自动化标准协议,提供统一的 API 来控制不同的浏览器和应用。该协议定义了客户端与服务端之间的通信方式,使自动化工具能跨平台地操纵各种界面。
得益于 Appium 团队以及其他开源社区的努力,业界已经出现了多个优秀的库,将桌面端和移动端的操作转化为 WebDriver 协议,例如:
- Appium —— 跨平台移动自动 化框架
- WebDriverAgent —— 专注于 iOS 设备自动化的服务
- Selenium —— Web 浏览器自动化工具
- WinAppDriver —— Windows 应用自动化工具
Midscene 适配 WebDriver 协议,这意味着开发者可以在任何支持 WebDriver 的设备上使用 AI 模型执行智能自动化操作。通过该设计,Midscene 不仅能完成点击、输入等传统操作,还可以:
- 理解界面内容与上下文
- 执行复杂的多步骤操作
- 进行智能断言与验证
- 提取并分析界面数据
在 iOS 平台上,Midscene 通过 WebDriverAgent 连接 iOS 设备,让你可以用自然语言描述来控制 iOS App 和系统。

