PC 桌面自动化支持

Midscene 可以驱动原生键盘和鼠标控制,在 Windows、macOS 和 Linux 上支持 PC 桌面自动化。

通过采用视觉模型方案,自动化流程可以适配任何桌面应用程序——无论是用 Electron、Qt、WPF 还是原生技术构建的。开发者在调试 UI 自动化脚本时,只需关注最终的用户体验。

PC 桌面自动化方案具备 Midscene 的所有特性:

  • 支持使用 Playground 进行零代码试用
  • 支持 JavaScript SDK 进行脚本编写
  • 支持 YAML 格式的自动化脚本和命令行工具
  • 支持 HTML 报告回放所有操作路径
  • 跨 Windows、macOS 和 Linux 平台
  • 多显示器支持复杂设置

案例展示

Prompt (macOS): Help me post a tweet promoting Midscene's support for AutoGLM through safari, with the following requirements:

  1. Text content: Midscene now supports AutoGLM!
  2. Media content: Use the AutoGLM video from the download folder!

查看此次任务的完整报告:report.html

Prompt (Windows): 打开 Sauce Demo 电商网站,登录并添加商品到购物车

查看此次任务的完整报告:report.html

Prompt (macOS): 打开 Google 查询圣何塞明天天气温度

查看此次任务的完整报告:report.html

Prompt (Linux): 打开 TodoMVC,添加多个任务并筛选

查看此次任务的完整报告:report.html

查看更多案例:showcases

在 Playground 中试用

借助 Midscene.js Playground,你无需编写任何代码就能体验 PC 桌面自动化能力。

查看 开始使用 了解如何启动 Playground。

核心功能

跨平台桌面控制

  • 鼠标操作:单击、双击、右键、移动鼠标、拖放
  • 键盘输入:输入文本、按键组合(Cmd/Ctrl/Alt/Shift)
  • 屏幕截图:捕获任意显示器的截图
  • 多显示器:同时操作多个显示器

AI 驱动自动化

使用 Midscene 的 AI 能力,您可以用自然语言自动化桌面应用:

await agent.aiAct('打开文件菜单');
await agent.aiAct('点击另存为');
await agent.aiAct('在文件名字段输入 "我的文档"');
await agent.aiAct('按回车键');

使用场景

  • 桌面应用测试:自动化测试 Electron、Qt 或原生应用
  • 工作流自动化:自动化桌面应用中的重复任务
  • 跨应用集成:按顺序控制多个应用程序
  • UI 测试:使用自然语言描述测试桌面应用

下一步