使用 Skills 控制任意平台

Agent Skills 是一种扩展 AI 编程助手能力的格式。Midscene 提供了 Agent Skills,让 AI 编程工具(如 Claude Code、Cline 等)可以通过 CLI 命令驱动 UI 自动化 —— 无需配置 MCP 服务。

MCP 集成 不同,Skills 通过在终端中直接运行 CLI 命令来工作。AI 编程助手充当"大脑":截图、分析 UI、决定下一步操作。

支持的平台

Skill包名CLI 命令说明
Browser Automation@midscene/webnpx @midscene/web通过 Puppeteer 的无头 Chrome,打开新浏览器标签页
Chrome Bridge Automation@midscene/webnpx @midscene/web --bridge使用用户自己的 Chrome 浏览器,保留 Cookie 和会话
Desktop Computer Automation@midscene/computernpx @midscene/computermacOS、Windows、Linux 桌面控制
Android Device Automation@midscene/androidnpx @midscene/android通过 ADB 控制 Android 设备
iOS Device Automation@midscene/iosnpx @midscene/ios通过 WebDriverAgent 控制 iOS 设备

安装

确保已安装 Node.js,然后运行:

# 通用安装
npx skills add web-infra-dev/midscene-skills

# Claude Code
npx skills add web-infra-dev/midscene-skills -a claude-code

# OpenClaw
npx skills add web-infra-dev/midscene-skills -a openclaw

Skills 仓库:github.com/web-infra-dev/midscene-skills

模型配置

Midscene Skills 需要具备强视觉定位能力的视觉模型。配置以下环境变量 —— 可以设为系统环境变量,也可以写在当前工作目录的 .env 文件中(Midscene 会自动加载 .env):

MIDSCENE_MODEL_API_KEY="your-api-key"
MIDSCENE_MODEL_NAME="model-name"
MIDSCENE_MODEL_BASE_URL="https://..."
MIDSCENE_MODEL_FAMILY="family-identifier"

支持的模型和配置详情请参考 模型策略常用模型配置

使用 Skills

在你的 AI 编程助手中,你可以使用以下方式来使用 Skills:

Open photo app, see what is the first photo in the album.

案例:编码 Agent 写完代码后自行验证功能

以下示例中,我们让 Claude Code 开发一个 Electron Todo 应用,并在写完代码后通过 desktop-computer-automation Skill 自行启动应用、操作 UI、截图验证功能是否符合预期 —— 全程无需人工介入,也无需编写测试脚本。

Prompt:

开发一个 Electron Todo 应用,包含添加、勾选、删除功能。
开发完成后,启动应用并用桌面自动化验证:添加 3 个 todo、勾选其中 1 个、删除 1 个,截图确认最终状态正确。

编码 Agent 会自主完成以下工作:编写 Todo 组件 → 启动 Electron 应用 → 连接桌面 → 截图识别 UI → 通过自然语言操作界面 → 截图验证结果。开发者只需描述意图,Skill 赋予 Agent "看屏幕、动鼠标" 的能力,让它像人一样验证自己写的代码。

更多应用场景

Skills 不仅限于本地桌面测试,通过组合不同 Skill 可以覆盖更多场景:

  • 桌面应用自动化测试 — 验证 Electron、Qt、WPF 等桌面应用的功能流程
  • 远程控制电脑 — 通过远程桌面连接操控远程机器上的应用,实现远程运维和调试
  • 移动端应用测试 — 使用 @midscene/android@midscene/ios Skill 在真机或模拟器上验证移动应用
  • 跨应用工作流 — 串联多个应用操作,如从浏览器取数据 → 粘贴到 Excel → 截图发送到 Slack
  • CI/CD 集成 — 在 Linux CI 中通过 Xvfb 无头模式运行,无需物理显示器
  • 日常任务自动化 — 批量填写表单、定时截图监控、自动整理文件等

更多

请参考 Skills 仓库 获取更多详情。