简体中文

New

Midscene 1.0 正式发布|查看最新特性

Midscene.js

视觉模型驱动，支持全平台的 UI 自动化 SDK

11k+

Github Stars

#2

Github 趋势榜第2名

使用文档案例展示

平台

Web、iOS、Android 等多端支持

用自然语言跨平台控制浏览器和移动应用

统一的 API 设计，轻松实现跨平台自动化

Web

Web

与 Puppeteer 或 Playwright 集成，或使用桥接模式控制桌面浏览器。

iOS

iOS

通过自然语言与 WebDriver 控制 iOS 设备

Android

Android

通过自然语言与 adb 控制安卓设备

Any Interface

任意界面

视觉建模支持任意界面的自动化，突破 DOM 限制。

模型策略

视觉模型多模型组合适配开源模型

视觉模型提升操作精准度

多模型协同提升完成率

有开源选项也靠谱

豆包 Seed

豆包 Seed 视觉模型，针对视觉理解和 UI 元素识别进行优化，表现出色。

Qwen3-VL

Qwen 视觉语言模型，支持高质量图像理解和 UI 元素识别，性价比高。

Gemini-3-Pro

Gemini 先进的多模态模型，拥有强大的视觉能力和全面的 UI 自动化支持。

多模型组合

支持在规划、交互时选用不同模型，提升任务完成率

开发体验

丰富的 API 和工具

大量实用 API，方便控制自动化流程和运行策略

支持扩展自己的 UI 操作 Agent

帮助开发者快速完成 UI Automation 任务上线

丰富的 API

同时支持智能执行流程与原子化精确控制。

MCP Server

将设备操作暴露为 MCP Server，并可与多种模型协作使用。

报告与 Playground

提供直观的可视化报告，帮助开发者回溯自动化流程

灵活集成

支持使用 Yaml 编写自动化流程，支持自定义 Agent 执行策略

.

查看所有 API

aiAct, aiLocate, aiAssert...

探索完整的 API 文档以获取更多自动化能力。

使用文档案例展示