Midscene 提供了三种关键方法:交互(.ai
, .aiAction
), 提取 (.aiQuery
), 断言 (.aiAssert
)。
.ai
方法描述步骤并执行交互.aiQuery
从 UI 中“理解”并提取数据,返回值是 JSON 格式,你可以尽情描述想要的数据结构.aiAssert
来执行断言通过使用 Midscene.js Chrome 插件,你可以快速在任意网页上体验 Midscene 的主要功能,而无需编写任何代码。
点击 这里 从 Chrome Web Store 安装 Midscene 插件。
请参照文档 通过 Chrome 插件快速体验 进行安装和配置。
维护 Midscene 自动化脚本是一种全新的编码体验。例如,在网页上搜索耳机,你可以这样做:
有多种形式可以将 Midscene 集成到代码项目中:
运行结束后,Midscene 会提供可视化报告和调试 Playground,可以非常方便地调试提示和 AI 的响应。所有的中间数据,例如查询(Query)、计划(Planning)和动作(Actions),都可以被可视化。
此外,Midscene 报告里还集成了一个 Playground,用以在报告中重新运行 Prompt 并调试。
目前我们默认选择的是 OpenAI GPT-4o 作为模型,你也可以自定义为其他多模态模型,如千问、Gemini。
Midscene 运行在用户的自有环境中,所有从页面收集的数据会依照用户的配置,直接传送到 OpenAI 或指定的自定义模型。因此,任何第三方平台均无法获取这些数据。
更多详情请参考 数据隐私。