我们只建议你在使用 UI-TARS 等 GUI Agent 模型时使用这种目标导向的 Prompt。
Midscene 有相当多的工具类、测试类开发者,他们更关注 UI 自动化工具的稳定性和性能。为了确保 Agent 能够在复杂系统中精准运行,准确清晰的 Prompt 依然是眼下的最优解。
为了进一步提高稳定性,我们还提供了即时操作接口(Instant Action)、回放报告、Playground 等工具。他们虽然看似有些“传统”、不太“AI”,但在大量实践后,我们有信心这些实用工具才是提升效率的利器。
如果你对“智能 GUI Agent”感兴趣,不妨看看 UI-TARS 模型,Midscene 也内置了对它的支持。
相关文档:
Midscene 存在一些局限性,我们仍在努力改进。
你可以按需选择 AI 模型。
Midscene 会发送页面截图到 AI 模型。在使用了 GPT-4o 时,你的页面 DOM 信息也会被发送。
如果你担心数据隐私问题,请参阅 数据隐私。
在 Midscene.js 中使用通用大模型时,由于每次进行规划(Planning)和查询(Query)时都会调用 AI,其运行耗时可能比传统 Playwright 用例增加 3 到 10 倍,比如从 5 秒变成 20秒。为了让结果更可靠,token 和时间成本是不可避免的。
有几种方法可以提高运行效率:
agent.aiTap('Login Button')
代替 agent.ai('Click Login Button')
。更多详情请参阅 API。一般是 viewport deviceScaleFactor
参数与系统环境不匹配造成的。如果你在 Mac 系统下运行,可以把它设成 2 来解决。
在运行脚本后,通过查看报告文件,你可以了解 Midscene 的大致运行原理。
当在网页上执行某个操作后,Midscene 会自动等待网络空闲。这是为了确保自动化过程的稳定性。如果等待超时,不会发生任何事情。
默认的超时时间配置如下:
当然,你可以通过配置参数修改默认超时时间,或者关闭这个功能:
waitForNetworkIdleTimeout
和 waitForNavigationTimeout
参数waitForNetworkIdle
参数