完整更新日志请参考:Midscene Releases
为 agent 添加 _unstableLogContent
API,即可获取 Midscene 执行过程数据,比如每个步骤的耗时、AI Tokens 消耗情况、页面截图等!
对了,Midscene 的报告就是根据这份数据生成了,也就是说,使用这份数据,你甚至可以定制一个属于你自己的报告!
详情请参考:API 文档
默认情况下,dotenv
不会覆盖 .env
文件中同名的全局环境变量。如果希望覆盖,你可以使用 --dotenv-override
选项。
详情请参考:使用 YAML 格式的自动化脚本
裁剪生成的报告中冗余的数据,大幅减少复杂页面的报告文件大小,用户的典型复杂页面报告大小从 47.6M 减小到 15.6M!
🚀 Midscene 又有更新啦!为你带来高质量的 UI 自动化体验。
logScreenshot
API,将当前页面的截图作为报告节点。支持设置节点标题和描述,使报告内容更加丰富。适用于关键步骤截图记录、错误状态捕获、UI 验证等。支持使用远程 adb 主机,配置键盘策略
autoDismissKeyboard?: boolean
- 可选参数,是否在输入文本后自动关闭键盘
androidAdbPath?: string
- 可选参数,用于指定 adb 可执行文件的路径
remoteAdbHost?: string
- 可选参数,用于指定远程 adb 主机
remoteAdbPort?: number
- 可选参数,用于指定远程 adb 端口
示例:
立即升级版本,体验这些强大新功能!
为满足更多自动化和数据提取场景,以下 API 新增了 options 参数,支持更灵活的 DOM 信息和截图传递:
agent.aiQuery(dataDemand, options)
agent.aiBoolean(prompt, options)
agent.aiNumber(prompt, options)
agent.aiString(prompt, options)
options
参数domIncluded
:是否向模型发送精简后的 DOM 信息,默认值为 false。一般用于提取 UI 中不可见的属性,比如图片的链接。screenshotIncluded
:是否向模型发送截图。默认值为 true。你有没有遇到过需要自动化右键操作的场景?现在,Midscene 支持了全新的 agent.aiRightClick()
方法!
使用右键点击页面元素,适用于那些自定义了右键事件的场景。注意:Midscene 无法与浏览器原生菜单交互。
locate
: 用自然语言描述你要操作的元素options
: 可选,支持 deepThink
(AI精细定位)、cacheable
(结果缓存)在下面的报告文件中,我们展示了一个完整的示例,展示了如何使用新的 aiRightClick
API 和新的查询参数来提取包含隐藏属性的联系人数据。
报告文件:puppeteer-2025-06-04_20-41-45-be8ibktz.html
对应代码可以参考我们的示例仓库:puppeteer-demo/extract-data.ts
使用 xpath 缓存,而不是基于坐标,提高缓存命中概率。
缓存文件格式使用 yaml 替换 json,提高可读性。
🤖 使用 Cursor / Trae 帮助编写测试用例。 🕹️ 快速实现浏览器操作,媲美 Manus 平台。 🔧 快速集成 Midscene 能力,融入你的平台和工具。
了解详情: MCP
APIs: aiBoolean
, aiNumber
, aiString
, aiLocate
了解详情: 使用结构化 API 优化自动化代码
🤖 AI 调试:自然语言调试 📱 支持原生、Lynx 和 WebView 应用 🔁 可回放运行 🛠️ YAML 或 JS SDK ⚡ 自动规划 & 即时操作 API
了解详情: 支持 Android 自动化
了解详情: 即时操作 API
通过文档开启缓存 👉 : 开启缓存
开启效果
UI-TARS 是由 Seed 团队开源的 Native GUI agent 模型。UI-TARS 起名源之星际穿越电影中的 TARS 机器人,它具备高度的智能和自主思考能力。 UI-TARS 将图片和人类指令作为输入信息,可以正确的感知下一步的行动,从而逐渐接近人类指令的目标,在 GUI 自动化任务的各项基准测试中均领先于各类开源模型、闭源商业模型。
UI-TARS:Pioneering Automated GUI Interaction with Native Agents - Figure 1
UI-TARS:Pioneering Automated GUI Interaction with Native - Figure 4
UI-TARS 模型在 GUI 任务中有以下优势:
目标驱动
推理速度快
Native GUI agent 模型
模型开源
公司内部私有化部署无数据安全问题
通过 Midscene 浏览器插件,你可以用脚本联动桌面浏览器进行自动化操作了!
我们把它命名为“桥接模式”(Bridge Mode)。
相比于之前各种 CI 环境调试,优势在于:
可以复用桌面浏览器,尤其是 Cookie、登录态、前置界面状态等 ,即刻开启自动化,而不用操心环境搭建
支持人工与脚本配合操作界面,提升自动化工具的灵活性
简单的业务回归,Bridge Mode 本地跑一下就行
通过 Chrome 插件,你可以零代码、任意页面随时运行 Midscene,体验它的 Action \ Query \ Assert 等能力。
体验方式: 使用 Chrome 插件体验 Midscene
再也不用频繁重跑脚本调试 Prompt 了!
在全新的测试报告页上,你可以随时对 AI 执行结果进行调试,包括页面操作、页面信息提取、页面断言。
全新支持调用豆包模型调用,参考下方环境变量即可体验。
总结目前豆包模型的可用性:
目前豆包只有纯文本模型,也就是“看”不到图片。在纯粹通过界面文本进行推理的场景中表现尚可。
如果用例需要结合分析界面 UI ,它完全不可用
举例:
✅ 多肉葡萄的价格 (可以通过界面文字的顺序猜出来)
✅ 切换语言文本按钮(可以是:中文,英文文本) (可以通过界面文字内容猜出来)
❌ 左下角播放按钮 (需要图像理解,失败)
通过使用 gpt-4o-2024-08-06 模型,Midscene 已支持结构化输出(structured-output)特性,确保了稳定性增强、成本下降了 40%+。
Midscene 现已支持命中 GPT-4o prompt caching 特性,待公司 GPT 平台跟进部署后,AI 调用成本将继续下降。
现在你可以在测试报告中查看每个步骤的动画回放,快速调试自己的运行脚本
新版本中,我们将 Plan 和 Locate 操作在 prompt 执行上进行一定程度合并,使得 AI 响应速度提升 30%
Before
after
GPT 4o 系列模型,接近 100% 正确率
doubao-pro-4k 纯文本模型,接近可用状态
优化了页面信息提取,避免遮挡元素被收集,以此优化成功率、速度、AI 调用成本 🚀
before
after
支持了 azure openAI 的调用方式
支持了 AI 对于 Input 现有基础之上的增删改行为
优化了对于非文本、input、图片元素的识别,提升 AI 任务正确性
在 AI 交互过程中裁剪了不必要的属性字段,降低了 token 消耗
优化了 KeyboardPress、Input 事件在任务规划时容易出现幻觉的情况
针对 pagepass 通过 Midscene 执行过程中出现的闪烁行为,提供了优化方案
支持 AI 执行等待能力,让 AI 等到到某个时候继续后续任务执行
Playwright AI 任务报告展示整体耗时,并按测试组进行聚合 AI 任务
支持通过自然语言控制 puppeteer 实现页面操作自动化🗣️💻
在 playwright 框架中提供 AI 缓存能力,提高稳定性和执行效率
AI 报告可视化按照测试组进行合并,优化聚合展示
支持 AI 断言能力,让 AI 判断页面是否满足某种条件
通过自然语言控制 playwright 实现页面操作自动化 🗣️💻
通过自然语言提取页面信息 🔍🗂️
AI 报告,AI 行为、思考可视化 🛠️👀
直接使用 GPT-4o 模型,无需任何训练 🤖🔧