Midscene
介绍 Midscene.js 是一个开源的 AI 操作助手,适用于 Web、移动端、自动化和测试。 特性 通过自然语言描述目标和步骤,自动生成 UI 自动化脚本 描述你的目标和步骤,Midscene 会为你规划和操作用户界面。 支持 JavaScript SDK 和 YAML 两种脚本格式 跨平台支持 网页自动化:集成 Puppeteer、Playwright 或桥接模式控制桌面浏览器 Android 自动化:通过 adb 控制本地设备 iOS 自动化:通过 WebDriverAgent 控制本地设备 辅助工具 提供可视化测试报告和 Playground 环境,便于调试和回放 支持脚本缓存,提升执行效率 开放 MCP 协议,允许其他 MCP Client 直接调用(支持 Web 和 Android) 三大 API 类型 交互 API:操作用户界面元素 数据提取 API:从 UI 和 DOM 中提取数据 实用 API:提供 aiAssert() 断言、aiLocate() 定位、aiWaitFor() 等待等辅助函数 模型选择 模型最好使用支持视觉的模型,如: gemini, claude, UI-TARS 等模型。本文的案例会使用 Doubao-1.5-UI-TARS 进行介绍。 Doubao-1.5-UI-TARS 是字节跳动开源的一款原生面向图形界面交互(GUI)的 Agent 模型。通过感知、推理和行动等类人的能力,与 GUI 进行无缝交互,非常适合 Midscene.js 使用。 ...