English | 简体中文
AI 加持,更愉悦的 UI 自动化
Midscene.js 是一个由 AI 驱动的自动化 SDK,能够使用自然语言对网页进行操作、验证,并提取 JSON 格式的数据。
指令 | 视频 |
---|---|
发布一条 Twitter | twitter-video-1080p.mp4 |
用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs | google-doc-1080p.mp4 |
从 v0.10.0 版本开始,我们支持了新的开源模型 UI-TARS
。更多信息请查看 选择 AI 模型。
- 自然语言互动 👆:只需描述你的步骤,Midscene 会为你规划和操作用户界面
- 理解UI、JSON格式回答 🔍:你可以提出关于数据格式的要求,然后得到 JSON 格式的预期回应。
- 直观断言 🤔:用自然语言表达你的断言,AI 会理解并处理。
- Chrome 插件体验 🖥️:通过 Chrome 插件,你可以立即开始体验,无需编写代码。
- 用可视化报告来调试 🎞️:通过我们的测试报告和 Playground,你可以轻松理解和调试整个过程。
- 完全开源 🔥:体验全新的自动化开发体验,尽情享受吧!
- 你可以使用通用的 LLM 模型,如
gpt-4o
,它适用于大多数情况。同时,gemini-1.5-pro
和qwen-vl-max-latest
(千问)也是支持的。 - 你也可以使用
UI-TARS
模型 ,这是一个专为 UI 自动化设计的大模型。你可以私有化部署,以提高性能和数据隐私。 - 更多信息请查看 选择 AI 模型。
业界的 UI 自动化工具层出不穷,每个 Demo 都看起来很科幻。Midscene.js 有什么特别之处?
-
调试体验:你很快就会发现,调试和维护自动化脚本才是真正的痛点。无论模型多么强大,你仍然需要调试过程以确保其保持长期稳定。Midscene.js 提供了可视化报告、内置的 Playground 和 Chrome 插件,以调试整个运行过程。这是大多数开发者真正需要的特性,我们也在持续努力改进调试体验。
-
开源、免费、部署灵活:Midscene.js 是一个开源项目。它与云服务和模型提供商解耦,你可以选择公共或私有部署。总会有一个适合你的计划。
-
与 Javascript 集成:你可以永远相信 Javascript 😎
- 官网首页: https://midscenejs.com
- 使用 Chrome 插件体验,请从这里开始体验 Midscene
- 集成方案
- 使用 YAML 格式的自动化脚本, 如果你更喜欢写 YAML 文件而不是代码
- 使用 Chrome 插件桥接模式(Bridge Mode), 使用 Midscene 来控制桌面端 Chrome
- 集成到 Puppeteer
- 集成到 Playwright
- API 文档
- 选择 AI 模型
- 配置模型和服务商(e.g. 使用千问模型)
Midscene.js 遵循 MIT 许可协议。