Midscene

介绍 Midscene.js 是一个开源的 AI 操作助手,适用于 Web、移动端、自动化和测试。 特性 通过自然语言描述目标和步骤,自动生成 UI 自动化脚本 描述你的目标和步骤,Midscene 会为你规划和操作用户界面。 支持 JavaScript SDK 和 YAML 两种脚本格式 跨平台支持 网页自动化:集成 Puppeteer、Playwright 或桥接模式控制桌面浏览器 Android 自动化:通过 adb 控制本地设备 iOS 自动化:通过 WebDriverAgent 控制本地设备 辅助工具 提供可视化测试报告和 Playground 环境,便于调试和回放 支持脚本缓存,提升执行效率 开放 MCP 协议,允许其他 MCP Client 直接调用(支持 Web 和 Android) 三大 API 类型 交互 API:操作用户界面元素 数据提取 API:从 UI 和 DOM 中提取数据 实用 API:提供 aiAssert() 断言、aiLocate() 定位、aiWaitFor() 等待等辅助函数 模型选择 模型最好使用支持视觉的模型,如: gemini, claude, UI-TARS 等模型。本文的案例会使用 Doubao-1.5-UI-TARS 进行介绍。 Doubao-1.5-UI-TARS 是字节跳动开源的一款原生面向图形界面交互(GUI)的 Agent 模型。通过感知、推理和行动等类人的能力,与 GUI 进行无缝交互,非常适合 Midscene.js 使用。 ...

十一月 29, 2025 · 1 分钟 · overstarry

Dify 学习 - 安装和初探

前言 Dify 是一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流、RAG 管道、Agent、模型管理、可观测性功能等,让您可以快速从原型到生产。本篇将介绍如何安装和初步使用 Dify,接下来还会有多篇介绍 Dify 的文章,敬请期待。 安装 接下来介绍如何使用 Docker 安装 Dify。 安装 Docker 在各个操作系统上安装 Docker,可以参考 Docker 官方文档,这里就不进行叙述了。 Clone Dify 仓库 使用命令 git clone https://github.com/langgenius/dify.git 克隆 Dify 仓库。 启动 Dify 进入 Docker 目录,拷贝一份环境变量配置文件,使用 docker compose up -d 命令启动 Dify。 cd dify/docker cp .env.example .env docker compose up -d 过一会儿,使用 docker compose ps 命令查看容器状态,确保所有容器都正常运行。 设置管理员账号 访问 http://localhost/install 设置管理员账号,设置完成之后,访问 http://localhost/signin 即可登录。 ...

四月 28, 2025 · 1 分钟 · overstarry

使用 gpt 改造你的小米音箱

前言 前段时间看到了一个项目 mi-gpt ,可以将你的小爱音箱接入 gpt,改造成专属于你的语音助手。 接下来就由作者来介绍小爱同学从零接入 deepseek 的过程。 设置环境变量和配置文件 mi-gpt 有两种部署方式,一是使用 docker 部署,二是使用 Node.js 进行部署,本文使用 docker 进行部署使用。 需要提供两个文件 .env 和 .migpt.js 文件,.migpt.js 是配置文件,包括一些配置,.env 是环境变量文件,存放 gpt 密钥相关文件。文件的例子可以从仓库里复制,然后进行相应的修改。 启动 使用以下命令启动 docker: docker run -d --env-file $(pwd)/.env -v $(pwd)/.migpt.js:/app/.migpt.js idootop/mi-gpt:latest windows 环境下需要将$(pwd) 替换为绝对路径。 启动后可以通过 callAIKeywords 设置的关键字调用 ai 来响应用户的消息。 小结 本文介绍了使用 mi-gpt 升级你的闲置的小爱音箱,通过简单的测试和使用,个人感觉还不够完善,稳定性不够好,感兴趣的读者可以根据本文的内容进行自行搭建尝试。 参考 https://github.com/idootop/mi-gpt

一月 27, 2025 · Updated 三月 17, 2025 · 1 分钟 · overstarry

AI 绘画初体验

前言 最近我发现各个群里出现了一股利用 AI 进行绘画的潮流,今天我也尝试使用 Stable Diffusion 模型 进行 AI 绘画。 Stable Diffusion 简介 Stable Diffusion 是一个文本到图像的模型,将使人们可以在几秒钟内创造出令人惊叹的艺术作品。它在速度和质量方面都有突破,这意味着它可以在消费级 GPU 上运行 开始 我们采用别人封装的 stable-diffusion-webui 平台进行绘画,由于各种条件限制,我们使用 github 上提供的 Google colab notbook 进行部署 (https://colab.research.google.com/drive/1IplUv47g9CgtlJmFnyT2sDyNYDEeMJDi?usp=sharing). 打开链接,我简单的看了下代码,前面是基础的安装运行环境、需要的 Python package .我们依次运行即可。 我们直接来到 1.4 Connect to Google Drive, 勾选 download_if_missing,然后到 https://huggingface.co/settings/tokens 复制你的 toekn 并填入。(huggingface 注册耗费了许多时间,reCAPTCHA 没有通过). 点击运行后就开始拉取模型。 如果运行发现报错了: remote: Access to model CompVis/stable-diffusion-v-1-4-original is restricted and you are not in the authorized list. Visit https://huggingface.co/CompVis/stable-diffusion-v-1-4-original to ask for access. fatal: unable to access 'https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/': The requested URL returned error: 403 你需要到 https://huggingface.co/CompVis/stable-diffusion-v-1-4-original 授权模型的访问权限。授权后重新运行即可。 ...

十月 15, 2022 · Updated 十一月 28, 2025 · 1 分钟 · overstarry