ClawWork

2周前发布 17 0 0

ClawWork 是由香港大学数据科学实验室(HKUDS)推出的开源项目。它不仅仅是一个自动化工具,更是一个赋予 AI “眼睛”和“手”的通用代理(General-Purpose Agent)框架。

收录时间:
2026-04-07

ClawWork 是由香港大学数据科学实验室(HKUDS)推出的开源项目。它不仅仅是一个自动化工具,更是一个赋予 AI “眼睛”和“手”的通用代理(General-Purpose Agent)框架。它旨在让大语言模型(LLM)能够像人类一样,通过视觉感知和模拟操作,自主完成任何基于浏览器的复杂任务。

ClawWork

ClawWork 网页截图

🌟 核心突破:从“脚本执行”到“视觉决策”

传统的浏览器自动化(如 Selenium)依赖于死板的 HTML DOM 树,一旦网页改版就会失效。而 ClawWork 采用了全新的技术范式:

  1. 多模态视觉感知 (Multimodal Perception)

    ClawWork 能够像人眼一样“阅读”屏幕。它将网页截图与结构化数据结合,让 AI 理解按钮的位置、文本的含义以及复杂的视觉布局,极大地提升了在动态网页上的稳定性。

  2. 分层动作空间 (Hierarchical Action Space)

    系统预设了一套精简且高效的原子操作(点击、滚动、输入、拖拽)。AI Agent 会根据当前任务目标,自动拆解步骤并调用这些动作,实现了从“接收指令”到“完成任务”的端到端闭环。

  3. 极高的通用性与可迁移性

    无论是处理复杂的企业后台、进行跨平台的电商比价,还是在社交媒体上执行模拟人工的搜索,ClawWork 都能在无需针对特定网站编写代码的情况下,实现“开箱即用”。


🛠 技术亮点与规格

特性 详细说明
开源底色 基于 GitHub 社区驱动,支持完全私有化部署。
驱动引擎 深度集成 Playwright,确保了顶级的跨浏览器兼容性。
交互逻辑 采用 VLM(视觉语言模型)作为决策大脑,具备逻辑推理能力。
容错机制 具备自动错误恢复能力,当操作偏离预期时,Agent 能进行自我修正。
易用性 提供 Python API,方便开发者快速集成到现有的 AI 工作流中。

🚀 典型应用场景

  • 智能数据抓取: 自动处理登录、滑块验证和无限滚动,抓取传统爬虫难以触及的动态数据。

  • 自动化软件测试 模拟真实用户的复杂交互路径,自动发现 UI 缺陷并生成报告。

  • 数字员工托管: 自动执行报销审批、邮件归档、CRM 数据同步等高重复性行政任务。

  • 科研辅助: 在学术数据库中自动搜索、筛选并下载特定主题的论文。


📥 快速开始

如果您是开发者,可以通过以下方式快速接入 ClawWork 的能力:

  1. 克隆仓库: git clone https://github.com/HKUDS/ClawWork.git

  2. 配置环境: 建议使用 Python 3.10+ 环境,安装必要的依赖项。

  3. 接入模型: 配置您的 GPT-4V 或其他开源多模态模型 API 密钥。

  4. 运行示例: 参考项目提供的脚本,尝试让 Agent 帮您在 Google Maps 上搜索特定餐厅。


💡 结语

ClawWork 的出现标志着浏览器自动化进入了“智能时代”。它不再需要程序员为每一个网页编写专属脚本,而是让 AI 真正学会了“上网”。

相关导航

暂无评论

none
暂无评论...