
ClawWork 是由香港大学数据科学实验室(HKUDS)推出的开源项目。它不仅仅是一个自动化工具,更是一个赋予 AI “眼睛”和“手”的通用代理(General-Purpose Agent)框架。它旨在让大语言模型(LLM)能够像人类一样,通过视觉感知和模拟操作,自主完成任何基于浏览器的复杂任务。

ClawWork 网页截图
🌟 核心突破:从“脚本执行”到“视觉决策”
传统的浏览器自动化(如 Selenium)依赖于死板的 HTML DOM 树,一旦网页改版就会失效。而 ClawWork 采用了全新的技术范式:
-
多模态视觉感知 (Multimodal Perception)
ClawWork 能够像人眼一样“阅读”屏幕。它将网页截图与结构化数据结合,让 AI 理解按钮的位置、文本的含义以及复杂的视觉布局,极大地提升了在动态网页上的稳定性。
-
分层动作空间 (Hierarchical Action Space)
系统预设了一套精简且高效的原子操作(点击、滚动、输入、拖拽)。AI Agent 会根据当前任务目标,自动拆解步骤并调用这些动作,实现了从“接收指令”到“完成任务”的端到端闭环。
-
极高的通用性与可迁移性
无论是处理复杂的企业后台、进行跨平台的电商比价,还是在社交媒体上执行模拟人工的搜索,ClawWork 都能在无需针对特定网站编写代码的情况下,实现“开箱即用”。
🛠 技术亮点与规格
| 特性 | 详细说明 |
| 开源底色 | 基于 GitHub 社区驱动,支持完全私有化部署。 |
| 驱动引擎 | 深度集成 Playwright,确保了顶级的跨浏览器兼容性。 |
| 交互逻辑 | 采用 VLM(视觉语言模型)作为决策大脑,具备逻辑推理能力。 |
| 容错机制 | 具备自动错误恢复能力,当操作偏离预期时,Agent 能进行自我修正。 |
| 易用性 | 提供 Python API,方便开发者快速集成到现有的 AI 工作流中。 |
🚀 典型应用场景
-
智能数据抓取: 自动处理登录、滑块验证和无限滚动,抓取传统爬虫难以触及的动态数据。
-
自动化软件测试: 模拟真实用户的复杂交互路径,自动发现 UI 缺陷并生成报告。
-
数字员工托管: 自动执行报销审批、邮件归档、CRM 数据同步等高重复性行政任务。
-
科研辅助: 在学术数据库中自动搜索、筛选并下载特定主题的论文。
📥 快速开始
如果您是开发者,可以通过以下方式快速接入 ClawWork 的能力:
-
克隆仓库:
git clone https://github.com/HKUDS/ClawWork.git -
配置环境: 建议使用 Python 3.10+ 环境,安装必要的依赖项。
-
接入模型: 配置您的 GPT-4V 或其他开源多模态模型 API 密钥。
-
运行示例: 参考项目提供的脚本,尝试让 Agent 帮您在 Google Maps 上搜索特定餐厅。
💡 结语
ClawWork 的出现标志着浏览器自动化进入了“智能时代”。它不再需要程序员为每一个网页编写专属脚本,而是让 AI 真正学会了“上网”。
相关导航

AniColors

Codev

Veltos AI

Doc2X

TrendPublish

MaxClaw







