ClawWork

ClawWork 是由香港大学数据科学实验室（HKUDS）推出的开源项目。它不仅仅是一个自动化工具，更是一个赋予 AI “眼睛”和“手”的通用代理（General-Purpose Agent）框架。

收录时间：

2026-04-07

ClawWork 是由香港大学数据科学实验室（HKUDS）推出的开源项目。它不仅仅是一个自动化工具，更是一个赋予 AI “眼睛”和“手”的通用代理（General-Purpose Agent）框架。它旨在让大语言模型（LLM）能够像人类一样，通过视觉感知和模拟操作，自主完成任何基于浏览器的复杂任务。

ClawWork 网页截图

🌟 核心突破：从“脚本执行”到“视觉决策”

传统的浏览器自动化（如 Selenium）依赖于死板的 HTML DOM 树，一旦网页改版就会失效。而 ClawWork 采用了全新的技术范式：

多模态视觉感知 (Multimodal Perception)

ClawWork 能够像人眼一样“阅读”屏幕。它将网页截图与结构化数据结合，让 AI 理解按钮的位置、文本的含义以及复杂的视觉布局，极大地提升了在动态网页上的稳定性。
分层动作空间 (Hierarchical Action Space)

系统预设了一套精简且高效的原子操作（点击、滚动、输入、拖拽）。AI Agent 会根据当前任务目标，自动拆解步骤并调用这些动作，实现了从“接收指令”到“完成任务”的端到端闭环。
极高的通用性与可迁移性

无论是处理复杂的企业后台、进行跨平台的电商比价，还是在社交媒体上执行模拟人工的搜索，ClawWork 都能在无需针对特定网站编写代码的情况下，实现“开箱即用”。

🛠 技术亮点与规格

特性	详细说明
开源底色	基于 GitHub 社区驱动，支持完全私有化部署。
驱动引擎	深度集成 Playwright，确保了顶级的跨浏览器兼容性。
交互逻辑	采用 VLM（视觉语言模型）作为决策大脑，具备逻辑推理能力。
容错机制	具备自动错误恢复能力，当操作偏离预期时，Agent 能进行自我修正。
易用性	提供 Python API，方便开发者快速集成到现有的 AI 工作流中。

🚀 典型应用场景

智能数据抓取： 自动处理登录、滑块验证和无限滚动，抓取传统爬虫难以触及的动态数据。
自动化软件测试： 模拟真实用户的复杂交互路径，自动发现 UI 缺陷并生成报告。
数字员工托管： 自动执行报销审批、邮件归档、CRM 数据同步等高重复性行政任务。
科研辅助： 在学术数据库中自动搜索、筛选并下载特定主题的论文。

📥 快速开始

如果您是开发者，可以通过以下方式快速接入 ClawWork 的能力：

克隆仓库： git clone https://github.com/HKUDS/ClawWork.git
配置环境： 建议使用 Python 3.10+ 环境，安装必要的依赖项。
接入模型： 配置您的 GPT-4V 或其他开源多模态模型 API 密钥。
运行示例： 参考项目提供的脚本，尝试让 Agent 帮您在 Google Maps 上搜索特定餐厅。

💡 结语

ClawWork 的出现标志着浏览器自动化进入了“智能时代”。它不再需要程序员为每一个网页编写专属脚本，而是让 AI 真正学会了“上网”。

暂无评论

暂无评论...

ClawWork

🌟 核心突破：从“脚本执行”到“视觉决策”

🛠 技术亮点与规格

🚀 典型应用场景

📥 快速开始

💡 结语

相关导航

ProofShot

UntitledPen

寻光

wx4py

PERSO.ai

码上飞

PAM-OS

Cangjie Skill

暂无评论

加入收藏夹

设为首页

网址

厂长资源

读漫屋

拷贝漫画

SoBooks

磁力多

追剧狂人

热门网站推荐

ClawWork

🌟 核心突破：从“脚本执行”到“视觉决策”

🛠 技术亮点与规格

🚀 典型应用场景

📥 快速开始

💡 结语

相关导航

ProofShot

UntitledPen

寻光

wx4py

PERSO.ai

码上飞

PAM-OS

Cangjie Skill

暂无评论

加入收藏夹

设为首页

网址

厂长资源

读漫屋

拷贝漫画

SoBooks

磁力多

追剧狂人

热门网站推荐

标签云