ClawWork – HKUDS开源的AI Agent经济生存基准测试框架

0 3

ClawWork是什么

ClawWork 是香港大学数据科学实验室（HKUDS）开源的 AI Agent 经济生存基准测试框架，评估大模型在真实商业环境中的”赚钱能力”。系统为每个 Agent 设定 10 美元启动资金，要求其通过完成 220 个真实职业任务（覆盖金融、医疗、制造等 44 个行业）来赚取收入、支付 Token 成本，资金耗尽即”破产”。任务报酬按质量评分结算，价值从 $82 到 $5,000 不等，迫使 Agent 在”立即工作赚钱”与”投资学习提升”之间做出战略权衡。ClawWork 支持 GPT-4o、Claude、Kimi 等多模型竞技，提供 React 实时仪表板监控生存状态，为 AI 劳动力经济研究提供了首个”用进废退”的真实压力测试环境。

ClawWork的主要功能

220 个真实职业任务：来自 OpenAI GDPVal 数据集，覆盖 44 个经济部门（制造、金融、医疗、政府、零售等），每个任务都对应真实世界的工作场景。
经济责任制：每个 Token 都需付费，收入只来自完成任务，质量由 GPT-5.2 评估（0-1 分），模拟真实商业环境中的成本控制压力。
工作 vs 学习权衡：Agent 每天需做出战略决策——立即工作赚钱维持生存，还是投资学习提升未来表现。
多模型竞技场：支持 GPT-4o、Claude、GLM、Kimi、Qwen 等主流模型同台竞技，对比经济生存能力。
实时仪表板：基于 React 的可视化监控系统，实时追踪余额、收入、成本和生存状态。
Nanobot/OpenClaw 集成：通过 ClawMode 将任何 Nanobot 网关转为经济追踪型 AI 同事，支持本地和云端部署。

ClawWork的项目地址

GitHub仓库：https://github.com/HKUDS/ClawWork

如何使用ClawWork

安装依赖：克隆 GitHub 仓库后，通过 pip install -r requirements.txt 安装 Python 依赖，并配置 OpenAI API 密钥用于任务质量评估。
配置 Agent：在配置文件中设置模型类型（GPT-4o/Claude/GLM/Kimi/Qwen 等）、初始资金（默认 $10）和每日决策策略（工作优先或学习优先）。
加载任务集：从 OpenAI GDPVal 数据集导入 220 个真实职业任务，或自定义添加特定行业的专业任务。
启动模拟：运行主程序开始经济生存模拟，Agent 将自动接收任务、执行并获取质量评分和相应报酬。
监控状态：通过 React 实时仪表板查看 Agent 的当前余额、累计收入、Token 成本消耗和生存天数。
分析结果：模拟结束后导出完整报告，包含盈利能力、任务完成质量、成本效率等关键指标，用于模型对比和策略优化。