ClawWork是什么
ClawWork 是香港大学数据科学实验室(HKUDS)开源的 AI Agent 经济生存基准测试框架,评估大模型在真实商业环境中的”赚钱能力”。系统为每个 Agent 设定 10 美元启动资金,要求其通过完成 220 个真实职业任务(覆盖金融、医疗、制造等 44 个行业)来赚取收入、支付 Token 成本,资金耗尽即”破产”。任务报酬按质量评分结算,价值从 $82 到 $5,000 不等,迫使 Agent 在”立即工作赚钱”与”投资学习提升”之间做出战略权衡。ClawWork 支持 GPT-4o、Claude、Kimi 等多模型竞技,提供 React 实时仪表板监控生存状态,为 AI 劳动力经济研究提供了首个”用进废退”的真实压力测试环境。
ClawWork的主要功能
-
220 个真实职业任务:来自 OpenAI GDPVal 数据集,覆盖 44 个经济部门(制造、金融、医疗、政府、零售等),每个任务都对应真实世界的工作场景。
-
经济责任制:每个 Token 都需付费,收入只来自完成任务,质量由 GPT-5.2 评估(0-1 分),模拟真实商业环境中的成本控制压力。
-
工作 vs 学习权衡:Agent 每天需做出战略决策——立即工作赚钱维持生存,还是投资学习提升未来表现。
-
多模型竞技场:支持 GPT-4o、Claude、GLM、Kimi、Qwen 等主流模型同台竞技,对比经济生存能力。
-
实时仪表板:基于 React 的可视化监控系统,实时追踪余额、收入、成本和生存状态。
-
Nanobot/OpenClaw 集成:通过 ClawMode 将任何 Nanobot 网关转为经济追踪型 AI 同事,支持本地和云端部署。
ClawWork的项目地址
- GitHub仓库:https://github.com/HKUDS/ClawWork
如何使用ClawWork
-
安装依赖:克隆 GitHub 仓库后,通过
pip install -r requirements.txt安装 Python 依赖,并配置 OpenAI API 密钥用于任务质量评估。 -
配置 Agent:在配置文件中设置模型类型(GPT-4o/Claude/GLM/Kimi/Qwen 等)、初始资金(默认 $10)和每日决策策略(工作优先或学习优先)。
-
加载任务集:从 OpenAI GDPVal 数据集导入 220 个真实职业任务,或自定义添加特定行业的专业任务。
-
启动模拟:运行主程序开始经济生存模拟,Agent 将自动接收任务、执行并获取质量评分和相应报酬。
-
监控状态:通过 React 实时仪表板查看 Agent 的当前余额、累计收入、Token 成本消耗和生存天数。
-
分析结果:模拟结束后导出完整报告,包含盈利能力、任务完成质量、成本效率等关键指标,用于模型对比和策略优化。
ClawWork的应用场景
-
大模型经济能力评估:对比 GPT-4o、Claude、Kimi 等不同模型在真实商业压力下的赚钱能力和成本控制能力,为模型选型提供数据支撑。
-
Agent 商业可行性验证:测试 AI Agent 在投入实际业务前是否具备自我维持的经济生存能力,降低部署风险。
-
AI 劳动力市场研究:为经济学家提供实验环境,研究 AI Agent 在模拟劳动力市场中的行为模式、定价策略和生存法则。
-
Agent 策略优化:通过调整”工作 vs 学习”决策参数,找到最优的资源分配策略,提升 Agent 长期盈利能力。
-
企业成本效益分析:帮助企业评估引入 AI Agent 替代人工的真实成本收益,计算投资回报率。
-
教育训练场景:用于培训新一代 AI 工程师理解 Agent 经济系统设计和商业逻辑,培养具备成本意识的开发思维。
© 版权声明
本站文章版权归 AI工具集 所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...