Thanks to visit codestin.com
Credit goes to ai-bot.cn

ClawWork – HKUDS开源的AI Agent经济生存基准测试框架

ClawWork是什么

ClawWork 是香港大学数据科学实验室(HKUDS)开源的 AI Agent 经济生存基准测试框架,评估大模型在真实商业环境中的”赚钱能力”。系统为每个 Agent 设定 10 美元启动资金,要求其通过完成 220 个真实职业任务(覆盖金融、医疗、制造等 44 个行业)来赚取收入、支付 Token 成本,资金耗尽即”破产”。任务报酬按质量评分结算,价值从 $82 到 $5,000 不等,迫使 Agent 在”立即工作赚钱”与”投资学习提升”之间做出战略权衡。ClawWork 支持 GPT-4o、Claude、Kimi 等多模型竞技,提供 React 实时仪表板监控生存状态,为 AI 劳动力经济研究提供了首个”用进废退”的真实压力测试环境。

ClawWork

ClawWork的主要功能

  • 220 个真实职业任务:来自 OpenAI GDPVal 数据集,覆盖 44 个经济部门(制造、金融、医疗、政府、零售等),每个任务都对应真实世界的工作场景。
  • 经济责任制:每个 Token 都需付费,收入只来自完成任务,质量由 GPT-5.2 评估(0-1 分),模拟真实商业环境中的成本控制压力。
  • 工作 vs 学习权衡:Agent 每天需做出战略决策——立即工作赚钱维持生存,还是投资学习提升未来表现。
  • 多模型竞技场:支持 GPT-4o、Claude、GLM、Kimi、Qwen 等主流模型同台竞技,对比经济生存能力。
  • 实时仪表板:基于 React 的可视化监控系统,实时追踪余额、收入、成本和生存状态。
  • Nanobot/OpenClaw 集成:通过 ClawMode 将任何 Nanobot 网关转为经济追踪型 AI 同事,支持本地和云端部署。

ClawWork的项目地址

  • GitHub仓库:https://github.com/HKUDS/ClawWork

如何使用ClawWork

  • 安装依赖:克隆 GitHub 仓库后,通过 pip install -r requirements.txt 安装 Python 依赖,并配置 OpenAI API 密钥用于任务质量评估。
  • 配置 Agent:在配置文件中设置模型类型(GPT-4o/Claude/GLM/Kimi/Qwen 等)、初始资金(默认 $10)和每日决策策略(工作优先或学习优先)。
  • 加载任务集:从 OpenAI GDPVal 数据集导入 220 个真实职业任务,或自定义添加特定行业的专业任务。
  • 启动模拟:运行主程序开始经济生存模拟,Agent 将自动接收任务、执行并获取质量评分和相应报酬。
  • 监控状态:通过 React 实时仪表板查看 Agent 的当前余额、累计收入、Token 成本消耗和生存天数。
  • 分析结果:模拟结束后导出完整报告,包含盈利能力、任务完成质量、成本效率等关键指标,用于模型对比和策略优化。

ClawWork的应用场景

  • 大模型经济能力评估:对比 GPT-4o、Claude、Kimi 等不同模型在真实商业压力下的赚钱能力和成本控制能力,为模型选型提供数据支撑。
  • Agent 商业可行性验证:测试 AI Agent 在投入实际业务前是否具备自我维持的经济生存能力,降低部署风险。
  • AI 劳动力市场研究:为经济学家提供实验环境,研究 AI Agent 在模拟劳动力市场中的行为模式、定价策略和生存法则。
  • Agent 策略优化:通过调整”工作 vs 学习”决策参数,找到最优的资源分配策略,提升 Agent 长期盈利能力。
  • 企业成本效益分析:帮助企业评估引入 AI Agent 替代人工的真实成本收益,计算投资回报率。
  • 教育训练场景:用于培训新一代 AI 工程师理解 Agent 经济系统设计和商业逻辑,培养具备成本意识的开发思维。
© 版权声明

相关文章

LiblibAI

暂无评论

暂无评论...