Thanks to visit codestin.com
Credit goes to autocodebench.github.io

AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

Jason Chou^*, Ao Liu^*, Yuchi Deng, Zhiying Zeng, Tao Zhang, Haotian Zhu, Jianwei Cai,

Yue Mao, Chenchen Zhang, Lingyun Tan, Ziyan Xu, Bohui Zhai, Hengyi Liu, Speed Zhu,

Wiggin Zhou^† Fengzong Lian^†

[email protected]; {nickaliu,wigginzhou,faxonlian}@tencent.com

Hunyuan Team, Tencent

^*Equal Contributions ^†Corresponding Authors

Paper Code Data Home

AutoCodeBench-v2 Leaderboard

HumanEval Overfitting

HumanEval Overfitting