今天小编分享的科技经验:多所高校联手推出AgentBench,可测试大语言模型能力,欢迎阅读。
品玩 8 月 9 日讯, Arxiv 页面显示,由来自清华大学、俄亥俄州立大学和加州大学伯克利分校等机构的研究者组成的团队近日发布一款测试工具 AgentBench,可用于对大语言模型的能力进行测试。
AgentBench 目前包括 8 个不同的任务,可测试大语言模型在多轮开放式生成环境中的推理和决策能力。实验结果显示,GPT-4 当前的表现最佳,而 Claude 和 GPT3.5 分别排名第二、第三。
AgentBench 的数据集、环境和集成评估軟體包已发布在https://github.com/THUDM/AgentBench 上。