site stats
随着越来越多的模型性能接近GPT-4,几个主要的评测手段都已经无法进行有效区分。1. MMLU,分数均80+分,已缺乏区分度。2. MT-Bench,裁判员是GPT-4,能力不足以分辨模型之间的能力差别。3. Arena
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多