site stats
随着越来越多的模型性能接近GPT-4,几个主要的评测手段都已经无法进行有效区分。 1. MMLU,分数均80+分,已缺乏区分度。 2. MT-Bench,裁判员是GPT-4,能力不足以分辨模型之间的能力差别。 3. Arena , page 388
sign_in_with_google sign_in_with_google

2654 位用户此时在线

24小时点击排行 Top 10:
  1. 本站自动实时分享网络热点
  2. 24小时实时更新
  3. 所有言论不代表本站态度
  4. 欢迎对信息踊跃评论评分
  5. 评分越高,信息越新,排列越靠前