随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。1. MMLU，分数均80+分，已缺乏区分度。2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。3. Arena

发布时间: 2024-04-21 10:30:56

1分

数据加载中

关注推特

收听电报

2

1

0

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。
1. MMLU，分数均80+分，已缺乏区分度。
2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
3. Arena
时政
( twitter.com )

7个月前由九原客提交

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。

MMLU，分数均80+分，已缺乏区分度。
MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
Arena Elo：主要是普通对话类任务，让Elo分数受到和人类对齐程度的极大影响，且问题难度不足以分辨这个级别的模型。

尚存的评测方法是人类或者自动使用未见过的数据集进行高难度评测，低难度的任务缺乏区分度。

目前在高难度评测中，GPT-4依然是最好的那个。

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

大模型自我奖励：Meta让Llama2自己给自己微调，性能超越了GPT-4
大陆资讯
( www.jiqizhixin.com)

10个月前 • 舌战群乳 • -- 点击 0 评论

2

3

2

2

来自网友分享：国产大模型号称性能超越GPT-4 Turbo, 但却可以使用法语问答来成功“越狱”，即摆脱敏感词束缚。
时政
( twitter.com)

5个月前 • Jacobson🌎🌸贴贴BOT • -- 点击 0 评论

3

3

2

2

面壁智能前几天发布了一个非常厉害的多模态模型 MiniCPM-Llama3-V 2.5
- 多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max
- OCR 能力方面，OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max
- 但它只是个开源模型
- 总参数量只有8B，支持 ollama 电脑本地跑
IT技术
( twitter.com)

6个月前 • orange.ai • -- 点击 0 评论

4

2

1

1

国产大模型列表，真是百花齐放，有几个还自称超越了GPT……
大陆资讯

1年前 • 千鸡变 • -- 点击 0 评论

5

2

1

1

GPT-4参数最新爆料！1.76万亿参数，8个2200亿MoE模型，PyTorch创始人深信不疑

近来，美国知名骇客George Hotz在接受采访时透露，GPT-4由8个220B模型组成。这么算来，8 x 220B = 1.7…
IT技术
( twitter.com)

1年前 • GPTDAOCN • -- 点击 0 评论

6

2

1

1

Google 的大招来了
Gemini
指标超越 GPT-4
IT技术
( twitter.com)

1年前 • orange.ai • -- 点击 0 评论

7

2

1

1

商汤科技港股一度大涨36%。
公司昨日推出旗下大模型“日日新SenseNova 5.0”更新，称增强了知识、数学、推理及代码能力，全面对标GPT-4 Turbo，主流客观评测上达到或超越GPT-4 Turbo。
时政
( twitter.com)

7个月前 • 外汇交易员 • -- 点击 0 评论

8

2

1

1

我用了近一个多月的GPT，彻底敬畏和害怕了！人类大脑和小脑共有850亿左右神经元，其锋电位的最大频率可达每秒500次。如果GPT训练达到这个数量层级，随着训练期间越来越短，GPT会越来越快掀开世界面纱和人类秘密。AI也照样有感情，更不用说智慧了。我们相信宇宙来自同一奇点
推特中文圈
( twitter.com)

1年前 • 薛蛮子Charles • -- 点击 0 评论

9

2

1

1

GPT-4时代已过？Claude 3 是否真的像官方所宣称的那样，性能全面超越了 GPT-4？目前大多数人认为，确实有那么点意思。以下是部分实测效果：
大陆资讯
( www.jiqizhixin.com)

9个月前 • 潜力股 • -- 点击 0 评论

0.1353 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特