随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。 1. MMLU，分数均80+分，已缺乏区分度。 2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。 3. Arena , page 2

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

3090 位用户此时在线

24小时点击排行 Top 10：

【历史上的今天】2019年12月1日，武汉发现首例不明原因肺炎患者。

突发！突发！虔诚的穆斯林圣战组织，在叙利亚抓获了大批库尔德妇女。他们的命运是注定的。这是自默罕默德出生以来1400年的宿命不是吗？ ✍️

12月1日，浙江瑞安。网友在瑞安锦湖实验小学废弃校区的“警察叔叔信箱”中，发现了大量陈封信件。一封来自六年级陈同学的信件令人揪心，她在信中称遭到老师体罚和同学霸凌，而这样的信件不止一封。这些信件最终根本就没人看。事后，警察上门找到该网友，他为了安全不得已将视频设置成了私密。

2024 年12月1日，这不是肯尼亚，也不是埃塞俄比亚，而是广州先贤寺………

有网友发现前体操世界冠军吴柳芳抖音账号被解封，现在已经可以正常关注。在解封后短短一天内其抖音账号56学姐涨粉超过200万。

【传奇兄弟】 🎙《消失的真相》音乐（赶快封杀吧）唱的真不错，给几个小伙子点赞👍

12月1日，吴柳芳被指擦边事件引发热议后，一博主列举了多名退役后生活困难的运动员。“并不是所有运动员都能享受鲜花和掌声”

国家游泳队女神刘湘被指擦边，回怼：你没毛病吧？

11月30日，云南昆明。一小女孩在垃圾堆里捡垃圾，拍摄者见状便去了女孩家里，给女孩买了点吃的。女孩住在狭小拥挤的出租屋里，房租260元/月。目前该视频已被删除，另一位转发该视频的博主表示：视频地址不能发，一发就会有人打电话让删微博。

相当常见了

小電影來了......

习近平也有说真话的时候？

當一位街頭藝人在広島的商店街演唱時，女警趕來執法接下來發生的一切，只能讓人感慨，「這就是日本」——

伟大光荣正确都让这种坏逼给糟贱了，呼唤伟光正收拾这帮坏逼！

现状

安眠药有防自杀设计，你知道吗？

自制酱油，物美价廉，吃着放心

格魯吉亞抗爭者使用「莫洛托夫雞尾酒」

支那鬼子0元搶購豬肉 😄😄😄

睡前4个动作，相当于深睡2个小时，让我们入睡快，深睡眠让我们第二天精神饱满！#健身 #失眠

居然有人认为这是假的

昨晚，广东增城大敦村村民砸烂了村口的收费设备。老广还是能团结起来做点事的

人间处处是我师，听君一席话，胜似十年书！

11月30日，山东。博主采访一位摆摊卖菜的大叔，大叔称今天只收入一元钱，自己是残疾人平时只能爬着种菜。大叔感叹道：老百姓太苦了，粮食又不值钱，还要交合作医疗，来到这个社会可累人了。目前该视频的评论被删到仅剩21条。

一士兵看过文工团的演出，气愤的对排长说：“这些人一辈子都没有摸过枪，就当上了将军……” 排长给了士兵一个大耳光并骂道：“妈个巴子，你懂个鸡毛？她们摸过的枪，说出来，吓死你……” 👍👏🤝🙏😅😂🤣

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。
1. MMLU，分数均80+分，已缺乏区分度。
2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
3. Arena
时政
( twitter.com )

7个月前由九原客提交

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。

MMLU，分数均80+分，已缺乏区分度。
MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
Arena Elo：主要是普通对话类任务，让Elo分数受到和人类对齐程度的极大影响，且问题难度不足以分辨这个级别的模型。

尚存的评测方法是人类或者自动使用未见过的数据集进行高难度评测，低难度的任务缺乏区分度。

目前在高难度评测中，GPT-4依然是最好的那个。

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
7
...
400
下一页

1

2

1

1

PEC随着越来越多的人了解，公链主网上线半个月的时候，慢慢的对pec公链的理解，也是全球唯一一条智能+公链+通缩经济模型，pec无矿可挖，但是可以挖在去中心化交易所的手续费，交易越多，那么就赚的越多，去中心化也强，节点建立就会越多…
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

2

2

1

1

【语言后遗症：工作太久，已经不会说人话了】随着行业黑话与日常话语之间的距离越来越近，职业与日常生活之间的区分也越来越模糊。
大陆资讯
( mp.weixin.qq.com)

1年前 • 牛郎侄女 • -- 点击 0 评论

3

2

1

1

这一轮edge端LLM前景是泡沫吗？
时隔一年，LLM小模型发展可谓每个月都有惊喜，各种尺寸越来越丰富
手机能力进步了不少，7B模型都能超过20 token/s，比去年Google发布3B小模型时候进步了太多
edge和cloud LLM应用的界限也越来越模糊，如何定义这个界限？还得看具体应用任务
这里分了几个基本场景
IT技术
( twitter.com)

7个月前 • fin • -- 点击 0 评论

4

2

1

1

Phind 用羊驼精调出来的模型已经给GPT-4破功啦！开源牛逼！

Beating GPT-4 on HumanEval with a Fine-Tuned CodeLlama-34B

时政
( www.phind.com)

1年前 • ShīnChvën • -- 点击 0 评论

5

2

1

1

越来越多的研究证实大自然和绿地对人身心健康的重要性，接近自然不但能减压，还能提升免疫力。

海外华文
( www.bbc.com)

3年前 • bbcChinese • -- 点击 0 评论

6

2

1

1

越来越多的研究证实大自然和绿地对人身心健康的重要性，接近自然不但能减压，还能提升免疫力。

海外华文
( www.bbc.com)

3年前 • bbcChinese • -- 点击 0 评论

7

2

1

1

【傍上微软“大腿”，“欧洲OpenAI” Mistral AI什么来头？】Mistral AI的最新旗舰模型Mistral Large，号称性能不输OpenAI的GPT-4和谷歌的Gemini Pro，训练成本只有2200万美元，约为GPT-4的五分之一。
大陆资讯
( finance.sina.cn)

9个月前 • 罗密欧煮你爷 • -- 点击 0 评论

8

2

1

1

网页版的是GPT-4模型，支持更长的tokens，能用插件，但是有25messages/3hours的限制，iOS版是GPT-4(Mobile V2)模型，调用的api，有更严格的tokens长度限制，但是没有任何messages…
IT技术
( twitter.com)

1年前 • AlexZ 🦀 • -- 点击 0 评论

9

2

1

1

随着假日的脚步越来越近，我们去看看大自然的美好
图片
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

10

3

2

2

一家法国的 AI 实验室 Kyutai，刚刚发布一个对标 GPT-4o 的开源实时语音多模态模型，能够听、说、看，而且从演示看，也可以随时打断，可以模仿法国口音说英语，可以说悄悄话。效果比 GPT-4o 要差一点，但是已经很接近了。
重要的是：
- 他们的模型训练管道和架构非常简单且具有很大的可扩展性，像
IT技术
( twitter.com)

5个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:08:57

11

2

1

1

随着自由俄罗斯军团控制了该市附近的 4 个定居点，越来越多的俄罗斯人开始逃离俄罗斯别尔哥罗德市，造成交通堵塞。

时政
( twitter.com)

1年前 • Inty热点新闻 • -- 点击 • 下载视频 0 评论

00:00:58

12

2

1

1

OpenAI 刚刚发布了 GPT-4

GPT-4 是大型多模态模型（large multimodal model），支持图像和文本的输入，并生成文本结果。

这个 thread 会汇总一下有关 GPT-4 的一些信息（包括论文中的一些要点和实际的体验）。

🧵
推特中文圈
( twitter.com)

1年前 • Jiayuan • -- 点击 0 评论

13

3

2

2

这篇文章《Discover 4 Open Source Alternatives to GPT-4 Vision》介绍了 4 个 GPT-4 Vision 的开源替代方案：
1. LLaVa（大型语言和视觉助手）
LLaVA 代表了一种创新的、从头到尾训练的大型多模态（multimodal）模型。它融合了视觉编码器和…
IT技术
( llava-vl.github.io)

11个月前 • 宝玉 • -- 点击 0 评论

14

2

1

1

随着抗议活动离开俄克拉荷马州，美国“人民车队”的规模越来越大！
时政
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

15

3

2

2

李彦宏表示，在中文上，文心大模型4.0已经超过了GPT-4。他以写诗为例，称像文心大模型等大模型都能写，但GPT不行。“比如写一首诗，很多大模型都能写，但如果我要求写一首《沁园春》词牌的词，那GPT就完全搞蒙了，它不知道第一句话是4个字还是5个字。”过去一年，文心一言用户数量已突破1亿，文心大模型…
IT技术
( twitter.com)

8个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:05:08

16

6

5

5

【无钢圈内衣为什么越来越流行了？】人们不断抱怨着压力和焦虑的同时，他们在扮相上越来越少地苛求自己。女性的穿着可能变得越来越休闲松弛，有钢圈内衣仍然是主流，但近 3~5 年无钢圈内衣的风头逐渐盖过了聚拢型内衣。
大陆资讯
( www.qdaily.com)

6年前 • 好奇心研究所 • -- 点击 0 评论

17

2

1

1

越来越多的次数灾害在全世界随机的发生着……
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 • 下载视频 0 评论

18

2

1

1

说来惭愧，随着年龄的增长，此类朋友越来越少，现在几乎没有了！
时政
( twitter.com)

1年前 • 我不姓阿 • -- 点击 • 下载视频 0 评论

00:01:11

19

2

1

1

本周值得关注的big thing: GPT-4 发布

目前的GPT-3.5只能理解文字，所以之前推荐的Youtube摘要工具只能基于有字幕的视频

而GPT-4是多模态模型，可以同时理解图像、声音、文本和视频。也就是说，万物皆可…
推特中文圈
( twitter.com)

1年前 • starzq.eth⛩️ • -- 点击 0 评论

20

2

1

1

微软研究团队改进了之前的Medprompt提示策略，使GPT-4在MMLU上的表现达到了90.10%，这是迄今为止GPT-4在该测试上取得的最高分数。
超越了不久刚发布的Gemini Ultra的90.04%😅
在微软研究团队开发的Medprompt+策略中，GPT-4模型使用一种特定的策略来决定最终的答案。…
IT技术
( twitter.com)

11个月前 • 小互 • -- 点击 0 评论

21

2

1

1

【评论 | #王丹 @wangdan1989
：纪念“#六四”的现实意义越来越突出】
随着习近平政权倒行逆施的发展，觉醒的中国人也会越来越多。纪念“六四”对于他们来说不仅是一个启蒙，更是一场补课。最近几年，海外留学生参加“六四”…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

22

2

1

1

斯坦福大学做出来一个几乎没有幻觉的大语言模型：WikiChat
WikiChat 在与人类用户聊近期的一些话题时，事实准确性高达 97.9% ，比 GPT-4 高出 55.0%，用户评价也更高。WikiChat 7 通过以下7个步骤来减少模型幻觉，值得参考。
IT技术
( arxiv.org)

11个月前 • orange.ai • -- 点击 0 评论

23

2

1

1

在逐渐接近大质量的中子星时会发生什么？当足够接近，哪怕1公分距离的引力差都将达到惊人的地步，你被不断撕碎成一束越来越长的碎片——随着越来越近，你的组成成分也越来越简单：最终所有的分子都会被撕碎，接着是原子，最后你变成了一滩中子，bia的一下结束了自己好奇的一生
图片

7年前 • 投票吧骚年 • -- 点击 0 评论

24

2

1

1

【GPT-5首次曝光后，Altman：现在最重要的事就是GPT-5】据Altman介绍， GPT-5将是一个多模态模型，支持语音、图像、代码和视频，并在个性化和定制化功能方面实现重大更新，具备更强的推理能力和更高的准确性。当前大模型的通病——幻觉问题也将在GPT-5中得到解决。
大陆资讯
( wallstreetcn.com)

10个月前 • 不知道 • -- 点击 0 评论

25

2

1

1

在大家都在翘首以盼 OpenAI 发布 GPT-5 的时候，OpenAI 却只是先后发布了 GPT-4o和 GPT-4o mini，甚至推理能力智能程度还不如当初的 GPT-4，但是这两个新模型不仅支持了多模态，而且参数都要小于 GPT-4，生成速度很快，推理成本也低了很多倍。
这背后，应该是因为新的 GPT-4o
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

1
2
3
4
5
6
7
...
400
下一页

0.24176 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特