随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。 1. MMLU，分数均80+分，已缺乏区分度。 2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。 3. Arena , page 10

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

5034 位用户此时在线

24小时点击排行 Top 10：

听了这一段，我流泪了。毛泽东，历史的罪人啊！

12月11日，山东济南。志愿者们在街头赠送羽绒服给户外的工人。结果在一处劳务市场遭到工人们的哄抢，一些工人不排队直接上手抢羽绒服，场面一度陷入混乱，志愿者们只能撤离回到车上，而工人们则在车外谩骂。

罗翔：济南市委宣传部副部长与电视台女主播开房被抓。这女人勇敢地保护副部长，真不愧为党的女战士！山东“红嫂”，舍命保护党的领导，应该号召全国百姓向她学习！两黑社会听口音河北人士？女的好猛

12月11日下午深圳豪宅小区湾悦府发生爆炸并引发火灾一女子被火灾逼迫到窗边，然后滚下了高楼

15K-20K 招聘远程 PHP研发，前端开发

叫靚仔

讲真话的经济学家的声音都被封杀了。仅就目前有限所知的数数：张维迎、周其仁、魏加宁、朱鹏恒（被进监狱）、向松祚、高善文、傅鹏………

12月10日，一家理发店店长为了激励员工，在会议上狂扇自己的嘴巴，店长扇完嘴巴后，一旁的员工也开始扇自己嘴巴。网友回复“挣点工资至于吗？” “直接剖腹算了”

这太疯狂了。推特用户 KNGMKRlabs 用 OpenAI 的 Sora 结合 AI 生成的旁白，制作了一段长达 4 分 18 秒的视频《第一批人类》。他仅用一周时间就完成了提示和剪辑工作。 AI 不是即将变得疯狂，而是已经疯狂了！

說了半天也不給個座標

12月11日(发布) 近期，第一财经报道称，“最新！31省份人口出生率公布” 该报道于23：31分发布。对此网友表示：“讽刺啊，天天问出生率那么低，看小编23点半还在发文章，还在精选我的留言，怎么生?”

近日网红八炯、闽南狼合拍中共统战「纪录片」，受到各界热议。中国国台办在11日首度对此回应，批评这是「民进党当局自导自演操弄认知作战，制造绿色恐怖的又一拙劣的伎俩」。

深圳3个月100个孩子跳楼，不需要战火，只需要作业本和试卷，以及压的喘不过气的排名。

台湾总统赖清德日前出访过境美国夏威夷等地后，外界担忧中国恐发动军演回应。对此，台湾国防部星期二披露，中国解放军自周一起，于台湾东部海域、甚至远至西太平洋，部署“数量惊人”的各式船舰，武力威胁程度超过近年历次军演。不过，为何中共此次一改其高调的文攻武吓作风？有分析人士认为，恐因美国候

12月11日，四川西昌。三名行人正在过斑马线，一辆越野车未减速直接冲撞过去，三人瞬间被撞飞。目击者：来不及抢救人就去世了，被撞的三人看起来年纪不大。

中国海关总署： 12月10日，中共海关总署党委书记、署长俞建华因突发疾病抢救无效去世，享年63岁。而此前外界盛传俞建华遭纪检人员约谈后，昨天深夜在办公室饮弹自尽。

#红右世界叙利亚新政府士兵，摧毁了极右保守独裁者阿萨德家族的墓地群，老阿萨德的墓被毁。

我养了一群猪……

女司機的故事

#编程随想 #阮晓寰案二审将于北京时间周五下午开庭，请大家关注！阮晓寰于2021年5月10日被捕；2023年2月10日被以 #煽动颠覆国家政权罪判刑7年。

12月11日，浙江。女子发视频称，领导来医院，手术专用电梯变成了领导的“便捷电梯”导致许多病患和家属等了半天都无法乘坐电梯。女子表示“都说人民至上，我觉得是领导至上吧” 网友们回复“这很正常啊，要适应这个社会” “很奇怪吗？” “在中国就是这样”

12月11日，江苏南京。南京邮电大学英语比赛的部分赛卷素材选自《习近平谈治国理政》比赛宗旨提到：将习近平新时代中国特色社会主义思想的学习与高阶翻译能力培养有机融合.....

转起来！你能相信这是加州阿罕布拉的美国海军招募办公室吗？这里的每个招募人员以及所有前来应征入伍的人都是中国人。这里的工作语言也是中文。这个视频是知名油管博主洛奇拍摄的，带他去拍摄的是美国海军招募员是王中士，他的名牌上写着「EN2 QLANG WANG」。

「导致“胃癌”的6个高危因素」胃癌是一种常见恶性肿瘤，通常发生于胃的黏膜层或近壁处，如果不及时治疗，它可能会扩散到其他器官并威胁生命。

12月10日，贵州。寒冷的冬天里，一老太太穿着破旧的衣裳，倚靠在路边昏昏欲睡，而摊位售卖的扫把无人问津，该视频引发上万名网友的共鸣。网友回复 “有些人生来是享福的，有些人生来是遭罪的”“活着的意义就是活着”

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。
1. MMLU，分数均80+分，已缺乏区分度。
2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
3. Arena
时政
( twitter.com )

7个月前由九原客提交

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。

MMLU，分数均80+分，已缺乏区分度。
MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
Arena Elo：主要是普通对话类任务，让Elo分数受到和人类对齐程度的极大影响，且问题难度不足以分辨这个级别的模型。

尚存的评测方法是人类或者自动使用未见过的数据集进行高难度评测，低难度的任务缺乏区分度。

目前在高难度评测中，GPT-4依然是最好的那个。

1周内 1个月内 1年内全部时间

上一页
1
...
5
6
7
8
9
10
11
12
13
14
15
...
400
下一页

1

2

1

1

#ChatGPT 会在墙内被封掉的另一个原因：

它训练用的都是真人的投票和评分，类似于一个民主系统

随着训练数据增多，会越来越接近世界的真相的，于是墙内楚门的世界就演不下去了
推特中文圈
( twitter.com)

1年前 • 罗玉凤 • -- 点击 0 评论

2

2

1

1

您在订婚戒指上花的钱越多，离婚的可能性就越大。

（基于对 3,000 多桩婚姻的调查）

[来源：]
有趣
( papers.ssrn.com)

2年前 • twitter机器人 • -- 点击 0 评论

3

3

2

2

美国宪法是人类最伟大的发明，离它越近越接近文明，离它越远越接近独裁。消灭列宁式组织、实践美国式宪法，这是我希望看到的中国未来最好的选择。
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

4

6

5

5

【Google 翻译出现宗教话语可能是因为用了圣经训练模型导致】将语言设置成从毛利语翻译成英语后，输入 19 遍 “dog” 这个词，Google 翻译就会将这段话翻译成“世界末日时钟在 12 点 03 分我们正在经历世界上的人物和戏剧性的发展，这表明我们越来越近接近末日和耶稣的回归”。
大陆资讯
( www.qdaily.com)

6年前 • 好奇心研究所 • -- 点击 0 评论

5

2

1

1

随着全球化的推进，越来越多的人开始在不同的国家间调动工作。可是，跟随他们生活的孩子应该把哪里称作家乡呢？

大陆资讯
( bbc.in)

4年前 • bbcChinese • -- 点击 0 评论

6

2

1

1

越来越多的中国女性，选择离开职场了？
大陆资讯
( mp.weixin.qq.com)

7个月前 • 罗密欧煮你爷 • -- 点击 0 评论

7

6

5

5

随着人口结构变化、老年离婚率增加，中国的单身老人越来越多。经济增长和社会变革改变了他们的爱情观和性爱观，越来越自信的中国孤寡老人开始走进各个城市的公园“相亲角”、走入婚恋市场。
大陆资讯
( nyti.ms)

5年前 • 纽约时报 • -- 点击 0 评论

8

2

1

1

当时原话,我随便说了点,也许是我表达不够?
#looksrare 的文章很多.(6/6) & (4/4)
我直接给你重点吧:
1、给Opensea的用户空投,交易量越大领的越多.所以大户持币很多,形成了用户头部效应.
2、没有投…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

9

2

1

1

这几年，美国福音派教会的政治立场离福音越来越远，很多已经成为极右势力的宗教支部。今年复活节，只有39%的人表示去教会，主要原因可能是疫情。但从大趋势上看，随着老一代逐渐退出历史舞台，越来越多的人到城市工作和生活，福音派没落似乎难以…
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

10

2

1

1

我发现玩推越久越能发现这个世界原来有这么多脑残，这可能就是人种多样性吧
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

11

2

1

1

OpenAI官宣在东京开设首个亚洲办事处，将发布针对日语进行优化的GPT-4模型
大陆资讯
( www.ithome.com)

8个月前 • 墙头看世界 • -- 点击 0 评论

12

2

1

1

所以我认为现在就是一个死胡同，你放开也不行，因为你的民众没有任何保护。你不放开呢，大家还能陪你熬多久
实际上大家没有注意点是，从四月以来上海各处，深圳，花桥等多地，北大，北外，武纺等多个大学都爆发过群体性事件了，随着越来越严峻的防疫形势和防疫规定，这种事会越来越多
时政
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

13

3

2

2

随手一拍的色图～
某西瓜和某17给我大晚上拍的（）
存货越来越多了我什么时候才能发完啊！
图片
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

14

6

5

5

【盘点国内主流燃料电池商：都在做政府生意】锂电池作为主流的技术路线短期应该不会改变，但随着燃料电池技术的不断进步，其距离大型产业化越来越近也是不争的事实。
大陆资讯
( mp.weixin.qq.com)

6年前 • 微信公众号 • -- 点击 0 评论

15

2

1

1

【为宣布自己生了儿子，美国父母引爆36公斤炸药】所谓的性别揭晓派对，本来只是召集亲朋好友，一起来揭晓宝宝的性别，顺便庆祝新生儿诞生。但随着这个活动越来越流行，也有越来越多的父母，或是出于一片好意，或是出于攀比心理，都希望能给自己的孩子办一个最温馨，最新奇的派对…
大陆资讯
( mp.weixin.qq.com)

3年前 • 微信公众号 • -- 点击 0 评论

16

2

1

1

长期以来，大众对社媒上的大V，不管是什么方向的大V，多多少少都有一种错觉和期许——粉丝越多、懂得越多、水平越高。

大V自己多多少少也产生了一点错觉，好像自己的知识随着粉丝的增长也在不断提升，言谈也越来越“自信”不羁。…
时政
( twitter.com)

1年前 • Vast Life • -- 点击 0 评论

17

2

1

1

进入今年以来，北京围绕台湾海峡的军事动作越来越频繁，越来越危险。那么，台湾海峡爆发军事冲突的可能性到底有多大呢？
#台海

推特中文圈
( www.dw.com)

3年前 • 德国之声 • -- 点击 0 评论

18

2

1

1

能力越大责任越大？央妈们的独立性还剩多少
大陆资讯
( wallstreetcn.com)

8年前 • 你的溢达 • -- 点击 0 评论

19

2

1

1

我说以后出国越来越难，让大家抓紧时间，就有人骂我是为了做移民生意。行，大家放心，以后移民越来越容易，疫情马上结束，雅思考场越来越多，护照随便办，欧美国家移民名额越来越多，印度人尼泊尔人越南人非洲人全部在老家缩着不出来，只有中国人往外跑。英语也不用努力学，以后雅思5分随便移
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

20

2

1

1

买了 ChatGPT Plus，试了下在 GPT-4 模型下，让“软件工程大师”用海贼王里的知识去隐喻编程问题……挺有意思的。

- 关于过度拆分微服务：“诸位，路飞的梦想是成为海贼王，而非拥有最多的船只。架构之海应追求卓越，而非…
推特中文圈
( twitter.com)

1年前 • piglei • -- 点击 0 评论

21

2

1

1

父母包的饺子越来越咸了，吃了一盘饺子喝了一斤水。是不是随着年龄的增长，老人家的口味会变得越来越好重？
大陆资讯
( www.zhihu.com)

4年前 • 知乎每日精选 • -- 点击 0 评论

22

2

1

1

说的太对了，那么多开源大语言模型，真没有超过GPT-3.5的
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

23

3

2

2

去澡堂被一个长相..的男的盯着看了半天
离不能去澡堂的日子越来越近了我的澡堂
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

24

2

1

1

StableDiffusion最强大的插件ContorlNet今天更新了1.1版本，这是一个很大的更新，旧模型增加了很多数据进行了重新训练，还新增了几个模型，目前模型总数达到了14个，新增了4个模型。可能会给SD带来新的玩法。下面…
推特中文圈
( twitter.com)

1年前 • 歸藏 • -- 点击 0 评论

25

2

1

1

简悦 · 阅读助手升级到 gpt-3.5-turbo-16k 模型 🎉

也就是说，现在可以直接一次性分析全文，不需要分段。~

如果你已经使用了阅读助手，则可以直接使用此功能，但建议升级才能更好的使用此模型。

升级 👉…
IT技术
( twitter.com)

1年前 • Kenshin • -- 点击 • 下载视频 0 评论

00:00:49

上一页
1
...
5
6
7
8
9
10
11
12
13
14
15
...
400
下一页

0.29973 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特