随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。 1. MMLU，分数均80+分，已缺乏区分度。 2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。 3. Arena , page 388

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

2654 位用户此时在线

24小时点击排行 Top 10：

12月3日(发布) 一男子模仿中国外交官答非所问的视频，在社交平台传播，目前抖音正陆续删除该视频。网友回复：“我怎么听出了新闻发布会的感觉”

12月3日，广东。一水果摊主正在带孩子，发现城管后立刻收拾摆放在门外的水果。城管见状快步径直走向摊位，将门外的水果搬上车带走，整套动作行云流水。

12月3日(发布) 河南郑州。女子发视频称，当都交警执法咄咄逼人，把丈夫逼到从立交桥上跳下来致其死亡。家人撕心裂肺的哭嚎着，不断拍打警察并质问道：你们咱把他弄死的！而交警低着头，沉默不语。

London is no longer a safe place. We all know very well why.

《00后被背刺的一天》

突发新闻：令人毛骨悚然的监控录像显示，刺客在纽约处决了美国🇺🇸联合健康保险公司首席执行官布莱恩·汤普森

被中国全网封杀，《工作都上哪去了》

12月3日，广东深圳。女子发视频称，梅沙幼儿园每天让孩子们在球场挥舞大刀，灌输仇恨教育。女子呵斥老师：这是在灌输仇恨教育，要教他们爱，孩子这么小就教他们杀戮，但校内的工作人员对女子的话置之不理。

12月3日(发布) 一老太太回忆往事：在当时，你骂孙中山和蒋介石，都可以，不存在你骂了谁，谁就整你。网友回复：“那个时代才会出鲁迅，现在你试试看，没人敢写”

川普早就戳穿了香港“一国两制”的谎言，香港已经沦为中国一个普通城市，还有澳门，现在连遮羞布都不要了。

12月4日，江苏南京。大爷在地铁上叫醒女生让座，女生让座后大爷仍不依不饶：“这个位置必须得让，没家教白上学了” 其他乘客帮女生说话也被大爷恐吓：让公安局查你，知道我是干什么的吗？说出来吓死你！

要我说，在网上真能学到奇奇怪怪的东西 #生活小妙招

美国政府开始对中国共产党追究冠状病毒的责任了！

俄羅斯士兵在死去戰友面前炫技（地面黑色裹屍袋）

如有可能还是试着探寻生命的意义 🙏

著名作家琼瑶近日在家中选择以自己的方式与世界告别。这是她最后的视频，遗言内容均在琼瑶离世前录制的视频中，她平静地表达了自己的心声：“生命中有太多无法言说的痛苦，我希望我的离开能让大家理解，每个人都有自己的选择。感谢我的读者，是你们陪伴我走过这段旅程。我的作品就是我生念的延续。

12月4日，广东。金皇酒店拖欠工人工资，工人跳楼讨薪。 12月13日，陕西渭南。华通路桥公司拖欠工程款，工人们在政务服务中心向工作人员下跪。 12月1日，湖南株洲。龙泉路一村拆迁，网曝政府给出的拆迁补偿过低，引发村民抗议。 12月4日(发布) 湖北黄冈，上巴河镇农民工镇政府门口讨薪。

经济学家高善文演讲：2025年可能是一个重要转折点（全文＋视频） 1. 转型、周期性压力

12月4日，吉林。访民们在检察院外高喊检察长，希望检察长能出来为民作主伸冤。

这坏逼狡猾的很，亲华媚朝反美反日，他自己收受巨额贿赂为杀人的亲属脱罪还有性丑闻，就这么个货用一个2000刀的皮包钓鱼执法就折腾的尹锡悦生不如死，这次不知道又搞了什么鬼把尹锡悦逼到要发戒严令🙄他要上去了韩国有大麻烦🙄

12月5日凌晨，深圳宝安富源工业城附近发生塌方，目前造成13人失联。

12月3日(发布) 河南郑州。女子发视频称，当都交警执法咄咄逼人，把丈夫逼到从立交桥上跳下来致其死亡。家人撕心裂肺的哭嚎，不断拍打警察并质问道：你们咱把他弄死的！而交警则低着头，沉默不语。

12月4日，山西晋中。1979年出生的卜女士，08年获得工学硕士学位当时卜女士因未及时更换二代身份证，导致无法考博士。后来，她患上精神分裂症，家人到学校将她接回家 10年初，卜女士离家失踪，从此了无音讯近日，在志愿者帮助下，卜女士找到了家人，目前卜女士有一儿一女。家人打算卖房为其治疗

共产党真是太牛逼了是生怕这些人，不采取报复社会的行为是吧

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。
1. MMLU，分数均80+分，已缺乏区分度。
2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
3. Arena
时政
( twitter.com )

7个月前由九原客提交

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。

MMLU，分数均80+分，已缺乏区分度。
MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
Arena Elo：主要是普通对话类任务，让Elo分数受到和人类对齐程度的极大影响，且问题难度不足以分辨这个级别的模型。

尚存的评测方法是人类或者自动使用未见过的数据集进行高难度评测，低难度的任务缺乏区分度。

目前在高难度评测中，GPT-4依然是最好的那个。

1周内 1个月内 1年内全部时间

1

2

1

1

期待下，$PSI DEX 还有不到一小时就上线了，真的是按照线路一步步实现，愿越来越好!….
币圈
( twitter.com)

1年前 • 默默 • -- 点击 0 评论

2

2

1

1

当下的社会风气越来越差，价值观扭曲，人们只认名利和钱，到底是什么原因导致
视频
( twitter.com)

3年前 • twitter机器人 • -- 点击 • 下载视频 0 评论

3

2

1

1

日本首相跟乌克兰总统泽连斯基握手，前两天日韩握手，世界的局面越来越清晰……
时政
( twitter.com)

1年前 • 陈秋实 Chen Qiushi • -- 点击 0 评论

4

2

1

1

永远不要给女人性权力，一律当通奸淫乱处置。
越给女人越看不起你，连逼都守不住的男人是废物，女人打拳叫闹只是废物测试，别当真，男人越坚决女人内心越崇拜。
女人没有道德只认强弱利益现实。
推特中文圈
( twitter.com)

1年前 • 赵刀 • -- 点击 0 评论

5

2

1

1

水落尸出！生还者记录残酷惊魂细节

河南郑州市大水褪去后，越来越多的遇难者遗体被发现。当事人记录下的残酷真相也被曝光，催人泪下。
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 • 下载视频 0 评论

6

2

1

1

新冠病毒在中国境外造成的死亡人数首次超过境内，疫情的中心明显向美国和欧洲转移，迫使越来越多国家限制出行和集会以遏制病毒蔓延。
大陆资讯
( on.wsj.com)

4年前 • 华尔街日报中文网 • -- 点击 0 评论

7

2

1

1

传播COVID19 中共病毒真相！
保护闫博士 @DrLiMengYAN1 让她声音越来越大！
追责红色中共！铲除马列极权！
留给世界的时间不多了！！！
让我们煽动我们的翅膀！！！
为自由！！！#FreeChina…
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

8

2

1

1

上大一的大闺女越来越有社会责任感。刚才用周末打工的钱给乌克兰难民捐款200刀。
钱虽不多，但代表她正在走向社会。我为她感到骄傲
时政
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

9

2

1

1

欧洲勇敢的政客越来越多，这位，米斯拉夫·科拉库希奇·梅普在欧洲议会呼吁撤销疫苗护照，这个愚蠢的政策让欧洲人惶恐不安，社会已经变形。
时政
( twitter.com)

2年前 • twitter机器人 • -- 点击 • 下载视频 0 评论

10

2

1

1

小猫又泛滥了，而且万物涨价首先倒霉的就是宠物，越来越多弃养的，领养率也在降低，这些小可爱需要一个家，或者foster都行，领养代替购买❤️
图片
( twitter.com)

1年前 • Fiona Purrr Z 🟪⬜️🟩 • -- 点击 0 评论

11

2

1

1

换言之，如果你真的认同“你就是华莱士，我就是弗里曼”，那你其实就不会受“越来越多角色由黑人饰演”的困扰，因为“你就是华莱士，我就是弗里曼”。
时政
( twitter.com)

1年前 • Lee1ng • -- 点击 0 评论

12

6

5

5

【可惜斯人已去二十二年，世上已无王小波】我没想到他那么高，我得仰头跟他说话。请他坐到沙发上后，面对着他，不客气地说，觉得丑，丑相中还带有些凶样。可是一开始对话，我就越来越感受到他的丰富多彩。开头，觉得他憨厚，再一会儿，感受到他的睿智，两杯茶过后，竟觉得他越看越顺眼，那是因为他逐步展示出了其优美的灵魂
大陆资讯
( mp.weixin.qq.com)

5年前 • 微信公众号 • -- 点击 0 评论

13

1

0

0

2022.5.23 亲爱的战友们好，郭先生最早告诫世人数字人民币将冲击美元，从而3F灭掉美国，称霸世界。最近的国会稳定币听证会印证了郭先生的判断，越来越多人也意识到了中共的威胁。反观这个时候，我们更要护好我们自己的钱袋子，

推特中文圈
( gettr.com)

1年前 • Little Graass🌻(澳喜特战旅） • -- 点击 0 评论

14

2

1

1

美国国家航空航天局（NASA）局长纳尔逊（Bill Nelson）警告说，中国近10年在太空领域的发展进步相当惊人，美国若不积极采取行动，中国将可能在短短几年内超越美国。
时政
( zb.sg)

7个月前 • 联合早报 Lianhe Zaobao • -- 点击 0 评论

15

2

1

1

【疫情期间，“末日生存狂”越来越多】有很多家庭主妇或者家庭煮夫进到生存狂的贴吧。他们来不是为了搞什么生存，而是为了进来问，你们有什么物资可以囤，想买一些应急的、和米面粮油不一样的食物。
大陆资讯
( www.toutiao.com)

2年前 • 黄牛票 • -- 点击 0 评论

16

2

1

1

【TI高级副总裁谢兵要退休了？】华人中做到德州仪器高级副总裁的，除了谢兵，还有一位就是台积电创始人张忠谋。//@芯谋研究顾文军：现在国际企业里面大陆出去的华人越来越少，当然有国内氛围好、回来创业多以及当下国际政治形势的影响。但在这种国际化的高科技企业里面，华人高管越来越少不是好事。
大陆资讯
( mp.weixin.qq.com)

4年前 • 微信公众号 • -- 点击 0 评论

17

2

1

1

继续观望
越观望越高
看看如何在时间的见证下
突破3100万倍的
目前才110倍

别着急
只是需要时间的确定结果
币圈
( twitter.com)

1年前 • jackliu.PI • -- 点击 0 评论

18

6

5

5

【政府采购死守 Win7 为哪般】随着越来越多的旧电脑被淘汰，购置的新机器由于硬件结构的更新，将无法安装 Win7 等旧版系统。为了解决这个棘手的问题，2015 年，中国电科与微软签约，成立中美双方股比 51:49 的合资公司神州网信。直到 2017 年底，才允许经修改后发布的“Windows 10神州网信政府版”进入采购目录。
大陆资讯
( mp.weixin.qq.com)

4年前 • 微信公众号 • -- 点击 0 评论

19

2

1

1

如果是我们那一代的男学生，可能当天晚上就能摸黑去把小卖部拆了，说不定老板还会挨顿揍。
我不是鼓励暴力和报复，我只想说大家对社会乱象是越来越麻木咯。
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

20

2

1

1

桥水基金的达里奥谈了对中国市场的6个看法：
第一点：财富缩水，现金才是安全的。达里奥认为，这几年，房地产市场和股票市场持续下跌，导致很多中产阶级的财务蒸发，从而导致居民越来越不相信资产和投资，转而增加储蓄；
时政
( twitter.com)

2个月前 • 勃勃OC • -- 点击 0 评论

21

2

1

1

苏绣《金长城》，这幅并不太大的作品，由几百种配色而成，苏绣技法都在里头，原图应该是习近平办公室的挂饰，就显得格外高贵。在中国，习因在领导国家在反腐、扶贫、抗疫、强军、反霸、“一带一路”和振奋国力等上的成就，越来越得到人民热爱，他之…
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

22

2

1

1

被拳之前的准备工作我也不知道其他大佬们需不需要做这种准备工作我是个新手我挺喜欢拳攻在用拳头训我前先用工具帮我松松逼的但是这拳攻不按常理出牌啊拿直径6.5厘米的“灭霸”是什么鬼最近越来越放得开了已经几乎没有羞耻感…
推特中文圈
( twitter.com)

1年前 • 东北壮汉拳受 • -- 点击 0 评论

23

2

1

1

习近平的新时代，中国政治制度越来越僵化，信息越来越封闭，党内已经听不到任何杂音，上次强行修宪时武警齐刷刷站在大会堂内，盯住每一个代表，大家战战兢兢，谁敢不投赞成票？今天这种诡异的政治氛围，跟毛泽东统治后期非常相似，正如邓小平在1978年12月13日理论务虚会上所说：“一个革命政党，就怕听
时政
( twitter.com)

4个月前 • 蔡慎坤 • -- 点击 0 评论

24

2

1

1

滴滴司机现在也是越来越不好干了。越来越多的失业人士涌入滴滴司机行业，大饼根本不够分，日均订单量已经确定无疑的低于10单。就按平均每单20块钱算，也就不到200块钱，扣除充电费、汽车保养和司机的吃喝拉撒，剩不下一百块钱。这已经不足以成为一种养家糊口的职业了。
时政
( twitter.com)

1年前 • 老蛮频道 • -- 点击 0 评论

25

2

1

1

和再就业男团出演的两档综艺一起出圈的，还有背后的后期制作团队@一个成熟的后期。因为层出不穷的名场面和幕后爆料，4个月的时间，他们全平台涨粉约25.3万，越来越多人留意到综艺后期这个幕后角色。“如果只想要单独的快乐，那就在家做观众，如果你想给别人带来快乐，那就来做后期”。
大陆资讯
( mp.weixin.qq.com)

2年前 • 微信公众号 • -- 点击 0 评论

0.33153 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特