随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。 1. MMLU，分数均80+分，已缺乏区分度。 2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。 3. Arena , page 4

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

4227 位用户此时在线

24小时点击排行 Top 10：

12月1日，吴柳芳被指擦边事件引发热议后，一博主列举了多名退役后生活困难的运动员。“并不是所有运动员都能享受鲜花和掌声”

🤓

打本世紀最屌的「仗」🇺🇦

12月1日，河南济源。深夜，男子发现一小女孩在路边炒饭。女孩称，她今年9岁，因心疼爸爸打两份工每天就睡几小时，于是利用空闲时间替爸爸分担一下，家里妹妹刚满两岁，弟弟得了罕见病。女孩表示“我想快点长大，多替父母承担一点责任，我没有愿望，只要我弟弟好就行”

河南年年洪水，過了一段時間，網上才能發出。

12月2日(发布) 湖北十堰。网曝医托吴鹏飞，引导全国癌症患者前往武当山药王谷中医馆治疗，吴鹏飞称，该中医馆治癌症如同治感冒，癌症治疗率高达80%。结果，不少患者在花费巨额医疗费后，病情反而加重，就诊患者中15人去世，20多人病情加重。中医馆部分医生没有资质。目前，该案已移送公安。

蝴蝶飞走了还会飞回来的，毛没了还能再长出来的。🫣

12月1日，广东广州。广花路镜湖路段地面塌陷，有路过的车辆差点掉进去。一位司机称，该路段修了十年，刚通车就发生路面塌陷。

12月1日，辽宁锦州。当地一处立交桥隧道的涂鸦被工作人员清除，图片显示：隧道墙壁上写着“民主，自由” “赞成2952，反对0，弃权0”等字样。据当地人称，该隧道的涂鸦文化已经存在了五六年，但在12月1日，墙壁上的涂鸦突然被人清理干净。

當一位街頭藝人在広島的商店街演唱時，女警趕來執法接下來發生的一切，只能讓人感慨，「這就是日本」——

去年，北京附近的野三坡5a景区，遭遇洪水，居民们断水断电断粮。一年后，11月29日，有博主来到野三坡探访，这里依然断壁残垣，满目疮痍，沿途是冲毁的断桥、萧条的门市、无人的景区.... 眼看入冬，这些靠着当地旅游业为生的百姓生活，何时才能回到正常的轨道上？

Bro thought he was Spider-Man

现状

有网友发现前体操世界冠军吴柳芳抖音账号被解封，现在已经可以正常关注。在解封后短短一天内其抖音账号56学姐涨粉超过200万。

12月1日(发布) 福建。一名大爷身着破烂的衣服，住在弃置的房子里，身旁堆满了垃圾，好心人给大爷送饭吃。 12月1日，湖北武汉。外卖员被交警拦下，情急之下向交警下跪磕头，但交警视而不见。 12月1日，江苏南京。凌晨两点，一外卖员背着女儿送外卖，好心人给孩子买了些吃的。

大爷：你大爷

😄

很多人的關心，是為了解清楚，你過的有多慘。

12月1日(发布) 湖南岳阳。一名二级警督和一名检察院退休干警在户外维权。他们手举的横幅写着：“天下奇冤、篡改证局、颠倒黑白、故意陷害、国法不容”

12月1日，博主“无无无语森”发视频讲述目前大环境：应届生找不到工作，35岁被裁员，一个人干十几个人活，还得干副业，又不放假又延迟退休。科技越发达，国力越来越强，经济却越来越差，GDP十年翻一番，但挣的钱却越爱越少，是不是有人替我负重前行.... 目前，该视频和评论全部被平台“清零”

#乌克兰今日德国总理肖尔茨，终于来的基辅。这是普京俄罗斯入侵乌克兰 2.5 年来，他首次首次抵达乌克兰与泽连斯基进行会谈。为什么他要紧紧的拎着那个箱子？

怎么不坚持100年啊？

网友投稿 12月1日合肥肥西县华南城紫荆名都2期旧物业拒绝撤出，并和业主发生冲突由于旧物业管理不善，业主委员会决定更换新物业，但旧物业拒绝离开，随后发生冲突碰瓷事件，冲突从11月30日晚持续到12月1日下午。投稿人称：投稿给李老师上面应该会下来人解决

昨晚，广东增城大敦村村民砸烂了村口的收费设备。老广还是能团结起来做点事的

习近平也有说真话的时候？

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。
1. MMLU，分数均80+分，已缺乏区分度。
2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
3. Arena
时政
( twitter.com )

7个月前由九原客提交

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。

MMLU，分数均80+分，已缺乏区分度。
MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
Arena Elo：主要是普通对话类任务，让Elo分数受到和人类对齐程度的极大影响，且问题难度不足以分辨这个级别的模型。

尚存的评测方法是人类或者自动使用未见过的数据集进行高难度评测，低难度的任务缺乏区分度。

目前在高难度评测中，GPT-4依然是最好的那个。

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
7
8
9
...
400
下一页

1

2

1

1

最近的自习感悟: 知识不像线性叙事说的，只有越来越好，或者越来越坏，而是像物质从混乱和无规则emerge，然后随着遗忘和经久不练又逐渐submerge回混沌中，学习就是一次次把沉沦到模糊混沌的知识拉出泥潭。

很奇怪的体验，但很安…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

2

2

1

1

顺藤摸瓜找到 Greg Kamradt 对 GPT-4-128K 的 128K Token 上下文回忆能力进行了压力测试。一些关键结论：
1. Prompt 中的开头和结尾是最关键的，尤其是结尾部分；
2 .位于中间 7%-50% 区间的内容效果最差
3. 上下文越少，准确性越高，超过 73K Token 时，GPT-4-128K 的记忆性能开始下降。…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

3

2

1

1

随着百业凋敝，越来越多的中国年轻人想“为人民服务”了。近四年考公群体规模扩大近两倍。2023国考竞争最激烈的岗位是青海税务局的一级行政执法员，其报录比达到6002:1。
时政
( twitter.com)

1年前 • Jacobson🌎🌸贴贴BOT • -- 点击 0 评论

4

2

1

1

【NASA发布的可视化模拟：坠入黑洞的3小时里，能看到什么？】当你越来越接近黑洞时，坠落速度会越来越快，直到接近光速。在你眼中，恒星和黑洞周围的热物质发出的光被放大，变得越来越亮，越来越白。在此过程中，夜空将变得越来越扭曲，直到进入完全的黑暗。你会在（对你自己而言）3个小时里完成这趟长达6.4亿公里的旅程。
大陆资讯
( m.weibo.cn)

6个月前 • 七仙女坐台 • -- 点击 0 评论

5

2

1

1

好家伙，能手机部署LLM大模型来了。MiniCPM: 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型，MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量。与 Mistral-7B相近（中文、数学、代码能力更优），整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
IT技术
( github.com)

10个月前 • Geek • -- 点击 0 评论

6

2

1

1

往下数年，人工智能模型将拥有比现在多10倍的数据。
数据越多，模型产生的结果越精准。
2020年，全球数据总量为47泽字节。2030年，600泽字节。
13倍的增长。人工智能的能力增长也将数倍计。
人工智能模型5-10年内一定会更…
时政
( twitter.com)

1年前 • 徐老猫 • -- 点击 0 评论

7

2

1

1

ChatGPT 摘要助手

免费Chrome 浏览器扩展程序，AI总结和处理任何网页文章内容，支持GPT 3.5、GPT-4等模型。
支持 40 种语言，一键复制结果，多模型自由切换，…
推特中文圈
( twitter.com)

1年前 • 章工GPT • -- 点击 0 评论

8

2

1

1

The Power of Prompting：提示的力量，仅通过提示，GPT-4可以被引导成为多个领域的特定专家。
微软研究院发布了一项研究，展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。
研究显示，GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2，并且优势显著。…
IT技术
( twitter.com)

1年前 • 小互 • -- 点击 0 评论

9

2

1

1

4. Celestia - V神今天一条关于多链与跨链的Twi引发了全网广泛而热烈的讨论。公链模块化，底层功能性解耦在2022年必将得到越来越多的关注

DA（data availability）层 - 数据可用性层会是一个新的探…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

10

2

1

1

利润来自垄断
垄断来自权力
权力来自连接

连接的意思就是你是价值网络中的比较大的节点。

连接的面越广、连接不同类型、用户之间交流越多，节点的价值就越高。

连接的流通价值越高，节点的价值越高。
推特中文圈
( twitter.com)

1年前 • Lanli • -- 点击 0 评论

11

2

1

1

几个月前Meta发布Segment Anything Model(SAM) ，可以识别、标记图片、视频中的任何物体，而OpenAI刚刚发布了多模态大模型GPT-4V，没想到微软将SAM和GPT-4V结合了起来，先借助SAM对图片上的物体进行标记，然后再交给GPT-4V，可以大幅提升GPT-4V的识别能力。…
IT技术
( segment-anything.com)

1年前 • 宝玉 • -- 点击 0 评论

12

2

1

1

根据研究，孩子会越大越像父母。这个是反直觉的。
有些人认为，小朋友是越小越像父母，越长大随着教育年限变长和人生轨迹不一样，会越来越不像父母。其实错了，实际数据是反的。
小孩子可能因为一个好环境好老师，在幼年时和父母很不一样。随着年龄增大，智商和脾性会越来越像父母。
推特中文圈
( twitter.com)

1年前 • 章工GPT • -- 点击 0 评论

13

2

1

1

会思考的都跑了，而且是带着钱和思考能力跑了，剩下的脑残占比越来越多，醒着的会越来越难。
时政
( twitter.com)

1年前 • 湘女 • -- 点击 0 评论

14

2

1

1

区块链病症状:
1.衣服鞋子几百都不舍得买，冲土狗手续费几千几千刀冲
2.每天拿着手机看着k线，没有了爱好，失去了打球，购物，游玩的乐趣
3.现实中的朋友越来越少，币友越来越多，朋友几百都不愿意借，币友一喊几千刀得冲
4.货币单位…
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

15

2

1

1

区块链病症状:
1.衣服鞋子几百都不舍得买，冲土狗手续费几千几千刀冲
2.每天拿着手机看着k线，没有了爱好，失去了打球，购物，游玩的乐趣
3.现实中的朋友越来越少，币友越来越多，朋友几百都不愿意借，币友一喊几千刀得冲
4.货币单位…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

16

2

1

1

“随着乌克兰捷报频传中国也出现了越来越多支持的声音”
呵，中国人
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

17

3

2

2

【新赛道】随着自媒体竞争越发激烈，越来越多的女网红前往阿富汗旅行，与塔利班搭讪
时政
( twitter.com)

1个月前 • 小径残雪 • -- 点击 0 评论

18

3

2

2

免费薅 GPT-4 羊毛的机会来了！不花钱也能体验GPTs。
据说 Coze 是字节弄的可以免费试用GPT-4，并且可以创建自己的GPT机器人。
我测试了一下确实可以，估计随着用户增多会增加使用限制。要体验趁早。
IT技术
( www.coze.com)

11个月前 • 宝玉 • -- 点击 0 评论

19

2

1

1

极权越接近死亡，撒的谎就越夸张，相信的人反倒越来越少～
时政
( twitter.com)

1年前 • 每日反共🇺🇦 • -- 点击 0 评论

20

2

1

1

@洋务先驱张之洞：还记得五月份摔的那架F-35A吗？调查报告出来一看真是亮瞎了，槽点太多不知从哪儿吐起//@FATIII：看这几年的事故报告，越发觉得随着科技发达，软硬件系统都越来越复杂，而飞行员对飞机的了解越来越少。飞行员需求大/追求经济性这两点又间接使得飞行员培训向简化和快速的方向去，费时的传统技能逐渐被忽视。
大陆资讯
( weibointl.api.weibo.com)

4年前 • 舌战群乳 • -- 点击 0 评论

21

2

1

1

不光艺人，很多学者科学家也是一样离地。这是事实。人越成熟人性越少，人生而有赤子之心。活着活着就没了，衣裳越穿越多面具越戴越多演技越来越高。
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

22

2

1

1

成本越来越高，不是随随便便开个厂子就能躺着卖9位数、赚8位数的年代了；
很多人脑子里还幻想着房地产会暴涨，拿着"结婚"、"我就想在城里有套房"的各种弱智借口，去撬动几百万人民币的杠杆，贷款买一套房，继续幻想房子继续涨，自己工资越来…
时政
( twitter.com)

1年前 • 财经数据库 • -- 点击 0 评论

23

2

1

1

今天有一个神秘的模型 gpt2-chatbot，能力很强，应该超过了 GPT-4，尤其擅长画 ASCII 图，画的独角兽🦄非常形象逼真。很多人怀疑是 GPT-4.5.
测试方法：打开
如图一所示选择 Direct Chat，模型选择 gpt2-chatbot 就可以测试
IT技术
( twitter.com)

7个月前 • 宝玉 • -- 点击 0 评论

24

3

2

2

到现在了还有男的觉得，女人谈恋爱多了下面就越睡越松啊，这，怎么说呢，我们戴了几年耳环，耳洞也没有变大啊，不戴耳洞还会封起来，你要知道，阴道的收缩性很强，越睡越松几乎不可能的，鸡越来越小是有大可能的
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

25

3

2

2

昨晚圈子被一个叫MoE 8x7B模型刷屏了，这应该是第个一个开源权重的MoE架构LLM。
在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。
MoE可以与使用两倍FLOPs的密集模型相媲美。例如，使用相同的数据和 FLOP，LLaMA 7B 的 MoE 版本应该与…
IT技术
( twitter.com)

11个月前 • 歸藏 • -- 点击 0 评论

1
2
3
4
5
6
7
8
9
...
400
下一页

0.21321 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特