通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens… , page 11

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

2349 位用户此时在线

24小时点击排行 Top 10：

12月3日(发布) 一男子模仿中国外交官答非所问的视频，在社交平台传播，目前抖音正陆续删除该视频。网友回复：“我怎么听出了新闻发布会的感觉”

12月3日，广东。一水果摊主正在带孩子，发现城管后立刻收拾摆放在门外的水果。城管见状快步径直走向摊位，将门外的水果搬上车带走，整套动作行云流水。

12月3日(发布) 河南郑州。女子发视频称，当都交警执法咄咄逼人，把丈夫逼到从立交桥上跳下来致其死亡。家人撕心裂肺的哭嚎着，不断拍打警察并质问道：你们咱把他弄死的！而交警低着头，沉默不语。

突发新闻：令人毛骨悚然的监控录像显示，刺客在纽约处决了美国🇺🇸联合健康保险公司首席执行官布莱恩·汤普森

London is no longer a safe place. We all know very well why.

《00后被背刺的一天》

12月3日，广东深圳。女子发视频称，梅沙幼儿园每天让孩子们在球场挥舞大刀，灌输仇恨教育。女子呵斥老师：这是在灌输仇恨教育，要教他们爱，孩子这么小就教他们杀戮，但校内的工作人员对女子的话置之不理。

被中国全网封杀，《工作都上哪去了》

12月4日，江苏南京。大爷在地铁上叫醒女生让座，女生让座后大爷仍不依不饶：“这个位置必须得让，没家教白上学了” 其他乘客帮女生说话也被大爷恐吓：让公安局查你，知道我是干什么的吗？说出来吓死你！

12月3日(发布) 一老太太回忆往事：在当时，你骂孙中山和蒋介石，都可以，不存在你骂了谁，谁就整你。网友回复：“那个时代才会出鲁迅，现在你试试看，没人敢写”

川普早就戳穿了香港“一国两制”的谎言，香港已经沦为中国一个普通城市，还有澳门，现在连遮羞布都不要了。

张维为教授说：中国经济虽然困难，但是和美国相比，优势依然明显。可惜现在网友不好忽悠了，集体嘲讽张维为。

美国政府开始对中国共产党追究冠状病毒的责任了！

12月5日凌晨，深圳宝安富源工业城附近发生塌方，目前造成13人失联。

要我说，在网上真能学到奇奇怪怪的东西 #生活小妙招

俄羅斯士兵在死去戰友面前炫技（地面黑色裹屍袋）

著名作家琼瑶近日在家中选择以自己的方式与世界告别。这是她最后的视频，遗言内容均在琼瑶离世前录制的视频中，她平静地表达了自己的心声：“生命中有太多无法言说的痛苦，我希望我的离开能让大家理解，每个人都有自己的选择。感谢我的读者，是你们陪伴我走过这段旅程。我的作品就是我生念的延续。

如有可能还是试着探寻生命的意义 🙏

12月4日，广东。金皇酒店拖欠工人工资，工人跳楼讨薪。 12月13日，陕西渭南。华通路桥公司拖欠工程款，工人们在政务服务中心向工作人员下跪。 12月1日，湖南株洲。龙泉路一村拆迁，网曝政府给出的拆迁补偿过低，引发村民抗议。 12月4日(发布) 湖北黄冈，上巴河镇农民工镇政府门口讨薪。

12月4日，吉林。访民们在检察院外高喊检察长，希望检察长能出来为民作主伸冤。

经济学家高善文演讲：2025年可能是一个重要转折点（全文＋视频） 1. 转型、周期性压力

12月4日，山西晋中。1979年出生的卜女士，08年获得工学硕士学位当时卜女士因未及时更换二代身份证，导致无法考博士。后来，她患上精神分裂症，家人到学校将她接回家 10年初，卜女士离家失踪，从此了无音讯近日，在志愿者帮助下，卜女士找到了家人，目前卜女士有一儿一女。家人打算卖房为其治疗

这坏逼狡猾的很，亲华媚朝反美反日，他自己收受巨额贿赂为杀人的亲属脱罪还有性丑闻，就这么个货用一个2000刀的皮包钓鱼执法就折腾的尹锡悦生不如死，这次不知道又搞了什么鬼把尹锡悦逼到要发戒严令🙄他要上去了韩国有大麻烦🙄

共产党真是太牛逼了是生怕这些人，不采取报复社会的行为是吧

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多

用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens…
IT技术
( twitter.com )

1年前由 fin 提交

通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多

用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens

我没有看到具体原理，但我大概能猜出来，应该是因为并行化对memory的利用要好的多

简单的说，LLaMA2的7B模型参数大概占用13.5GB的空间，推理一个token需要把这13.5GB的参数都要从GDDR6里读一遍，Nvidia的A10推理卡GDDR6的最大带宽是600 GB/s（但一般达不到，因为DDR efficiency不可能100%），所以每秒大概能把13.5GB的数据读取40遍，这也是为什么单个推理只能达到每秒40个tokens

但是当128个推理并行的时候，每个推理都能利用相同的参数，每读取一部分参数就能给128个推理共用，这样相当于从前是串行的读13.5GB参数产生1个token，现在读一次13.5GB参数就能给128个推理请求产生128个token

这就是为什么最快能加速60倍，因为LLM每次读一个token出来都要过一遍所有参数，对于memory带宽的要求实在是惊人

目前的显卡做单线程处于严重的compute过剩，memory带宽利用不足的情况，而并行化对于memory的利用优化了太多，从而从memory bound变成了compute bound，当两个bound边界同时达到的时候，那就是最大化硬件利用率的时候

这确实是一个很好的优化idea，毕竟LLM多线程化，可能会需要一些框架支持，提供这些框架的服务会是一个很好的生意

这对显卡推理市场带来的影响其实也是不小的，Nvidia在训练端的市场占比95%+，而在推理市场的占比大概是70%。训练端的显卡需求在最初的恐慌性一次性购买后，热度会维持12~24个月，然后会陷入一个低迷期，之前觉得LLM以后的推理需求会逐渐占比扩大，替代训练卡的营收，但现在出现了game change未知因素了

当推理端真的能通过并行优化十倍乃至数十倍的时候，推理端的成本和硬件需求都会大幅缩小，但另一方面推理成本的大幅降低会让LLM使用门槛降低，极大的让整个生态更加繁荣，哪边的因素影响更大还未可知

1周内 1个月内 1年内全部时间

上一页
1
...
6
7
8
9
10
11
12
13
14
15
16
...
373
下一页

1

2

1

1

sing-box 刚刚正式更新到 v1.5.0，这款通用代理平台已做成"要你墙命3000"，几乎支持所有翻墙代理协议，多平台覆盖，强得一匹。
GitHub
文档
IT技术
( twitter.com)

1年前 • Geek • -- 点击 0 评论

2

5

4

4

【重大信号· 少数民族监控同化加速】

一帮无耻无德汉族学者，助力中共恶行，为你们羞耻
每日热点

洗脑宣传
( twitter.com)

1年前 • 王安娜 · WangRuiqin • -- 点击 0 评论

3

2

1

1

【德国复兴信贷银行将于2026年停止对华提供“促进贷款”】德国经合部部长解释称“我们不再将中国视为发展中国家”，中国现在完全可以通过国际资本市场进行融资。德国向中国提供的“促进贷款”重点支持领域包括可再生能源和能效、可持续城市发展、生态转型、水资源管理等，以及通过金融机构提供绿色信贷融资。
大陆资讯
( www.guancha.cn)

1年前 • 妹特思棒味 • -- 点击 0 评论

4

2

1

1

想参观皇家艺术研究院（Royal Academy of Arts）新展的访客现在需要通过一关考验——从两个紧挨的裸体模特身间挤进去。

这件不同寻常的作品是塞尔维亚知名行为艺术家玛丽娜·阿布拉莫维奇（Marina Abramović）50年职业回顾展的一部分。

展览另设有一个入口，以供那些并不想参与的人通过。…
时政
( twitter.com)

1年前 • BBC News 中文 • -- 点击 0 评论

5

2

1

1

中国物业管理再过50年也达不到这个水平
时政
( twitter.com)

1年前 • 新闻调查 • -- 点击 • 下载视频 0 评论

00:01:12

6

3

2

2

香港大学的悼念现场被清理后
10月31日，校园里又多了几处零星的悼念。
时政

民间悼念李克强
( twitter.com)

1年前 • 李老师不是你老师 • -- 点击 0 评论

7

2

1

1

李佳琦团队在招舆情公关，要求需要有1年以上舆情处理相关工作经验……
大陆资讯

1年前 • 猪是的念过来倒 • -- 点击 0 评论

8

2

1

1

欧洲的通胀高，但是回落速度快，现在已经回到2%以上，而美国通胀则很粘性，明年三月份欧洲央行大概率就会降息！
时政
( twitter.com)

1年前 • 财经真相 • -- 点击 0 评论

9

2

1

1

我发现最近有几个推特大V通过表现自己的攻击性和哗众取宠增粉。
对此我想提醒一下你们，通过攻击性和哗众取宠增粉，会导致大量高质量的人取关或拉黑你们，而新增的粉丝绝大多数都是看你们做小丑表演的人，或者是一些完全无下限的“脑残粉”。…
时政
( twitter.com)

1年前 • Ronald Simmons🇺🇸🦅✝️ • -- 点击 0 评论

10

2

1

1

自媒体时代，政府是如何做好宣传工作的？
针对《治安管理处罚法》的讨论，所有表达过反对意见的大V被全部统计成表格“拉清单”，下发全国各地网警部门，要求组织动员体制内人员前往它们的评论区进行控评（如图4）。
也就是说，你在热门社会话题下方所看到的很多正向评论，其实是全国晶哥一起努力的结果。
时政
( twitter.com)

1年前 • 李老师不是你老师 • -- 点击 0 评论

11

2

1

1

俞敏洪等到達八寶山現李克強總理送行！真汉子
时政
( twitter.com)

1年前 • 新闻调查 • -- 点击 0 评论

12

2

1

1

涨粉速度很快，开锁一个多月，从3000到3万了，谢谢大家的关注和支持，我退休十一年，从来没有这么充实过。
今天早上一个颐和奖学金没发一分钱给学生的贴，居然已经引发北京理工大学校领导的高度重视，纷纷通过各种渠道，打电话和我确认情况，表示要给我一个交待。…
时政
( twitter.com)

1年前 • 大老王 • -- 点击 0 评论

13

2

1

1

以军在加沙北部发现一处地道的通道口紧邻儿童乐园，距离摩天轮只有几十米远
另一处通道口位于一所大学，大学附近还发现了一座存放炸弹，RPG，化学物质的军用仓库
时政
( twitter.com)

1年前 • 悉尼奶爸 SydneyDaddy 雪梨奶爸 🇦🇺 • -- 点击 • 下载视频 0 评论

00:00:44

14

2

1

1

LLM 大语言模型，什么时候能摘掉「法学硕士」的帽子？
大陆资讯
( www.myzaker.com)

1年前 • 地沟油 • -- 点击 0 评论

15

2

1

1

中科院心理所通过对19万不同年龄段人群的调查分析：

心理健康随年龄增长、收入增加而降低，收入低且年轻的越容易抑郁。

月入2000以下抑郁症风险率最高，占到21%，而2020年李克强的总理报告里说了，中国有9.64亿月入2000以下，这么也就是说低收入抑郁症患者有9.64*21%=2.02亿。…
时政
( twitter.com)

1年前 • 左手墨迹 • -- 点击 0 评论

16

2

1

1

这段时间，有大量B站用户表示，自己的账号因为长时间未登录，被"黑客"回收用来当推广视频的"水军"。(懂得都懂)推广视频是B站今年为了试图"扭亏为盈"，将大量虚假广告视频以"推广"的形式投放到用户首页，如贷款APP分期乐、左旋。通常，这种评论的用户与其IP主页的IP属地并不相同。
时政
( twitter.com)

1年前 • 柑橘小波奇🐱🇰🇷 • -- 点击 0 评论

17

3

2

2

如何发布手机应用？

手机应用的发布过程与传统方法大不相同。这幅简图能帮助你轻松理解整个过程。

手机应用发布流程通常包括以下几个阶段：

1. 注册与开发（针对 iOS 和 Android）：
- 注册加入苹果的开发者计划和 Google Play 控制台，成为 iOS 和 Android 开发者
-…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:00:10

18

2

1

1

🔴智🔴力🔴挑🔴战🔴

下面是一道逻辑推理测试题，有一定的难度，欢迎 X 友踊跃参与。

参与人数达到“唐大妈满意”数量将公布答案和详解。

🔶🔶🔶🔶🔶
有趣
( twitter.com)

1年前 • 👁️ 我看好你 👁️ • -- 点击 0 评论

19

2

1

1

成都理工大学宜宾校区，青春心向党，攀登向未来，第三届社团文化节表演。
时政
( twitter.com)

1年前 • 小径残雪 • -- 点击 • 下载视频 0 评论

00:00:20

20

2

1

1

老师没收学生手机被2次锁喉，事发广东一公立职校，校方：已处理涉事学生
大陆资讯
( news.sina.com.cn)

1年前 • 全球尸报 • -- 点击 0 评论

21

2

1

1

混了快半年推特，对离岸华人圈子有了一些了解，真是觉得特别有意思。
整体来说这个圈子是反贼为绝对主流，有个别自来红但是不多。
这个圈子的大号，除了极少数在近期刚刚润出来的，整体上对中国的实际情况一无所知。包括但不限于对中国政治的理解，对民情民心的了解，以及对于中国经济坍塌的认知。…
时政
( twitter.com)

1年前 • 老蛮频道 • -- 点击 0 评论

22

2

1

1

胡平：庞巴维克早就驳倒了马克思 -—写于庞巴维克逝世100周年

庞巴维克利息理论的基本概念非常简单、朴素、自然，几乎是不言自明。后世的经济学家对他的理论又进行了一些加工、补充和发挥。但要说对资本与利息问题的正确阐述，从而也就是对马克思经济理论的毁灭性批判，庞巴维克应是第一人。…
时政
( twitter.com)

1年前 • Hu Ping胡平 • -- 点击 0 评论

23

2

1

1

一名网友反映，女儿在国产某品牌学习机的App里被索要内裤照片。家长报警后，警察不予处理，理由：“因为没有实质性伤害，不构成立案条件”。
时政
( twitter.com)

1年前 • Jacobson🌎🌸贴贴BOT • -- 点击 0 评论

24

2

1

1

吴国光教授说：在独裁与恶政之间存在一种螺旋效应，二者相互推动升级。就独裁领导人来说，越是个人集权，就越是没有制约；决策越是任性，越是造成治理的灾难，也就是恶政；越是出现治理的灾难，独裁者就越发感到已高度集中在自己手里的权力还是不够用，于是越发要强化个人权威，实行政治清洗……
时政
( twitter.com)

1年前 • 高伐林 • -- 点击 0 评论

25

2

1

1

拼多多买的盗版 Grammar in Context 有两本封面裁切时宽了一点，后面手动拿美工刀进行了裁切。内页文章部分支持点读笔，印刷质量整体尚可，部分较细字体有点发虚，使用的是铜版纸，触感细腻。在不足正版一本的价格买到四本的前提下，整体好评。
时政
( twitter.com)

1年前 • Yufan Sheng • -- 点击 0 评论

上一页
1
...
6
7
8
9
10
11
12
13
14
15
16
...
373
下一页

0.15725 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特