通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens… , page 400

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

2224 位用户此时在线

24小时点击排行 Top 10：

一般人不会告诉你的生意口诀

穷人是如何把下一代教育成穷二代的？真实纪录片，揭露残酷真相！

更多韩国军方上街了

中国网红合同兵李建伟坎坷的回家之路。一名加入俄军的中国合同兵李建伟，因经常在网络分享战场实况，吸引了不少粉丝和关注。俄罗斯让这帮合同兵作为第一梯队冲锋，但李建伟居然没死，硬是扛到合同快结束，而很多俄军生存时间不会超过48小时。

中国德州发生开车撞孩子事件！送医院的有四十多位☹️

据维权网报道，10月18日，北京人权捍卫者 #张宝成被彻底取消全部低保待遇！他已提出行政复议！张宝成因参与 #新公民运动，上街拉横幅 #要求官员财产公开，2014年被以 #聚众扰乱公共场所秩序罪判刑2年； 2020年被以寻衅滋事罪，宣扬恐怖主义、极端主义罪判刑3年6个月。

韩国总统尹锡悦今天晚上在龙山总统办公室发布紧急谈话，颁布紧急戒严令。尹锡悦说“我宣布实行戒严，以保护大韩民国免受朝鲜共产主义势力的威胁，以及铲除掠夺我国人民和幸福的卑鄙亲朝反国家势力，以保护自由的宪法秩序” 但尹锡悦没有在讲话中说明将采取那些措施。

韩国国会以190票对0票通过解除戒严令…… 韩国士兵开始离开国会，抗议民众发出了欢呼声。

士兵试图进入国会，遭到议员们的阻拦和抵抗

韩国究竟发生了什么，突然宣布戒严令，是现任总统受到反对派的威胁，还是金家渗透取得成效？抑或是尹锡悦对政权失控？

坂井泉水的出道神曲,她才是抖腿界的天花板,震撼般的神仙颜值!

习近平多了一个爹！乱象丛生……贵州省委书记徐麟亲切会见靳东，这场荒诞的会面背后，是一场令人深思的政治表演。靳东因在电视剧中饰演习近平父亲习仲勋而成为正司局级文工团团长，这一身份让他从一名商业演员摇身一变成为权力场上的“座上宾”，甚至引发省委书记的高度重视，来一场不符合官场规则的高规

戒严司令部已经发布了一号令

12月2日重庆高级人民法院门口投资者齐声大喊口号聚集抗议新《公司法》88条之前全国各地高级法院门口都有投资者聚集抗议

国会前，民众高呼“解除戒严令！推翻独裁统治！”

韓國議會議長：“所有繼續實施戒嚴的士兵都將因叛國罪受到審判，” 韓國特種部隊離開議會，拒絕執行總統的戒嚴命令。

韩国反对党领袖李在明宣布尹锡悦不再适任韩国总统，并呼吁支持者来到国会抗争。

12月1日，则连斯基和德国总理朔尔茨，在基辅独立广场悼念英雄。他们身旁的白色花瓶，是中国各地的人送的，花瓶上印有中英乌三国语言的寄语。

因紧急戒严，韩国取消所有娱乐活动。街头随处可见巡逻的警察。

12月3日，广东湛江。承梧村因全面禁止海上养殖，并且村干部还带人打了村民。 12月3日，村民们召集全村人及在外务工的青壮年回家，一起对抗政府，画面显示，现场有大批武警驻守，村民们用水炮还击。

几分钟前，士兵们破窗进入国会

抗議者試圖從韓國軍警奪槍

争执中，士兵用枪指着民主党发言人安贵岭

进入国会的戒严部队开始撤出。

大楼外的人们在欢呼。总统的权力在这一刻被法律框架限制住了。

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多

用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens…
IT技术
( twitter.com )

1年前由 fin 提交

通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多

用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens

我没有看到具体原理，但我大概能猜出来，应该是因为并行化对memory的利用要好的多

简单的说，LLaMA2的7B模型参数大概占用13.5GB的空间，推理一个token需要把这13.5GB的参数都要从GDDR6里读一遍，Nvidia的A10推理卡GDDR6的最大带宽是600 GB/s（但一般达不到，因为DDR efficiency不可能100%），所以每秒大概能把13.5GB的数据读取40遍，这也是为什么单个推理只能达到每秒40个tokens

但是当128个推理并行的时候，每个推理都能利用相同的参数，每读取一部分参数就能给128个推理共用，这样相当于从前是串行的读13.5GB参数产生1个token，现在读一次13.5GB参数就能给128个推理请求产生128个token

这就是为什么最快能加速60倍，因为LLM每次读一个token出来都要过一遍所有参数，对于memory带宽的要求实在是惊人

目前的显卡做单线程处于严重的compute过剩，memory带宽利用不足的情况，而并行化对于memory的利用优化了太多，从而从memory bound变成了compute bound，当两个bound边界同时达到的时候，那就是最大化硬件利用率的时候

这确实是一个很好的优化idea，毕竟LLM多线程化，可能会需要一些框架支持，提供这些框架的服务会是一个很好的生意

这对显卡推理市场带来的影响其实也是不小的，Nvidia在训练端的市场占比95%+，而在推理市场的占比大概是70%。训练端的显卡需求在最初的恐慌性一次性购买后，热度会维持12~24个月，然后会陷入一个低迷期，之前觉得LLM以后的推理需求会逐渐占比扩大，替代训练卡的营收，但现在出现了game change未知因素了

当推理端真的能通过并行优化十倍乃至数十倍的时候，推理端的成本和硬件需求都会大幅缩小，但另一方面推理成本的大幅降低会让LLM使用门槛降低，极大的让整个生态更加繁荣，哪边的因素影响更大还未可知

1周内 1个月内 1年内全部时间

1

4

3

3

大粪坑外卖骑手群体
是一个潜在的民主推动力量
时政
( twitter.com)

3个月前 • 摩西煮酒MosesTalking • -- 点击 0 评论

2

2

1

1

「好文推荐」魏加宁12月24日在第五届中国金融安全论坛上的发言，题为中国经济面临“僵尸化”风险；国内朋友反映他讲了实话，但传说该讲话遭到三个常委批评，魏本人被处分。

时政
( sinoustimes.com)

1年前 • 韩连潮 • -- 点击 0 评论

3

2

1

1

国内电动车太卷了，理想不但全系降价，还给老车主退钱了。不过作为老车主体验还是蛮爽的…
IT技术
( twitter.com)

7个月前 • Dash • -- 点击 0 评论

4

3

2

2

建议俄主动设置慰安所以解决朝鲜人的生理问题……🤔不过他们竟然会上网，这很不主体思想
时政
( twitter.com)

5天前 • 说真话的徐某人 • -- 点击 • 下载视频 0 评论

00:00:43

5

2

1

1

抽🎁50u，5个均分🎁
Read to earn赛道打金小游戏Renaisn赞助了目前运营2个多月了，从产品体验看，Renaisn应用完成度很高，官方也通过任务规则降低了金币被机器人批量账号零撸的风险，感兴趣的点击下方项目介绍链…
币圈
( twitter.com)

1年前 • 币毒 • -- 点击 0 评论

6

2

1

1

尽管马斯克跟推特董事会成交了，但他还要过最后一关，就是美国政府的批准，具体的主管部门是 SEC，即美国证券交易委员会。估计 SEC 在批准前会让马斯克做出一些承诺。
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

7

2

1

1

在Oreo契而不舍的拍猫屁 /舔猫屁攻势下，Bella终于，还是不理Oreo。
但是似乎感化了一些…
请订阅Bella and Oreo 频道吧

Bella, how can you be so sweet! 养尊处优贵族Bel…
推特精选
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

8

2

1

1

小花火化的视频看了好多遍，从毛茸茸变成一堆白骨，我没有勇气天天看着它的骨灰，让医生帮我处理了。我真的还能想起摸它时候的感觉。
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

9

2

1

1

【网络上的健康测试可信吗？】没啥参考价值。通过一个测评就把整个健康状况评出，这也太夸张了。这类评分特别依靠对生活习惯的回忆，但人的记忆并不总是那么准确，还不排除那些掩盖实情的情况。试题中的选项也很难量化。测来玩玩给自己提个醒要注意饮食多锻炼还是可以的
大陆资讯
( www.guokr.com)

9年前 • 果壳网 • -- 点击 0 评论

10

2

1

1

美军印太司令部：国际法许可之处美军皆可自由通行
推特中文圈
( www.voachinese.com)

2年前 • 美国之音 • -- 点击 0 评论

11

2

1

1

【微信遭台湾监管部门审查腾讯恐面临撤资处理】据台湾《旺报》报道，腾讯在台子公司将面临台湾“经济部投审会的审查。据称，腾讯在台子公司以陆资身份登记，但核准业务并未覆盖即时聊天应用微信，如果该聊天应用从事一些商业活动未经批准，该公司将面临处罚甚至将被驱逐出台湾。
大陆资讯
( tech.sina.com.cn)

9年前 • 观阴大湿 • -- 点击 0 评论

12

2

1

1

重磅新闻不断涨涨涨
全球最大量子实验室正式加盟CORE核心公链，提供全节点服务。
M-Labs量子实验室2007年成立，于2013年更名为M-labs，注册于香港。公司用于量子物理学的高级实时基础结构是用于量子区块链信息化实验的领…
币圈
( twitter.com)

1年前 • 核心币@Hexin₿i⛏️ • -- 点击 0 评论

13

3

2

2

【美国“拉黑”国科微、国盾量子，精准打击量子计算】本周三，美国政府将12家涉及量子计算、半导体及其他先进技术的中国公司列入贸易“黑名单”，理由是出于国家安全和外交政策的考虑。
大陆资讯
( zhidx.com)

3年前 • 妮妮娃 • -- 点击 1 评论

14

2

1

1

推特中文圈正能量满满，也希望能在这结交更多长期并肩好友。
币圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

15

2

1

1

加拿大国防部长安妮塔·阿南德11日在记者会上拒绝就加拿大上空被击落的飞行物体的来源进行揣测。美国F-22战斗机11日在加拿大上空击落了该物体。美国防部说，拜登总统与加拿大总理特鲁多通话后，授权美国军方与加拿大合作击落这个高空飞行物…
时政
( twitter.com)

1年前 • 美国之音中文网 • -- 点击 0 评论

16

2

1

1

币圈治理代币机制真是商业天才之作。

1.项目方赚走100%项目收益
2.再0成本发行所谓治理代币给散户接盘，项目方拿大头
3.散户接盘治理代币后，还免费给项目方去推广cx

最后，项目方赚走：100%项目收益+空气代币收益+散户…
币圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

17

2

1

1

tomorrow为啥坚持现货还能装逼做分析，底气在哪😀
除了抓趋势交易的BTC ETH固定倍数外，队长善于在牛市中缩短静态持仓周期，实现热点赛道的快速切换，做到大盘涨5倍，队长实现15-20倍更高，并且能通过量价关系实现精准找到山…
币圈
( twitter.com)

2年前 • tomorrow投资日记 • -- 点击 0 评论

18

2

1

1

昨晚公布数据，恢复不及预期，通胀依然严峻，加大了3月加息50的概率，造成短期消息面利空，震荡时间延长！

不过上半年反弹趋势并未改变，保持之前观点最迟3月中旬前后就会突破这一区间，2月本就是震荡月消化1月的涨幅，这种级别的调整并不…
币圈
( twitter.com)

1年前 • 比特币子棋 • -- 点击 0 评论

19

2

1

1

【深圳发布通告「公交地铁停运，全市社区小区等封闭式管理，全市人员非必要不离深」】除保障城市运行及供港物资货运的交通外，全市公交、地铁停运。全市社区小区、城中村、产业园区实行封闭式管理。全市人员非必要不离深，确有特殊需要，一律凭24小时核酸阴性证明离深。
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

20

3

2

2

打算创业的朋友，可以先看看这张图。是我整理的最近一个月垃圾邮件的标题汇总，基本上是中国小老板每日烦恼大礼包。（@伯通李）
图片
( ww2.sinaimg.cn)

8年前 • 有趣图片 • -- 点击 0 评论

21

2

1

1

【中共是流氓帮会】今天是中共建党101周年，这个镰刀斧头帮等级森严的组织形态、邪恶的共产理念、切口、帮规和暴力手段等都证明它是地道的流氓帮会。流氓帮会掌控流氓政权，流氓政权宣扬流氓文化，流氓文化加速社会黑恶化，而中国黑社会化必将祸…
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

22

2

1

1

为什么尽量多读书？
为什么尽量多读书？你作为普通人，根本没机会接触顶尖的大牛。就算你公司里有，人家也根本不会搭理你。读书是你接触顶级智者思想的唯一途径。
推特中文圈
( twitter.com)

1年前 • 章工 • -- 点击 0 评论

23

2

1

1

【流量神话破灭后，顶流都在干什么】原有的流量体系被“清朗”击垮后，后来的小生、小花已经无法再通过那套体系对前流量取而代之了。这就像晚清取消了科举，老状元便成了绝版名士。在新的流量体系诞生前，眼下这个混乱的过渡时期，似乎正敦促着明星朝更健康的方向发展——努力拍片冲奖、货真价实带货。
大陆资讯
( mp.weixin.qq.com)

1年前 • 罗密欧煮你爷 • -- 点击 0 评论

24

2

1

1

【电话诈骗犯集体认罪】
【 “我是中国人，中国人不骗中国人”】

中国政府过去一年拘捕了大批在缅北从事电话诈骗的中国人，他们被遣返大陆后被进行 “思想教育”，集体对着镜头认罪，并且喊出“我是中国人，中国人不骗中国人”口号。
有网民…
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

25

2

1

1

有个两万多博主石锤盗图的瓜，他的推特风格也是可男可女，目前也没办法知道性别，并且微信实名制也没有实名，收款的微信好像是大号，90%概率是个抠脚大汉骗钱的，等会我们整理下信息在爆料
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

0.27909 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特