通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens…

通过批处理并行化，LLM推理整体吞吐量速度提高60倍，这项工作潜力可能会很大，优化了如此多，推理市场硬件需求可能会比之前预想的要小的多

用一个A10推理卡跑LLaMA2的7B模型，单个推理40 tokens/s，但当128个推理并行时，每个推理仍能得到10+token/s，优化之后甚至能达到总吞吐量每秒2400 tokens

我没有看到具体原理，但我大概能猜出来，应该是因为并行化对memory的利用要好的多

简单的说，LLaMA2的7B模型参数大概占用13.5GB的空间，推理一个token需要把这13.5GB的参数都要从GDDR6里读一遍，Nvidia的A10推理卡GDDR6的最大带宽是600 GB/s（但一般达不到，因为DDR efficiency不可能100%），所以每秒大概能把13.5GB的数据读取40遍，这也是为什么单个推理只能达到每秒40个tokens

但是当128个推理并行的时候，每个推理都能利用相同的参数，每读取一部分参数就能给128个推理共用，这样相当于从前是串行的读13.5GB参数产生1个token，现在读一次13.5GB参数就能给128个推理请求产生128个token

这就是为什么最快能加速60倍，因为LLM每次读一个token出来都要过一遍所有参数，对于memory带宽的要求实在是惊人

目前的显卡做单线程处于严重的compute过剩，memory带宽利用不足的情况，而并行化对于memory的利用优化了太多，从而从memory bound变成了compute bound，当两个bound边界同时达到的时候，那就是最大化硬件利用率的时候

这确实是一个很好的优化idea，毕竟LLM多线程化，可能会需要一些框架支持，提供这些框架的服务会是一个很好的生意

这对显卡推理市场带来的影响其实也是不小的，Nvidia在训练端的市场占比95%+，而在推理市场的占比大概是70%。训练端的显卡需求在最初的恐慌性一次性购买后，热度会维持12~24个月，然后会陷入一个低迷期，之前觉得LLM以后的推理需求会逐渐占比扩大，替代训练卡的营收，但现在出现了game change未知因素了

当推理端真的能通过并行优化十倍乃至数十倍的时候，推理端的成本和硬件需求都会大幅缩小，但另一方面推理成本的大幅降低会让LLM使用门槛降低，极大的让整个生态更加繁荣，哪边的因素影响更大还未可知

1周内 1个月内 1年内全部时间

【且看如何收场？】
人大橡皮图章为《治安管理处罚法》（草案）征求意见，媒体沉默，网民狂欢……
1 通过：加速……
2 修改：尴尬；
时政
( twitter.com)

1年前 • 章立凡 ©️Zhang Lifan💎 • -- 点击 0 评论

【限免中】ServerBox 服务器管理工具。感觉还不错，软件没有订阅付费，完全免费。

之前是通过哪吒面板批量管理服务器，这下感觉SSH、管理docker、更新系统就更方便了。

下载传送门：
时政
( apps.apple.com)

1年前 • SimbaLee • -- 点击 0 评论

#AI开源项目推荐: Biblos

利用向量搜索和总结功能深入探索圣经

Biblos 结合了最新的自然语言处理技术，提供了一种在圣经文本中进行语义搜索和内容总结的新方法

* 借助 [Chroma]() 和 BAAI BGE 的嵌入技术，实现了对整个圣经文本的向量搜索
* 通过 [Anthropic 的…
IT技术
( github.com)

1年前 • 宝玉 • -- 点击 0 评论

国务院常务会议审议通过《国务院关于取消和调整一批罚款事项的决定》严格规范处罚事项和罚款标准，是优化营商环境、降低经营成本的重要举措。要持续压减罚款事项，对违反法定权限、不适应经济社会发展需要、可采取其他方式规范管理的罚款事项做到应减尽减。要严格规范行政处罚自由裁量权，加大对乱罚款…
时政
( twitter.com)

1年前 • 外汇交易员 • -- 点击 0 评论

#工程师学习这个飞书知识库「一站式 LLM底层技术原理入门指南」，最开始看前面我以为是那种比较水的内容，看了看发现讲得很清晰，用于零基础入门大语言模型（Large Language Model, LLM)底层技术原理，最直接面向群体为非科班出身但想要了解AI技术原理的投资人。

IT技术
( s3tlxskbq3.feishu.cn)

1年前 • Tw93 • -- 点击 0 评论

过去几年中共的各种奇怪举动，对科技、金融、教培、游戏、地产等行业的胡乱打压、在外交上采取战狼行动的无理取闹，搞得天怒人怨，外资撤离，工厂搬走，工人下岗、房地产暴雷、人心惶惶。最新推出的《治安管理处罚法》修订草案中那些苛刻模糊的规条，意在增强政权的伤害能力，意在通过强化对人民的伤害…
时政
( twitter.com)

1年前 • Petrichor • -- 点击 0 评论

上世纪八十年代通过严格高考进入大学的这批人接受过完整的高等教育，感受过民国一代留下来的余温，经历了思想解放百家争鸣的罕见时期，更重要的是这一批人出身贫寒，知道通过读书改变个人命运，也有过通过知识改变国家命运的理想和执念，虽然八九六四之后，这一代人选择了沉默甚至集体堕落，但和那些坐…
每日热点
( twitter.com)

1年前 • 蔡慎坤 • -- 点击 0 评论

整理16万亿的存量城投债数据，差点把我的心态搞崩了。不像已经规范化了的地方债券，还款模式、计息模式都已经标准化了。城投债真的是，全都是非标准形式。只有几个月期的超短融、奇特的复利模型、还款期限不知所云的私募债，我一度无法对它们进行分类处理。…
时政
( twitter.com)

1年前 • 老蛮频道 • -- 点击 0 评论

这老哥量化部署 LLM 的设想，牛逼 !!

1/ 假设所有文章，都“私藏”目的
2/ 假设所有文章，不是愚蠢就是偏激
3/ 量化一个本地 llm, 用 150 种“正”思想过滤
4/ 可部署在树莓派上

这不相当于请了中国 211 的语文老师，马哲老师，财经老师，做智囊团，天天给你开会 ?? 哈哈哈哈哈
IT技术
( twitter.com)

1年前 • 黄赟 • -- 点击 0 评论

10月9号: 联合国安理会就哈马斯袭击以色列问题举行闭门会议，未能通过任何声明或决议。安理会从2022年2月24号起就已经成为僵尸，没有存在的意义

纽约，10月8日，联合国安理会就以色列局势举行闭门会议。整个过程持续了约 90 分钟。与会者告诉CNN，会议上没有通过任何声明或决议。…
时政
( twitter.com)

1年前 • John Zhang🇺🇸🇺🇦🇬🇧 • -- 点击 0 评论

这个老哥发布了Grok整个系统的所有UI细节我把几个视频合成一个了。对话分支这个能力挺有意思的。具体的能力介绍：

①允许同时处理多项任务。可以运行多个并发对话，并在对话进行时在它们之间进行切换。
②可以对对话进行分支，以便更好地了解 Grok…
IT技术
( twitter.com)

1年前 • 歸藏 • -- 点击 • 下载视频 0 评论

00:02:16

来自北京大学和微软研究院的一篇论文，MusicAgent是一款基于大语言模型（LLM）为音乐创作打造的 AI 智能体，可以理解成音乐界的 AI Copilot 。

它借助了 LLM 的任务规划能力、工具选择能力和…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

加拿大的科学家发现，爱因斯坦的大脑在整体大小和重量上都是正常的；但他大脑的顶叶区域，即与数学推理有关的区域比普通人宽 15%。

此外，他的大脑两个半球之间的间隙（脑沟）并没有像普通人那样一直延伸，因而可以让更多的神经元更容易地协同工作。

[来源：]
有趣
( www.cbc.ca)

1年前 • 环球猎奇🏅 • -- 点击 0 评论

手机语音笔记AI整理：

用Apple Watch或iPhone里的just press record APP快速录音转写为文本。

分享转写文本到快捷指令（调用ChatGPT整理）

AI整理后自动保存到剪贴板。
或者存到Obsidian或备忘录。
IT技术
( www.icloud.com)

1年前 • 向阳乔木 • -- 点击 0 评论

10 月 2 日，国际原子能机构大会闭幕，支持日本处理水排放。唯一批评福岛一号核电站处理水排放海洋的国家是中国，唯一对处理水排放表示担忧的国家是叙利亚😂😂😂

维也纳——国际原子能机构年度大会于周六凌晨在奥地利首都举行。…
时政
( twitter.com)

1年前 • John Zhang🇺🇸🇺🇦🇬🇧 • -- 点击 0 评论

今天上午，北大7778级百名老校友来到八宝山，给
克强老同学送行。李同学夫人和每个人都握手，有的还交谈拥抱。物理糸77级正盛同学把全体同学的话代给了克强夫人。警卫不让过去，吊唁人员都是快速通过，想过去的人都被拦助了。正盛告诉警卫：“我有话要说”，强行过去了。
每日热点
( twitter.com)

1年前 • 鲁难- • -- 点击 0 评论

今天潘功胜的讲话要点：
1、明年GDP保5的可能性很高。潘行长回应了中国经济现状，提到5%是个合理的增速，延续此前转变的口风，提高质量发展的同时也会提“合理的增速”，明年保5的可能性很高…
时政
( twitter.com)

1年前 • 洋同学的宏观笔记 • -- 点击 0 评论

廚餘
吞掉、吞掉、通通給我吞掉
时政
( twitter.com)

1年前 • 王語萱 • -- 点击 0 评论

IT技术

【且看如何收场？】
人大橡皮图章为《治安管理处罚法》（草案）征求意见，媒体沉默，网民狂欢……
1 通过：加速……
2 修改：尴尬；
时政
( twitter.com)

时政

【限免中】ServerBox 服务器管理工具。感觉还不错，软件没有订阅付费，完全免费。

之前是通过哪吒面板批量管理服务器，这下感觉SSH、管理docker、更新系统就更方便了。

下载传送门：
时政
( apps.apple.com)

时政

IT技术

时政

IT技术

时政

每日热点

时政

IT技术

时政

IT技术

美国心理学家CandacePert，她提出了“情绪分子学”理论，即情绪可以通过神经递质和神经肽等化学信使分子在身体内部传播。

释放情绪压力，不仅是对自己身体的关爱，更是对自己心灵的护佑。
时政
( twitter.com)

时政

这一次每5年开一次的全国金融工作会议，中金公司的信息整理做的最好。

中金对历次金融工作会议做了全面的复盘和具体改革措施整理，以及会议后的市场走势表现，非常大量的图表。

推荐阅读：
时政
( www.cls.cn)

时政

时政

来自北京大学和微软研究院的一篇论文，MusicAgent是一款基于大语言模型（LLM）为音乐创作打造的 AI 智能体，可以理解成音乐界的 AI Copilot 。

它借助了 LLM 的任务规划能力、工具选择能力和…
IT技术
( twitter.com)

IT技术

有趣

手机语音笔记AI整理：

用Apple Watch或iPhone里的just press record APP快速录音转写为文本。

分享转写文本到快捷指令（调用ChatGPT整理）

AI整理后自动保存到剪贴板。
或者存到Obsidian或备忘录。
IT技术
( www.icloud.com)

IT技术

时政

RT : 从早上整理数据到现在，终于弄完了。系统共登记黄推1092名，共分为三个等级，分别为机器人、疑似诈骗、普通黄推，其中机器人引流黄推共529名，疑似诈骗黄推551共名，普通黄推共12名。
时政
( twitter.com)

时政

共匪处理学生的方法和俄爹处理战士的方法如出一辙，只不过一个是活人，另一个是死人👇
时政
( twitter.com)

时政

城管划破路边电动车防雨棚？9月18日，重庆市梁平区城市管理局工作人员回应：系交通综合整治行动，对于执法过程中出现的不规范行为，将会上报。
时政
( twitter.com)

时政

每日热点

今天潘功胜的讲话要点：
1、明年GDP保5的可能性很高。潘行长回应了中国经济现状，提到5%是个合理的增速，延续此前转变的口风，提高质量发展的同时也会提“合理的增速”，明年保5的可能性很高…
时政
( twitter.com)

时政

廚餘
吞掉、吞掉、通通給我吞掉
时政
( twitter.com)

时政

IT技术

【且看如何收场？】 人大橡皮图章为《治安管理处罚法》（草案）征求意见，媒体沉默，网民狂欢…… 1 通过：加速…… 2 修改：尴尬； 时政 ( twitter.com)

时政

【限免中】ServerBox 服务器管理工具。感觉还不错，软件没有订阅付费，完全免费。 之前是通过哪吒面板批量管理服务器，这下感觉SSH、管理docker、更新系统就更方便了。 下载传送门： 时政 ( apps.apple.com)

时政

IT技术

时政

IT技术

时政

每日热点

时政

IT技术

时政

IT技术

美国心理学家CandacePert，她提出了“情绪分子学”理论，即情绪可以通过神经递质和神经肽等化学信使分子在身体内部传播。 释放情绪压力，不仅是对自己身体的关爱，更是对自己心灵的护佑。 时政 ( twitter.com)

时政

这一次每5年开一次的全国金融工作会议，中金公司的信息整理做的最好。 中金对历次金融工作会议做了全面的复盘和具体改革措施整理，以及会议后的市场走势表现，非常大量的图表。 推荐阅读： 时政 ( www.cls.cn)

时政

时政

来自北京大学和微软研究院的一篇论文，MusicAgent是一款基于大语言模型（LLM）为音乐创作打造的 AI 智能体，可以理解成音乐界的 AI Copilot 。 它借助了 LLM 的任务规划能力、工具选择能力 和… IT技术 ( twitter.com)

IT技术

有趣

手机语音笔记AI整理： 用Apple Watch或iPhone里的just press record APP快速录音转写为文本。 分享转写文本到快捷指令（调用ChatGPT整理） AI整理后自动保存到剪贴板。 或者存到Obsidian或备忘录。 IT技术 ( www.icloud.com)

IT技术

时政

RT : 从早上整理数据到现在，终于弄完了。系统共登记黄推1092名，共分为三个等级，分别为机器人、疑似诈骗、普通黄推，其中机器人引流黄推共529名，疑似诈骗黄推551共名，普通黄推共12名。 时政 ( twitter.com)

时政

共匪处理学生的方法和俄爹处理战士的方法如出一辙，只不过一个是活人，另一个是死人👇 时政 ( twitter.com)

时政

城管划破路边电动车防雨棚？9月18日，重庆市梁平区城市管理局工作人员回应：系交通综合整治行动，对于执法过程中出现的不规范行为，将会上报。 时政 ( twitter.com)

时政

每日热点

今天潘功胜的讲话要点： 1、明年GDP保5的可能性很高。潘行长回应了中国经济现状，提到5%是个合理的增速，延续此前转变的口风，提高质量发展的同时也会提“合理的增速”，明年保5的可能性很高… 时政 ( twitter.com)

时政

廚餘 吞掉、吞掉、通通給我吞掉 时政 ( twitter.com)

时政

创建一个新帐户

登录

【且看如何收场？】
人大橡皮图章为《治安管理处罚法》（草案）征求意见，媒体沉默，网民狂欢……
1 通过：加速……
2 修改：尴尬；
时政
( twitter.com)

【限免中】ServerBox 服务器管理工具。感觉还不错，软件没有订阅付费，完全免费。

之前是通过哪吒面板批量管理服务器，这下感觉SSH、管理docker、更新系统就更方便了。

下载传送门：
时政
( apps.apple.com)

美国心理学家CandacePert，她提出了“情绪分子学”理论，即情绪可以通过神经递质和神经肽等化学信使分子在身体内部传播。

释放情绪压力，不仅是对自己身体的关爱，更是对自己心灵的护佑。
时政
( twitter.com)

这一次每5年开一次的全国金融工作会议，中金公司的信息整理做的最好。

中金对历次金融工作会议做了全面的复盘和具体改革措施整理，以及会议后的市场走势表现，非常大量的图表。

推荐阅读：
时政
( www.cls.cn)

来自北京大学和微软研究院的一篇论文，MusicAgent是一款基于大语言模型（LLM）为音乐创作打造的 AI 智能体，可以理解成音乐界的 AI Copilot 。

它借助了 LLM 的任务规划能力、工具选择能力和…
IT技术
( twitter.com)

手机语音笔记AI整理：

用Apple Watch或iPhone里的just press record APP快速录音转写为文本。

分享转写文本到快捷指令（调用ChatGPT整理）

AI整理后自动保存到剪贴板。
或者存到Obsidian或备忘录。
IT技术
( www.icloud.com)

RT : 从早上整理数据到现在，终于弄完了。系统共登记黄推1092名，共分为三个等级，分别为机器人、疑似诈骗、普通黄推，其中机器人引流黄推共529名，疑似诈骗黄推551共名，普通黄推共12名。
时政
( twitter.com)

共匪处理学生的方法和俄爹处理战士的方法如出一辙，只不过一个是活人，另一个是死人👇
时政
( twitter.com)

城管划破路边电动车防雨棚？9月18日，重庆市梁平区城市管理局工作人员回应：系交通综合整治行动，对于执法过程中出现的不规范行为，将会上报。
时政
( twitter.com)

今天潘功胜的讲话要点：
1、明年GDP保5的可能性很高。潘行长回应了中国经济现状，提到5%是个合理的增速，延续此前转变的口风，提高质量发展的同时也会提“合理的增速”，明年保5的可能性很高…
时政
( twitter.com)

廚餘
吞掉、吞掉、通通給我吞掉
时政
( twitter.com)