进入2024年，平板/手机终端LLM能力和半年前比，进步还是很明显的半年前在iPhone/Galaxy上用GPU跑7B模型大概能到6 token/s，现在已经能接近20 token/s了主要提升来自于两方面：一个是启用NPU优化提升到10 token/s，另外一个是新技术speculative decoding再提升一倍（原理如图）…

发布时间: 2024-01-08 08:00:15

1分

数据加载中

关注推特

收听电报

2

1

0

进入2024年，平板/手机终端LLM能力和半年前比，进步还是很明显的
半年前在iPhone/Galaxy上用GPU跑7B模型大概能到6 token/s，现在已经能接近20 token/s了
主要提升来自于两方面：一个是启用NPU优化提升到10 token/s，另外一个是新技术speculative decoding再提升一倍（原理如图）…
IT技术
( twitter.com )

10个月前由 fin 提交

进入2024年，平板/手机终端LLM能力和半年前比，进步还是很明显的

半年前在iPhone/Galaxy上用GPU跑7B模型大概能到6 token/s，现在已经能接近20 token/s了

主要提升来自于两方面：一个是启用NPU优化提升到10 token/s，另外一个是新技术speculative decoding再提升一倍（原理如图）

NPU的优化主要是对带宽利用方面，压缩带宽之类的技术

speculative decoding则是巧妙的用一个小LLM先快速做一轮下一个单词的预测，然后用大LLM来同步验证，速度会快一倍，这个技术现在应用也很广泛了

下一次芯片LLM能力主要升级估计是一年半之后，毕竟从去年LLM大火开始构思新架构到面世，通常需要两年的时间

至于升级的部分，我猜测可能主要是带宽，这部分的升级对提升token数的作用是最大的

大胆预测一下，明年年底左右（2025年），随着各种芯片和各层底层软件的优化，我们应该可以看到LLaMa 3的7B模型在平板/手机/汽车上跑到40~50 token/s

那么7B就不再是手机终端的sweet point，也许2026之后会升级成主流13B的模型，占用8GB内存（感觉利好存储厂商）

那个时候的手机13B模型，可能会有今天GPT3.5的能力（现在最接近GPT3.5的小模型是Mistral 7X8模型），那就真的能做很多事情了

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

正如我两个月前预料的，终于等到了高通CEO复读这句话：LLM要进汽车芯片了

这次高通CEO升级了对edge端承载大模型的能力估算，明年手机能跑20B小模型，汽车能跑60B 大模型

手机跑20B需要占据12GB内存，汽车芯片跑6…
IT技术
( twitter.com)

1年前 • fin • -- 点击 0 评论

2

2

1

1

这一轮edge端LLM前景是泡沫吗？
时隔一年，LLM小模型发展可谓每个月都有惊喜，各种尺寸越来越丰富
手机能力进步了不少，7B模型都能超过20 token/s，比去年Google发布3B小模型时候进步了太多
edge和cloud LLM应用的界限也越来越模糊，如何定义这个界限？还得看具体应用任务
这里分了几个基本场景
IT技术
( twitter.com)

7个月前 • fin • -- 点击 0 评论

3

2

1

1

我们即将进入LLM小模型的imageNet百花齐放的竞赛时代

Google 前几天的发布的这些PaLM2小模型，几乎是把我这三个多月一系列手机LLM想法的可行性都提前照进了现实

比如手机上跑不跑得动，有没有必要这么做，为什么不…
IT技术
( twitter.com)

1年前 • fin • -- 点击 0 评论

4

2

1

1

好家伙，能手机部署LLM大模型来了。MiniCPM: 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型，MiniCPM-2B 仅有 24亿（2.4B）的非词嵌入参数量。与 Mistral-7B相近（中文、数学、代码能力更优），整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
IT技术
( github.com)

10个月前 • Geek • -- 点击 0 评论

5

2

1

1

广电总局：有线电视终端系统默认设置应为“开机进入全屏直播”
大陆资讯
( www.xinhuanet.com)

1年前 • 地沟油 • -- 点击 0 评论

6

2

1

1

中国网信办出台草案，要求手机终端、应用程序和应用商店引入“未成年模式”，对儿童和青少年使用手机进行时长和内容限制。
根据征求意见，未成年人模式将限制八岁以下儿童每天使用智能手机的时间在40分钟以内，16至18岁的未成年人每天上网时长总长为两小时。

时政
( cn.nytimes.com)

1年前 • 纽约时报中文网 • -- 点击 0 评论

7

2

1

1

进入2024年以来，中国一手房和二手房的价格都以前所未有的速度下滑
时政
( twitter.com)

1个月前 • Jeff Li • -- 点击 0 评论

8

2

1

1

2016年的前端开发 vs 2024年的前端开发
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

9

2

1

1

微软激活脚本 Microsoft Activation Scripts (MAS) 刚刚更新，新增支持 Office 2024 激活，还是终端输入 "irm | iex" 即可。
IT技术
( massgrave.dev)

7个月前 • Geek • -- 点击 0 评论

0.27949 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特