进入2024年,平板/手机终端LLM能力和半年前比,进步还是很明显的
半年前在iPhone/Galaxy上用GPU跑7B模型大概能到6 token/s,现在已经能接近20 token/s了
主要提升来自于两方面:一个是启用NPU优化提升到10 token/s,另外一个是新技术speculative decoding再提升一倍(原理如图)
NPU的优化主要是对带宽利用方面,压缩带宽之类的技术
speculative decoding则是巧妙的用一个小LLM先快速做一轮下一个单词的预测,然后用大LLM来同步验证,速度会快一倍,这个技术现在应用也很广泛了
下一次芯片LLM能力主要升级估计是一年半之后,毕竟从去年LLM大火开始构思新架构到面世,通常需要两年的时间
至于升级的部分,我猜测可能主要是带宽,这部分的升级对提升token数的作用是最大的
大胆预测一下,明年年底左右(2025年),随着各种芯片和各层底层软件的优化,我们应该可以看到LLaMa 3的7B模型在平板/手机/汽车上跑到40~50 token/s
那么7B就不再是手机终端的sweet point,也许2026之后会升级成主流13B的模型,占用8GB内存(感觉利好存储厂商)
那个时候的手机13B模型,可能会有今天GPT3.5的能力(现在最接近GPT3.5的小模型是Mistral 7X8模型),那就真的能做很多事情了
点击图片查看原图