site stats
用FP16精度让34B的 Code LLama 跑在 M2 Ultra上,推理速度超过每秒20个token。这通常需要4块高端GPU才能运行,现在用800GB/s带宽的M2 Ultra也可以。答案是 Speculative Sampling 👍
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多