site stats
通过批处理并行化,LLM推理整体吞吐量速度提高60倍,这项工作潜力可能会很大,优化了如此多,推理市场硬件需求可能会比之前预想的要小的多用一个A10推理卡跑LLaMA2的7B模型,单个推理40 tokens/s,但当128个推理并行时,每个推理仍能得到10+token/s,优化之后甚至能达到总吞吐量每秒2400 tokens…
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多