Groq. 最后一个字母是 Q.
Lepton 的 GPU inference 做得已经是业界顶尖了,这是非常值得自豪的成果。
Groq 的技术非常独特,采用 SRAM,但从大规模部署看,目前还处于 chasm 之前。许多基于 GPU 的 model serving 公司现在都是 chasm 之后,许多已经有了大的客户。如果 GROQ 铺展开来,大厂找台积电定制一下芯片也是分分钟。
但 SRAM 现在集成度有限,制程都是高纳米的,而且每个存储单元要刻6个晶体管,在芯片上平铺开来占地最多。而每个 DRAM 只要一个三极管一个电容,而且工艺上可以 3D 堆叠。Nvidia 的 HBM 在 GPT4这种大模型上,在可见的几年内必不可少。SRAM 制程做不到那么高的集成度和总内存量。再横向扩展网络稳定性和延时会成为更大的瓶颈。
说个有趣的故事,当年 Facebook 在贾扬清走后负责 Pytorch 的工程总监 Lin Qiao 去年出来创业,成立了 fireworks 和 Lepton类似,现在也是做大模型的部署。
Fireworks 有我许多的朋友,有许多 GPU 优化好手。在这个强手如林的世界里,这几家公司都做到比 Azure 快那么多,是非常了不起的。大家各自发展业务,我觉得没什么需要“急”的。
从 Facebook 的 Llama 开源到许多人出来做开源模型的部署,最后大家都还认识都是前同事,这是我们这个时代小世界的一个写照。