大模型Scaling law撞墙,基本从年初PHD们吐槽到了现在大佬们公开谈论
作为半导体从业者,这集看了太多遍不能更熟悉了
芯片行业scaling law统称摩尔定律,各路媒体在十五年前就开始悲观的展望摩尔定律消亡
有一个反直觉,或者说主流媒体这几年并不报道的是,制程摩尔定律,竟然比二十年前更快了
摩尔定律的本质,是很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加造成的幻象:芯片每单位面积能容纳的gate数量指数型增长
实际上现在的所谓4nm/N3E制程节点早就成了数字游戏,电路gate的实际尺寸仍然是20nm,只不过gate密度是等效3nm
这就和AI目前的情况一样,LLM的pretraining阶段的大力出奇迹,只是目前阶段投入回报比极佳(最佳)scale up的路线
每个技术曲线的scaling law都是有寿命的,不存在一招鲜吃遍天的情况
AI的LLM的pretraining的撞墙,在AI领域发展长河上,和芯片制程里的众多革命性S型技术曲线一样(比如double patterning,EUV),是一项亮眼的,值得反复在教课书上称颂的里程碑式技术曲线
正如摩尔定律早已经不是侠义的摩尔定律,而是广义的摩尔定律一样
比如在计算机架构上,Domain specific architecture能玩的花样也越来越多,俨然成了新一道S曲线的快速增长期
如果看前几年的hotchip论文集,很明显,摩尔定律不仅没有停滞,反而在加速,仿佛回到了十几二十年前架构的百家争鸣的新黄金时代
看多了半导体的摩尔定律历史,再看LLM pretraining阶段scaling law撞墙,在更大尺度上的AI发展看起来,不会是什么阻碍
AI的发展,仍然会维持每十年软硬件加速六个数量级的指数发展作为背景板,会有各种广义的加速路线来维持这个指数型发展
中间没有S型技术曲线的真空期,确实会延缓一些速度,比如2012~2017年的摩尔定律。但即便如此,前一代的技术红利商业化还能吃很久很久,即便是supervised learning,现在仍然是在已经很惊人的体量上保持着夸张的增速呢
点击图片查看原图
点击图片查看原图
点击图片查看原图