《8.23 中国大模型「顶流群聊」笔记》内容提炼
(其实就是提炼了一下黑体字)
takeaway:
1、算力短缺是个长期。这方面的公司/渠道,会有商业价值。
2、李开复认为:Infra(硬件底层)团队必须比 Modelling(模型)团队还要强大。他说很快大家就会发现,做过大模型 Infra 的人比做大模型的人还要贵、更稀缺;而会做 Scaling Law(扩展定律,模型能力随着训练计算量增加而提升)的人比会做大模型 Infra 的人更稀缺。
3、读通论文也会少走很多弯路,因为有些论文是故意把不奏效的东西写出来,不会读很容易被带偏。
4、李开复就提到一个明确的观点:大模型团队每一个位置都要有人才,Pre Train(预训练)、Post Train(训练后)、Multi-Modal(多模态),Scaling Up(可扩展性),Inference(推理)等等都有其重要性。其中,Infra 团队这部分人才更稀缺,更应该被重视。
5、李开复就指出,尽管在跟 GPT-3、GPT3.5 等 SOTA(state of the art,先进)模型的各种评比中,Llama2 的差距不大。但实际上用起来,今天 Llama2 的能力跟 GPT-4,以及 Bard(谷歌的大语言模型)的下一个版本,差别巨大。
6、当技术换代或者更强的开源模型出来,过去的投入可能完全「打水漂」
7、澜舟科技 CEO 周明也认为,很多原先想做「最好大模型」的企业,其实需要重新思考创业的生态位,选择拥抱开源,在开源的底座上做「为我所用」的东西。
8、李志飞:基于开源模型做,后续的投入门槛并不低,能力要求也不低,用开源只是有效降低了冷启动的成本,对创业者这并不丢人。一个开源模型可能看过 1 万亿 Token 的数据,帮你省了几百万美金,模型厂商需要接着再往下训模型。最终要把模型做到 State of the art(SOTA,特指领先水平的大模型)的水平,数据清洗、预训练、微调、强化学习,各个步骤都不能少,每年算力可能千万美元起,并不见得一下子门槛就没了,更不是使用开源模型就不用继续投入了。
9、真正去跟 B 端客户谈,客户只需要语言理解、多轮对话和一定的推理能力,其他的 AGI(通用人工智能)能力一概不要。
10、模型在这里起到了任务分发的作用,客户最后要的,只要能完成任务就行。
11、一个通用的大模型,并不意味着可以解决所有问题。B 端客户的很多场景,通用大模型放上去并不奏效。
12、李志飞也补充了这一视角,他认为,通用大模型与垂直大模型,各尽其用,鱼与熊掌不可兼得。To B 更多是要垂直和可靠,而通用在于智商,有很强的推理能力、逻辑能力,很丰富的知识。
13、SaaS 领域中越早看到大模型带来的技术变化是「重新定义软件」级别的,敢于拿出「向死而生」的思维来实践这个「重新定义」的进程,基本上几个月就会破除焦虑。
14、用更丰富的、更多种类的大模型具体到客户场景里去产生价值,而不只是一个大模型无限泛化能力去解决所有问题,这是一种必然的趋势。
15、百川智能创始人&CEO 王小川虽然不承认自己在「卷」,但他分享了快速落地的法门:比如搜索技术有积累的团队,对数据处理问题上是有很大帮助的。而且通过引入搜索增强、强化学习,以及其他配套性的全栈技术,确实可以来帮助模型做得更好。
16、BentoML 亚太区负责人刘聪称,和之前传统机器学习相比,海外客户基本都能拿到一些预算来做大模型相关的产品原型或者 Demo。但现在还没有进入生产环境,去为公司产生商业价值,而很多做中间层的创业者看到了这个机会。
17、https://t.co/RFhuFrdqWK 创始人&CEO 张路宇的创业洞察也正源于此,他说,在开发者视角,拿到模型是不够的。他分享了一个数据,在对六万多个应用的样本做分析后,发现现在投产或者接近投产的,这个比例差不多是 5%。有对模型技术不是很满意的,也有团队工作流还没有适应 AI 应用开发的。相应地,张路宇团队针对现在投产可能性更高的应用,去做一些专项能力。比如他们有一个指标叫消费者摩擦度的改进,看 AI 在这件事上能提供多大的价值,提供相应的能力。
18、Zilliz 创始人&CEO 星爵补充了这一视角,他认为一个极度简单的开发栈,是AI民主化的一个前提,基于这个判断,他提出了 CVP(大模型+向量数据库+提示词工程)这样的开发栈。
19、李开复提出了一个不同的视角,Copilot 不算是 all in 大模型的产品。AI native(AI 原生)的应用可能有这样的特征:如果大模型拿掉了,应用就崩溃了,它是一个完全依靠大模型能力的应用。但拿掉 Copilot,Office 软件还是 Office,AI 只是锦上添花。
20、妙鸭,其产品负责人张月光认为,没有大模型,就没有妙鸭,这跟李开复对 AI first,AI native 的思考一致。
他认为,妙鸭作为率先出圈的应用,最重要的是解决了可控性。「我们在应用层特别关注怎么才能让模型更可控,就发现在图像赛道上,已经有一些相对可控的技术了。可能语言赛道上,如果出现这样的东西,会对上层应用创业者是一个质变时刻」。
21、社交+Agent 是被看好的一个机会,并且一定会是最早一批 AI native 的产品,但这很可能需要创业者具备从大模型到产品的「端到端」的构建能力。
22、现在落地的社交场景是角色扮演,用户画像是网文小说爱好者,角色扮演是网文小说的新形式。
23、心识宇宙创始人&CEO 陶芳波解释说,一开始大家对 Agent 的期待很高,但在现有技术条件下发现,Agent 怎么样比 ChatGPT 解决了更多问题,很难被讲清楚。
24、阿里云董事长张勇认为,「中间层」公司的出现,一定是有可能的,也是云计算企业乐见其成的。但这些公司要解决的还是一个核心问题——定义清楚要解决谁的什么问题,定义越清晰,能力越到位,做的东西就能真正「收敛」,真正有商业「穿透力」。张勇认为,企业服务里「开源」远比「节流」重要,人们永远愿意为了发展而付费。
25、张勇还建议创业公司需要一开始就确定自己要服务的客户,是 C 还是 B,是小 B 还是大 B,必须定义好。张勇甚至觉得,做 AI 的公司,如果既做 To 大 B 又做 To 小 B 甚至 To C 是行不通的。
from:极客公园 8.23 中国大模型「顶流群聊」笔记