转译:《遇见挑战 OpenAI 霸主地位的法国新星》
Mistral 展示其最新大语言模型及与微软的合作
在追求最优秀的大语言模型(LLMs)的竞赛中,有些参赛者似乎还没开始就已经落后了。这些算法是推动生成式人工智能的核心,能够创造出类似人类的文本和其他形式的输出。作为 ChatGPT 的开发者,美国的 OpenAI 显得遥遥领先,它开发了全球最强大的大语言模型 GPT-4,不断吸纳人才、数据和计算资源以打造更加智能的模型。这样一来,它吸引了更多的用户和资本,进一步加强了其模型的复杂性和先进性。
然而,一家名为 Mistral 的法国初创企业正试图打破这种 AI 发展的惯性循环。2月26日,它推出了一款新的大语言模型 Mistral-Large。尽管在参数数量上(衡量模型能力的常见指标)不及 GPT-4,Mistral-Large 在诸如推理等关键性能方面却能与 GPT-4 媲美。Mistral 还推出了一个基于 Mistral-Large 的 ChatGPT 竞争产品,名为 Le Chat(发音为 le shah,与法语中“猫”的发音相同,而非英语的同形异义词)。此外,它还宣布与微软达成合作协议,这是一家已与 OpenAI 有深度合作关系的 AI 业界巨头。微软将小额投资 Mistral,并通过其 Azure 云服务平台提供 Mistral 的模型。
Mistral 的出现证明了这个行业正在变得更加开放和多元化,并非仅限于美国企业的游戏。如果 Mistral 能够对 OpenAI 形成实质性挑战,这将验证行业内一种看法:在生成式 AI 领域,规模并非决定一切。“现在的竞争不仅仅是规模大小的较量,更重要的是创新速度和灵活性,”Mistral 的 CEO Arthur Mensch 表示。
这家法国公司如同其名字所象征的那股冬日西北风一样,成长之迅速令人瞩目。虽然成立不足一年且员工仅有25人,但它的大语言模型 (LLMs) 已在日渐增多的开源模型中脱颖而出。不同于 GPT-4 这类封闭的专有模型,Mistral 的模型开放且可供公众修改,这一特性帮助Mistral 吸引了高达4.9亿欧元(约5.31亿美元)的投资,公司估值超过20亿美元。其投资者包括 Andreessen Horowitz 和 General Catalyst 这样的硅谷顶级风险投资公司,以及谷歌前CEO Eric Schmidt 等科技界重量级人物。
Mistral 的初期成功源于它巧妙地将 AI 的关键技术元素——人才、数据、算力——与越来越受重视的政治因素结合在一起,因为全球政府正深入探讨这项技术的潜能。
从人才开始讲起。Mistral 被视为法国工程教育与美国大型科技公司之间的完美结合。如 Dust 的联合创始人 Stanislas Polu 所言,它是“天作之合”。Mistral 的六位创始人中有三位及其技术骨干——Mensch 先生、Timothée Lacroix 和 Guillaume Lample——都出自法国的精英技术学院。他们和许多顶尖的 AI 科学家一样,在谷歌和 Meta 等美国科技巨头的研究实验室有过工作经验,但区别在于,这三人是在巴黎而非伦敦或硅谷的分支机构研究和开发 LLMs 的。他们是全球为数不多,真正掌握如何培训前沿模型技术的专家之一。
数据是 AI 成功的另一个关键。Mensch 先生对于 Mistral 如何精心策划其训练数据集守口如瓶,认为这是公司的核心竞争力。然而,业内人士透露,Mistral 在数据策划上别具匠心,例如,它能有效过滤掉重复或无意义的信息。这一策略使 Mistral 的模型更加精简高效:其模型的统计权重(即“参数”)仅为数十亿,相比之下,OpenAI 的 GPT-4 模型则估计有1.8万亿个参数(两家公司对模型的确切规模均未透露)。这一优势使得客户能够在自己的电脑上运行 Mistral 的模型,而无需依赖于庞大的数据中心,这一点与许多封闭的专有模型大不相同。
根据 Mensch 先生的介绍,Mistral 公司通过专注于数据整理,相较于竞争对手更高效地利用了计算能力——AI 的关键要素之一。这家公司开发最新模型的成本,远低于 OpenAI 开发 GPT-4 所声称的 1 亿美元。Mistral 的策略还降低了客户使用自己数据对模型进行微调和运行的成本。
从技术角度看,Mistral 等初创企业正享受着“后来者优势”,借鉴了 OpenAI 等公司的前期工作成果。General Catalyst 的 Jeannette zu Fürstenberg 认为,Mistral 的技术实力得到了政治智慧的增强,这在许多政府眼中,国产大语言模型被视为经济和战略优势的情况下,显得尤为重要。
因此,Mistral 联合创始人之一是法国前数字部长 Cédric O,这成为了一个重要的优势。O 先生与法国总统 Emmanuel Macron 保持密切联系,Macron 对 AI 的所有方面都极为关注。当去年欧盟 AI 法案的草案可能迫使 Mistral 公开其数据配方时,O 先生在 Macron 的支持下,成功领导了一场法德反对行动,最终这些规定被从法案中剔除。
现在的问题是,Mistral 这家尚未创造出显著收入的公司,能否将其独特的技术与政治结合转化为盈利。该公司认为,许多企业,尤其是欧洲的企业,希望比 OpenAI 提供的更多地控制他们使用的大语言模型,而且不愿被束缚于另一个美国技术平台。这类客户可能愿意为维护和运营他们的模型支付给 Mistral。
潜在客户面临的一个考虑是,如何对开源模型进行监管。曾经关于开源模型是否会使恐怖分子等不法分子创建生化和网络武器的激烈讨论已经平息。现在,政策制定者更多地讨论的是它们的潜在好处:更大的透明度、更多的创新以及对少数控制技术的大公司依赖的减少。到目前为止,大西洋两岸的监管机构对开源大语言模型持宽容态度。但是,如果这些模型变得更强大或被发现用于不当用途,比如在今年全球众多选举中传播虚假信息,O 先生可能需要再次投入大量工作。
显然,避免政治上的不良反响对 Mistral 来说是十分重要的——但成功的游说背后也隐藏着风险。宽松的监管无疑会催生更多的开源竞争。2月20日,芬兰公司 Silo ai 推出了一款新的大语言模型 (LLM),它的开放程度甚至超过了 Mistral,向外界透露了其训练数据和开发软件的详细信息。预计几个月后推出的新版本,在大部分欧洲语言上的表现将和现在的芬兰语及英语一样出色。
更为关键的是,对于生成式 AI 来说,模型的规模大小是否真的那么重要还是个未解之谜。Openai 发布下一代模型 GPT-5 的时刻将成为一次重要的检验。如果 GPT-5 能远远超越 Mistral-Large 及其他规模较小的开源模型,那么 Mensch 先生关于创新力和速度的讨论可能就不那么有说服力了。然而,在那一刻到来之前,Mistral 的故事仍将吸引众人的目光。■
原文:https://t.co/YHPhGnlfSl
点击图片查看原图