按照演讲者的结论:AI 的性能,至少在目前的形态下,取决于它的训练数据。因此,过去和现在的 AI 主要依赖于人类生成的数据,但未来可能会依赖于 AI 生成的数据。很多可能担心合成数据质量不高,可能存在偏见,但是,越来越多的证据表明,这种方法是有效的。
例如,使用 Meta 的 SAM(Segment Anything)进行图像分割就是 AI 合成图像分割注释的一个例子。虽然有人类的验证帮助,但是单靠人类无法对如此多的图像样本进行注释。这是另一个例子。Microsoft 的论文"Textbooks are all you need"是另一个例证。当你有真正高质量的数据,例如教科书级别的数据,经过合成,你实际上可以在许多、许多不同的任务中与规模更大的对手竞争。可能在某些方面,它并不像大型模型那样具有广泛的适用性,但这对于满足许多商业需求来说是非常出色的。你可能不需要通才,你可能需要专家。
此外,"Textbooks are all you need"论文的观点也证明了,数据质量是最重要的。这并不仅仅关乎数量,更在于质量。DALL-3 就是一个很好的例子。为什么它会突然之间超越了 DALL-E 2 呢?很大程度上是因为它有更好的图像标注。但是,究竟是哪些更好的图像标注呢?在此之前,我们使用了所有好的图像标注。他们将这些图像标注进行了合成。这就是我们获得高质量数据的方式。
所以,AI 的质量更关乎数据的质量、新颖性和多样性,而不仅仅是数量。
* 引言
好的。我来这里要跟你们分享一些看似不可能实现的可能性。
* 介绍
去年,当有人问 Sam Altman 如何让印度的创业公司为印度创建基础模型时,他的回答是,不用费那个劲了。这根本没希望。
但如果没有这些,我们如何能和更大的模型一较高下呢?关键的直觉是当前的 AI 能做得多好取决于它所接受的训练数据。我们必须有某种优势。我们不能没有任何优势,所以那个优势将来自数据。顺便说一下,我们必须合成数据,因为如果数据已经存在于互联网上某处 OpenAI 已经对其进行了爬取,那就不是你的优势了,他们也有,所以你必须创造出一些真正新颖的东西,比现有的东西更好。
因为现在的做法就是让模型尽可能地大。越大越好。但是我们人类,无法像模型那样记住所有的上下文,比如一百万个 Token。没有人能记住上下文中的一百万个 Token。你会立刻抽象出我刚才告诉你的所有事情。但是你仍然记得我到目前为止说的所有话。这就是人类的惊人智能,我们还不知道如何通过 AI 模型有效地实现这一点。我相信这是可能的。我们只是还没有尽力去探索,因为我们被大规模的迷惑了。
那么,我们是如何做到这一切的呢?你可能会惊讶地发现,我们的方法其实非常简单。有一种叫做后缀数组的数据结构,可能并不是所有的算法课程都会教授,但是有一些课程会教授。这是一种我们非常小心地实施的数据结构。所以我们用后缀数组索引整个网络语料库。事实上,我们并没有预先计算这些 n-gram 的统计数据。我们只是预先准备好这个数据结构。当你进行特定的查询时,我们会实时计算。多亏了这个数据结构——我们可以做得非常快,尤其是在使用 C++ 实现的情况下。我知道现在 AI 研究中,C++ 可能不是大家首选的语言,但实际上,使用 C++ 会让程序运行得更快。
这样做的成本有多低呢?其实我们只花了几百美元就索引了全部内容,而且,为 API 服务的成本也相当低。即便没有 GPU,它的速度也非常快。不同类型的 API 调用的延迟只有几十毫秒。你可以利用这个做很多事情。我现在可以分享的一点是,你可以用我们的 Infinigram 插值你的神经语言模型,降低困惑度,这是常用于评估语言模型质量的指标。我认为这只是我们能做的事情的冰山一角。实际上,我还在研究一些我希望能分享,但现在还不能告诉你们的东西。
不过我们已经开始提供这些 API 端点。从几周前开始计数,到现在我们已经提供了 6000 万次 API 调用,这还不包括我们自己的使用。我非常想知道人们是如何使用我们的 InfiniGram 的。
* 总结
总结一下,我的演讲主要是说,AI 的性能,至少在目前的形态下,取决于它的训练数据。因此,过去和现在的 AI 主要依赖于人类生成的数据,但未来可能会依赖于 AI 生成的数据。我知道人们对此有很多担忧,可能担心质量不高,可能存在偏见。因此,你不能以普通的方式来进行这项工作。你应该以更有创新性的方式来进行。但是,越来越多的证据表明,这种方法是有效的。
例如,使用 Meta 的 SAM(Segment Anything)进行图像分割就是 AI 合成图像分割注释的一个例子。虽然有人类的验证帮助,但是单靠人类无法对如此多的图像样本进行注释。这是另一个例子。Microsoft 的论文"Textbooks are all you need"是另一个例证。当你有真正高质量的数据,例如教科书级别的数据,经过合成,你实际上可以在许多、许多不同的任务中与规模更大的对手竞争。可能在某些方面,它并不像大型模型那样具有广泛的适用性,但这对于满足许多商业需求来说是非常出色的。你可能不需要通才,你可能需要专家。
此外,"Textbooks are all you need"也意味着,质量是最重要的。这并不仅仅关乎数量,更在于质量。DALL-3 就是一个很好的例子。为什么它会突然之间超越了 DALL-E 2 呢?很大程度上是因为它有更好的图像标注。但是,究竟是哪些更好的图像标注呢?在此之前,我们使用了所有好的图像标注。他们将这些图像标注进行了合成。这就是我们获得高质量数据的方式。当然,你需要小心翼翼地进行,但是有越来越多的任务特定符号知识蒸馏的例子,包括我自己实验室的工作,都证明了这是可行的。这真的可以让小模型发挥出惊人的潜力。