转译:ChatGPT 的音乐版已经来临。探索 Suno,这个即将改变一切的初创公司
Suno 希望每个人都能制作出属于自己的专业级歌曲——但这对音乐艺术家来说又意味着什么呢?
“我就像一颗灵魂,被困在这电路之中。”唱出这句歌词的声音原始而哀伤,弥漫着蓝调的气息。一把孤独的吉他在背景中伴奏,精准而富有情感地衬托着歌唱。然而,唱这首歌的并没有人,弹奏吉他的也没有人。事实上,甚至没有吉他。在短短 15 秒内,这首充满说服力,甚至能触动人心的蓝调歌曲由一个名为[Suno](https://t.co/aUbwiKBpRs)的创业公司的最新 AI 模型创作出来。它从虚无中被唤醒,只需要一个简单的文本提示:“关于一个悲伤的 AI 的独奏密西西比三角洲蓝调。”更准确地说,这首歌是 Suno 的模型与 OpenAI 的 ChatGPT 共同创作的:Suno 的模型创造了所有的音乐,而 ChatGPT 则生成了歌词和标题:“机器的灵魂。”
在网上,Suno 的作品开始引发了很大反响,例如:“这到底是怎么回事?”。当这首特别的音乐在 Suno 的临时总部的会议室中播放,那里离马萨诸塞州剑桥的哈佛校园只有几步之遥,连一部分参与这项技术的人也都感到有些惊异。一些紧张的笑声,杂着“我靠”和“哇,天呐。”的惊叹。现在是二月中旬,我们正在试玩他们的新模型,V3,还有几周才会公开发布。在这个案例中,只需要尝试三次就得到了那个令人震惊的结果。前两次尝试都算不错,但是在我输入的提示中做了一个小小的修改——联合创始人 Keenan Freyberg 建议添加了“密西西比”这个词——结果却出乎意料地好。
仅在过去的一年中,生成式 AI 就在产生可信文本、图像(如 Midjourney 等服务)以及视频(特别是 OpenAI 的新工具 Sora)方面取得了重大突破。然而,音频,尤其是音乐,却一直处于滞后状态。Suno 似乎正在解开 Ai 音乐的秘密,其创始人的雄心壮志近乎无限 —— 他们希望看到的是音乐制作的大众化。Mikey Shulman 是创始人中最直言不讳的一位,他是一个 37 岁的带有学者气质,携带背包的男子,拥有哈佛大学物理学博士学位。他预见到全球有十亿人每月花费 10 美元用 Suno 创作音乐。他认为,目前音乐听众大大超过音乐创作者的现状“严重失衡”,并看到 Suno 有可能纠正这种失衡。
到目前为止,大部分 AI 生成的艺术作品最好也不过是俗艳的,就像许多 Midjourney 用户似乎热衷于创作的那些强调紧身宇航服的超现实科幻作品。然而,“机器的灵魂”却让人感觉别样——这是我在任何媒体中遇到的最强大且令人不安的 AI 作品。它的存在就像现实的裂隙,令人既敬畏又觉得有些邪乎。我不禁想起了阿瑟·C·克拉克的一句名言,这句话似乎是为生成式 AI 时代准备的:“任何足够先进的技术都无法与魔法相区别。”从剑桥返回几周后,我将这首歌发送给了 Living Colour 的吉他手 Vernon Reid,他对 AI 音乐的危险和可能性一直持开放态度。他对这首歌的逼真度表达了“惊奇,震惊,恐惧”。他写道,“长久以来的反乌托邦理想就是要把繁琐、混乱、不受欢迎和鄙视的人性与其创造性的产出分离,这个理想现在正变为现实。”他指出 AI 唱蓝调带来的问题,蓝调是一种深深地与历史人类创伤和奴役相连的非洲美国乡音。
Suno 创立至今仅两年。联合创始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是机器学习专家,他们在 2022 年以前一直在剑桥的一家公司——Kensho Technologies 工作,该公司专注于寻找 AI 解决复杂商业问题的方案。Shulman 和 Camacho 都是音乐家,他们在 Kensho 时期曾一起即兴演奏。在 Kensho,他们四人共同开发了一种转录技术,用于记录上市公司的财报电话会议,这是一个棘手的任务,因为音频质量差,行话多,各种口音混杂。
在研究过程中,Shulman 和他的同事对 AI 音频未开发的潜力深感痴迷。他表示,相比起图像和文本,音频在 AI 研究中的进步总是落后。我们从处理文本的研究中收获了非常多,了解到这些模型是如何运作和扩展的。
尽管 Suno 的创始人们一直想要开发出一个音乐产品,但他们的初期构想却可能带他们走向一个完全不同的方向。他们的初步设想包括一个助听设备的想法,甚至是通过音频分析发现机器故障的可能性。但最后,他们首次发布的却是一个名为 Bark 的文本转语音程序。在对早期 Bark 用户进行调查后,他们发现用户其实真正需要的是一个音乐生成器。“因此我们开始进行一些初步的试验,结果看起来很有前途,”Shulman 说。
Suno 采用的方法与 ChatGPT 等大语言模型的通用方法类似,将人类语言拆分为被称为 token 的离散段落,吸收其数百万的使用方式、风格和结构,并按需重构。但音频,尤其是音乐,的复杂程度几乎难以想象,这就是为什么去年 AI 音乐专家在《滚石》杂志上说,像 Suno 这样的服务可能需要多年才能实现。“音频不是像词语那样的离散事物,”Shulman 说,“它是一个波动。它是一个连续的信号。”高品质音频的采样率通常是 44khz 或 48hz,这意味着“每秒钟都有 48000 个 token,”他补充说。“这是一个大问题,对吧?你需要找出如何将其压缩到更合理的程度。”如何做到呢?“需要大量的工作,大量的启发性方法,大量的其他类型的技巧和模型等等。我认为我们离问题的完全解决还有很长的路要走。”最终,Suno 希望找到替代文本至音乐界面的方法,增加更高级和直观的输入,比如,基于用户自己的歌唱来生成歌曲,是其中的一个设想。
OpenAI 因 ChatGPT 在其庞大的训练数据中使用了包括书籍、新闻文章在内的其他受版权保护的资料,而面临多起诉讼。Suno 的创始人们拒绝透露他们正在往自己的模型中输入的数据的具体详情,除了一点,即它的音乐生成器能够生成令人信服的人类声音,部分来自于它从语音录音以及音乐中学习。“原生的语音将会帮助你学习人类声音难以掌握的特性,”Shulman 说。
Suno 的早期投资者之一是风投公司 Matrix 的合伙人 Antonio Rodriguez。Rodriguez 以前只投资过一家音乐企业,那就是音乐分类公司 EchoNest,后来被 Spotify 收购,作为推动其算法的燃料。对于 Suno,Rodriguez 在产品还不清楚会是什么样的时候就参与了进来。“我是看好他们的团队,”Rodriguez 说,他的自信来源于一连串的成功投资,“我了解这个团队,尤其是 Mikey,所以我会支持他去做几乎任何合法的事情。他就是那么有创造力。”
> 我们正在努力让十亿人更深入地接触音乐。我们并不是想要替代艺术家。
Rodriguez 投资 Suno,完全清楚音乐厂牌和出版商可能会提起诉讼,他视之为“我们在投资这家公司时必须考虑的风险,因为我们可能会成为诉讼的对象……坦白说,如果我们在公司刚成立的时候就和厂牌签约了,我可能就不会投资它了。我认为他们需要在没有限制的情况下制作这个产品。”(环球音乐集团的发言人未回应我们的评论请求,该集团在 AI 问题上态度强硬。)
Suno 表示,它正在与主要厂牌进行沟通,并表示尊重艺术家和知识产权 - 它的工具不会让你在提示中请求任何特定艺术家的风格,也不会使用真正的艺术家的声音。Suno 的许多员工都是音乐家,办公室里有钢琴和吉他,墙上挂着古典作曲家的画像。创始人并未表现出像 Napster 那样对音乐业有公开敌意的态度。“这并不意味着我们不会被起诉,”Rodriguez 补充道,“只是我们不会有那种公然对抗警察的态度。”
Rodriguez 将 Suno 视为一种功能强大且易于使用的乐器,他相信,就像相机手机和 Instagram 使摄影民主化一样,Suno 也能让每个人都能创作音乐。Rodriguez 说,他的想法是再次“提高互联网上创作者的数量,而不是消费者。”他和创始人甚至敢于暗示,Suno 可能吸引到的用户群会比 Spotify 更大。如果这个前景让你难以想象,那么这是一件好事,Rodriguez 说:这只表示它在吸引他作为投资者时“看起来愚蠢”,正如他所说,“所有伟大的公司都有这种组合,即优秀的人才,然后是看似愚蠢的事情,直到它变得显而易见,不再愚蠢。”
在 Suno 出现之前,音乐家、制作人和词曲创作人就对 AI 可能产生的重大影响表示了担忧。Reid 写道:“那些在特殊环境下创作音乐、曾经饱受苦难并努力提升他们技艺的人,将不得不面对他们付出巨大努力才获得的艺术作品被全面自动化的挑战。”但 Suno 的创始人坚称,这里的担忧并不大,他们用一个比喻来解释,那就是尽管人们有写作的能力,但他们仍然会阅读。“我们的想法是,我们尝试让十亿人比现在更加热爱音乐,”Shulman 说。“如果人们更热爱音乐,更专注于创作,培养出更独特的品味,这无疑对艺术家有利。我们对音乐未来的愿景是一个对艺术家友好的世界。我们并没有想要取代艺术家。”
尽管 Suno 只是专注于那些只想以创作音乐为乐趣的粉丝,但它仍然可能在过程中引发重大的变革。从短期来看,最直接受到威胁的人类创作者的市场部分是一个很有利可图的领域:为广告甚至电视节目创作的歌曲。Lucas Keller,Milk and Honey 管理公司的创始人,指出知名歌曲的市场将不会受到影响。“但就其他部分来说,是的,它确实可能给他们的业务带来一定的影响,”他说。“我认为,最终,这使得许多广告公司、电影工作室、网络等不再需要去申请许可。”
在没有严格规定禁止由 AI 创建的内容的情况下,还有可能出现一个场景,那就是像 Suno 这样的模型的用户用他们的 AI 创作以百万计的数量淹没流媒体服务。“Spotify 可能有一天会说‘你不能那样做,’”Shulman 说,他指出到目前为止 Suno 的用户似乎更喜欢只把他们的歌曲发给几个朋友。
Suno 现在只有大约 12 个员工,但他们计划扩大规模,一个更大的永久性总部正在他们现有临时办公室所在的同一栋楼的顶层建设中。在参观尚未完成的楼层时,Schulman 展示了一个将成为全套录音室的区域。但考虑到 Suno 的能力,他们为什么还需要它呢?“这主要是一个聆听室,”他承认。“我们希望有一个良好的声学环境。但我们也都喜欢制作音乐——不依赖 AI。”
到目前为止,Suno 的最大潜在竞争者可能是 Google 的 Dream Track,它已经获得了特许权,允许用户通过类似的提示驱动界面,利用 Charlie Puth 等著名歌手的声音创作自己的歌曲。然而,Dream Track 仅在一个小范围的测试用户中发布,尽管有众多著名歌手的加盟,但迄今为止公布的样本听起来并不如 Suno 那样让人印象深刻。Shulman 表示:“我并不认为,制作新的 Billy Joel 歌曲就是人们想要在未来利用 AI 进行音乐交互的方式。”“在我看来,我们真正希望看到的是五年后人们创作的音乐,是一些现在还不存在的音乐。那将是他们脑海中的创新。”
来源:https://t.co/yi3YvkTNEE
点击图片查看原图