3

文字生成音乐!Meta刚刚发布了“音乐界的ChatGPT”,还是“开源的”!

 11 months ago
source link: https://awtmt.com/articles/3690983
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

文字生成音乐!Meta刚刚发布了“音乐界的ChatGPT”,还是“开源的”!

卜淑情 发表于 2023年06月13日 06:31
摘要:练习时长两年半,MusicGen打败了谷歌MusicLM?

从AI孙燕姿到MusicGen,从演唱到创作,AI已经全面入侵音乐领域。

近日,Meta在Github上开源了AI模型MusicGen,引发外界关注。

顾名思义,MusicGen是有一个音乐生成AI模型,可以根据文本和旋律提示创作音乐。

62069ee0-470e-446d-b113-ce16c2cceafc.png

该模型基于谷歌2017年推出的Transformer模型,并采用Meta的EnCodec编译器将音频数据分解为小单元处理。

上周晚些时候,Meta人工智能研究工程师Felix Kreuk在Twitter上展示了MusicGen的功能。

4b832cf1-0fb2-4ad9-aa36-bfb3c5cb5f3a.png

在视频演示中,MusicGen分别将两个古典音乐片段改编成80年代的流行音乐和现代嘻哈音乐,它还根据提示加入了乐器、电子音等元素。

07aeb3e7-f4ca-4207-befb-c987b3dc7011

根据Meta的介绍,MusicGen接受了20000小时的音乐训练,相当于人不吃不喝不睡觉训练833天。

该模型还使用了来自媒体内容服务商ShutterStock和Pond5 10000首“高质量”授权音乐和390000首纯音乐。

那么,练习时长两年半的MusicGen,够格出道吗?

Meta自己将MusicGen与市面上已有的音乐创作软件MusicLM(谷歌旗下)、Riffusion以及Mousai进行了比较。

对此,华尔街见闻挑选了其中三个例子:

提示1. 创作一首流行舞曲,要求旋律朗朗上口,加入热带打击乐因素,节奏欢快,适合沙滩场景。

MusicGen 01
00:00 / 00:00

提示2. 编一首气势宏伟的管线交响乐曲,加入雷鸣般的打击乐器、有史诗感的铜管乐和高昂的弦乐,创造一个适合英雄战斗的电影背景音乐。

提示3. 创作一首经典雷鬼音乐,加入电吉他独奏。

不难听出,MusicGen的表现似乎更加惊艳。

据Meta称,无论在与文本的匹配度上,还是在作曲的可信度上,MusicGen在四者之间的表现都更胜一筹。

为了验证MusicGen是不是真有那么好,科技媒体Techcrunch记者Kyle Wiggers亲身试用了MusicGen和MusicLM,对比两位AI音乐家的作品。

先说他的结论:

我得说,(MusicGen )还不至于让人类音乐家丢了工作,但它创作的音乐相当优美,至少对于“环境音乐”这样的基本提示语来说是这样,而且在我听来,它与谷歌的AI音乐生成器MusicLM相比,不分伯仲(如果不是稍微好一点的话)。

Wiggers先是抛出了一个简单的提示语:爵士、电梯音乐。

MusicGen和MusicLM拿出了以下作品:

07aeb3e7-f4ca-4207-befb-c987b3dc7011

MusicGen

然后,Wiggers增加考试难度,让AI创作一首低保真、慢节奏的Electro Chill(一种融合了电子音乐和放松氛围的音乐风格)音乐,要求使用自然、真实的声音。

两大模型作品如下:

07aeb3e7-f4ca-4207-befb-c987b3dc7011

对于第二个提示,Wiggers发现,MusicGen在音乐连贯性方面出人意料地胜过MusicLM,其作品很容易在YouTube上的一个音乐全天直播频道Lofi Girl上找到来源。

最后,Wiggers尝试让MusicGen和MusicLM创作具有知名作曲家George Gershwin风格的钢琴小曲。

他发现,谷歌在MusicLM的公开版本中嵌入了一个过滤器,阻止用户提示特定艺术家,以保护作者版权。

相比之下,MusicGen就没有这样的过滤器,最终创作出了所谓George Gershwin风格的钢琴曲。

但在Wiggers看来,这首曲子并没有那么好。

07aeb3e7-f4ca-4207-befb-c987b3dc7011

值得一提的是,目前市面上存在许多文本、语音、图片甚至是视频生成模型,但优质的音乐生成模型少之又少。

根据在线科学预印本存储库arXiv中找到的研究文件,音乐生成的主要挑战之一是需要运行全频谱,这需要更密集的采样,更不用说复刻音乐的复杂结构和乐器的配合了。

MusicGen能否成为一款优秀的音乐生成模型,还有待更多用户的验证。

用户可以通过Hugging Face的API体验MusicGen,但生成音乐可能需要一些时间,具体取决于同时在线的用户数量。

目前,Meta尚未提供用于训练模型的代码,但提供了预训练模型。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK