Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转【zhuǎn】化为【wéi】完【wán】整乐曲

2024-9-21 14:12:13来源:品玩


【资料图】

品玩 6 月【yuè】 12 日讯,Meta 近日在 Github 上开源了其 AI 语言模【mó】型 MusicGen,该模【mó】型基于【yú】谷歌 2017 年推出【chū】的【de】 Transformer 模型。如同模型名称所示,MusicGen 主要用【yòng】于音乐生【shēng】成【chéng】,它【tā】可【kě】以将文本和已有【yǒu】的旋律转化为完整乐曲。

研发【fā】团队表示:" 我们使用了 20000 小时【shí】的【de】授权音乐来对训练该模型【xíng】,并采用 Meta 的 EnCodec 编码器将音频数据分解为更小的单元进行【háng】并行处理,进【jìn】而让【ràng】 MusicGen 的运【yùn】算【suàn】效率和【hé】生成速度【dù】都比同类型 AI 模型【xíng】更为出【chū】色【sè】。"

除此之外,MusicGen 还支持文本与旋律的组合输入,例【lì】如【rú】你可以提出生成【chéng】 " 一首轻【qīng】快【kuài】的曲目 " 并同时要求 " 将【jiāng】它与贝多芬的《欢乐颂》结合起来 "。

研发团队还对 MusicGen 的【de】实际表现进行了测【cè】试【shì】。结果【guǒ】显示,与谷歌的 MusicLM 以及 Riffusion、Mousai、Noise2Music 等其他【tā】音乐模型相比,MusicGen 在测试音乐【lè】与文本提示的【de】匹【pǐ】配度以【yǐ】及作【zuò】曲的可【kě】信度【dù】等指标上【shàng】表现【xiàn】更好,总体而言略【luè】高于【yú】谷歌 MusicLM 的水平。

最新资讯

股票软件