國產AI音樂大模型的“三足鼎立”

格隆匯 12-04 11:29

在各大科技企業不斷嘗試“AI+萬物”的當下，AI能做什麼、做到什麼程度，成為了行業激烈辯論的話題。

11月20日，國外音樂創作平台Suno發佈V4版本，允許用户生成音質更高、最長4分鐘的音樂作品。

Suno的不斷迭代讓廣大網友“玩”了起來。把表情包、自拍、現場Live圖，甚至聊天記錄丟給Suno，就可以生成一段背景音樂；如果用上Persona功能，用户就可以複用喜歡歌曲中的人聲、風格和節奏。用上圖片和視頻，再加幾句提示詞，就能提高生成音樂的準確率，合理地向Suno表達“我想創作什麼樣的音樂”。

有人説，AI能讓生活中的一切元素，都變成歌曲。事實上，在國內市場乃至全球所有華語地區，已然開始出現“Suno平替”甚至在中文人聲等領域超越Suno的產品了。

一、“AI音樂三巨頭”格局初現

技術水平上看，崑崙天工的SkyMusic、趣丸科技的天譜樂、字節旗下的海綿音樂，可以被看做“國產AI音樂三巨頭”。

今年4月，崑崙萬維推出了中國首款對外開放的AI音樂生成工具天工SkyMusic，基於全球最大的開源 MoE 大模型——天工 3.0 超級大模型的支持，SkyMusic能夠做到發音清晰、無異響，在高音演唱技巧等方面表現優秀。

在自研大模型的支撐下，崑崙萬維也於今年8月發佈了AI流媒體音樂平台Melodio和AI音樂商用創作平台 Mureka。前者用户只需要根據場景或心情輸入Prompt（提示詞），便會持續生成相應風格的定製化音樂。在生成音樂或播放過程中，還可以修改文案，改變音樂生成內容、實時查詢生成的歌詞，並對喜歡的片段進行保存、分享。

此外，字節跳動旗下的智能AI助手豆包也上線了音樂生成功能，字節跳動也推出了其AI音樂產品——海綿音樂，用户只需在豆包中輸入主題或歌詞，設定音樂風格、情緒及音色，便能快速生成一首約1分鐘的詞曲。

當然，解決了詞曲和音樂的生成，僅僅是AI音樂的第一步。在產品具備更加全面的功能之前，音樂大模型還需要解決歌曲中的一個重要部分——人聲。

在前不久結束的36氪WISE大會上，現場播放的主題曲、暖場、串場等音樂，都是在AI音樂創作平台天譜樂的支持下特別創作的。在這其中，天譜樂不僅通過“AI生曲”為歌曲提供了音樂“骨架”，還通過專業級別的人聲效果，為歌曲填充了“血肉”，讓AI能夠完整演唱一首優秀的原創作品。

據悉，不同於大部分大規模研發團隊，天譜樂團隊的核心研發成員構成多為技術和音樂背景的複合型人才，更懂得人類情感想要表達的好音樂是什麼樣子，再通過技術創作去呈現更有音樂審美與應用價值的產品。

二、AI技術的突破，正在改變音樂行業

全球音樂市場的規模不容小覷，並持續呈現增長狀態。《2024中國音樂產業發展總報吿》顯示，2023年中國數字音樂產業規模達到893.45億元，中國網絡音樂用户規模達到7.26億。

事實上，中國市場是AI應用有更多可能性的地方。“相對於美國硅谷巨頭，中國AI大模型優勢在於更快更低成本實現商業落地”李開復曾在公開場合表示。

從技術和產品的角度來看，國內頭部產品和海外產品有着不同的側重點。

Suno的技術路線則更側重於音頻模型，端到端直接生成完整音樂，這使得生成的作品整體性強，但編輯/分軌較為困難，且在中文區的AI學習和生成能力相對較弱，對國內用户來説有一定門檻。

國內以天譜樂為例，其背後是全球首個多模態音樂生成大模型，集成了圖片理解算法、旋律生成算法、視頻理解算法、配器識別算法等技術，為了實現這樣的的效果，天譜樂大模型在長序列音樂語意建模和高質量音頻空間建模方面，完成了技術突破，還原了音樂音頻在高維空間的連續信號表徵。

相比之下，天譜樂大模型的多模態輸入能力更強，它不僅支持文生音樂、音頻生音樂，還首創了圖片、視頻生成音樂功能，是全球第一個嘗試的AI產品，比Suno還要早了3個月。用户僅需上傳相冊中的一張圖片或一段不超過60秒的視頻，便可以生成曲風豐富、歌詞與人聲兼備的歌曲。

不同的側重點，使得Suno和天譜樂所覆蓋的用户圈層也有所不同，後者由於在人聲方面更具優勢，無論是普通用户還是專業人士，都能利用這一功能為Vlog、家庭錄像添加背景音樂或創作個性化歌曲，表達情感態度。

在今年WISE大會上，獨立音樂人曾翊雄現場演唱了原創歌曲《堵》，天譜樂則根據原歌詞進行二創，生成了三首風格各異且質量優良的新歌，這三首AI新歌都具備較高的完成度。

天譜樂負責人賈朔在現場表示，對於專業音樂人來説，AI能夠幫助他們迅速將自己的創意生成各種風格版本，提高創意驗證的效率，來幫助音樂人去完成作品。

每個人都有自己與世界交流的介質，音樂是人類表達情感的載體之一。然而，音樂創作又因門檻較高，而限制了更多人的表達的可能性，因此，AI音樂工具的本質，是通過技術創新降低音樂創作門檻，讓用户不再受限於專業的樂理知識，就可以輕鬆通過音樂創作記錄生活的切片，是一種技術平權的追求。

AI音樂技術的突破，也將在科技發展史上留下濃墨重彩的一筆。

三、我們仍需不斷尋找AI落地的正確答案

技術的發展帶來了新產品、新生態和新的用户習慣，對AI來説，技術成熟只是發展的第一步，體驗場景才是落地的關鍵。

ChatGPT的出現，讓AI Agent成為了可能，同時也大幅提升了代碼優化、數據提煉、資料檢索等工作的效率。那麼就AI音樂來説，最先落地應用的領域，可能不是消費音樂，而是遊戲、短劇、影視劇等有着大量音樂需求的場景。

比如，在影視與廣吿等內容行業，AI 音樂能夠快速生成定製化音樂，節省製作成本和時間，且可根據具體場景、情節和情感氛圍精準創作適配音樂。布樂科技CEO 、知名遊戲監製楊晟認為，在藝術創作的過程中，藝術家可以指揮AI，就像指揮一個樂團一樣，讓作品更好地呈現，這也是整個行業努力的重要方向。

當然，無論是To B還是To C，也無論工具型還是社交型產品，AI大模型都需要找到合適的落地場景，這已經成為行業的普遍共識。

對於大模型的發展，零一萬物CEO、創新工場董事長李開復認為，與當年的AI四小龍類似，今天的AI企業需要從大模型起家，打造出可持續的商業模式，並在商業賽道中證明自己能夠接受二級市場的考驗——即公司必須有收入、在增長且可盈利，才能最終走向成功。

而AI音樂作為其中的重要細分賽道，也已經開始展現其強勁的發展能力。相關報吿顯示，2023年AI音樂產業已價值3億美元，預計到2028年可能突破30億美元，平均每年增長率將達到60%左右。

或許我們仍需不斷尋找AI音樂在不同場景中最適配的方式，不斷探索技術的極限，解決作品可能涉及的版權、文化衝突等問題，但至少AI帶來的創意已經讓我們感到驚歎。

“就像AlphaGo擊敗頂級棋手時棋壇的感受相似，”一名音樂人吿訴36氪。“也許未來更加成熟的AI真的會改變音樂乃至更多行業，但我依然相信人和AI是各有分工的。”

更多內容

站點服務

關於

協議聲明