在各大科技企業不斷嘗試“AI+萬物”的當下,AI能做什麼、做到什麼程度,成為了行業激烈辯論的話題。
11月20日,國外音樂創作平台Suno發佈V4版本,允許用户生成音質更高、最長4分鐘的音樂作品。
Suno的不斷迭代讓廣大網友“玩”了起來。把表情包、自拍、現場Live圖,甚至聊天記錄丟給Suno,就可以生成一段背景音樂;如果用上Persona功能,用户就可以複用喜歡歌曲中的人聲、風格和節奏。用上圖片和視頻,再加幾句提示詞,就能提高生成音樂的準確率,合理地向Suno表達“我想創作什麼樣的音樂”。
有人説,AI能讓生活中的一切元素,都變成歌曲。事實上,在國內市場乃至全球所有華語地區,已然開始出現“Suno平替”甚至在中文人聲等領域超越Suno的產品了。
一、“AI音樂三巨頭”格局初現
技術水平上看,崑崙天工的SkyMusic、趣丸科技的天譜樂、字節旗下的海綿音樂,可以被看做“國產AI音樂三巨頭”。
今年4月,崑崙萬維推出了中國首款對外開放的AI音樂生成工具天工SkyMusic,基於全球最大的開源 MoE 大模型——天工 3.0 超級大模型的支持,SkyMusic能夠做到發音清晰、無異響,在高音演唱技巧等方面表現優秀。
在自研大模型的支撐下,崑崙萬維也於今年8月發佈了AI流媒體音樂平台Melodio和AI音樂商用創作平台 Mureka。前者用户只需要根據場景或心情輸入Prompt(提示詞),便會持續生成相應風格的定製化音樂。在生成音樂或播放過程中,還可以修改文案,改變音樂生成內容、實時查詢生成的歌詞,並對喜歡的片段進行保存、分享。
此外,字節跳動旗下的智能AI助手豆包也上線了音樂生成功能,字節跳動也推出了其AI音樂產品——海綿音樂,用户只需在豆包中輸入主題或歌詞,設定音樂風格、情緒及音色,便能快速生成一首約1分鐘的詞曲。
當然,解決了詞曲和音樂的生成,僅僅是AI音樂的第一步。在產品具備更加全面的功能之前,音樂大模型還需要解決歌曲中的一個重要部分——人聲。
在前不久結束的36氪WISE大會上,現場播放的主題曲、暖場、串場等音樂,都是在AI音樂創作平台天譜樂的支持下特別創作的。在這其中,天譜樂不僅通過“AI生曲”為歌曲提供了音樂“骨架”,還通過專業級別的人聲效果,為歌曲填充了“血肉”,讓AI能夠完整演唱一首優秀的原創作品。
據悉,不同於大部分大規模研發團隊,天譜樂團隊的核心研發成員構成多為技術和音樂背景的複合型人才,更懂得人類情感想要表達的好音樂是什麼樣子,再通過技術創作去呈現更有音樂審美與應用價值的產品。
二、AI技術的突破,正在改變音樂行業
全球音樂市場的規模不容小覷,並持續呈現增長狀態。《2024中國音樂產業發展總報吿》顯示,2023年中國數字音樂產業規模達到893.45億元,中國網絡音樂用户規模達到7.26億。
事實上,中國市場是AI應用有更多可能性的地方。“相對於美國硅谷巨頭,中國AI大模型優勢在於更快更低成本實現商業落地”李開復曾在公開場合表示。
從技術和產品的角度來看,國內頭部產品和海外產品有着不同的側重點。
Suno的技術路線則更側重於音頻模型,端到端直接生成完整音樂,這使得生成的作品整體性強,但編輯/分軌較為困難,且在中文區的AI學習和生成能力相對較弱,對國內用户來説有一定門檻。
國內以天譜樂為例,其背後是全球首個多模態音樂生成大模型,集成了圖片理解算法、旋律生成算法、視頻理解算法、配器識別算法等技術,為了實現這樣的的效果,天譜樂大模型在長序列音樂語意建模和高質量音頻空間建模方面,完成了技術突破,還原了音樂音頻在高維空間的連續信號表徵。
相比之下,天譜樂大模型的多模態輸入能力更強,它不僅支持文生音樂、音頻生音樂,還首創了圖片、視頻生成音樂功能,是全球第一個嘗試的AI產品,比Suno還要早了3個月。用户僅需上傳相冊中的一張圖片或一段不超過60秒的視頻,便可以生成曲風豐富、歌詞與人聲兼備的歌曲。
不同的側重點,使得Suno和天譜樂所覆蓋的用户圈層也有所不同,後者由於在人聲方面更具優勢,無論是普通用户還是專業人士,都能利用這一功能為Vlog、家庭錄像添加背景音樂或創作個性化歌曲,表達情感態度。
在今年WISE大會上,獨立音樂人曾翊雄現場演唱了原創歌曲《堵》,天譜樂則根據原歌詞進行二創,生成了三首風格各異且質量優良的新歌,這三首AI新歌都具備較高的完成度。
天譜樂負責人賈朔在現場表示,對於專業音樂人來説,AI能夠幫助他們迅速將自己的創意生成各種風格版本,提高創意驗證的效率,來幫助音樂人去完成作品。
每個人都有自己與世界交流的介質,音樂是人類表達情感的載體之一。然而,音樂創作又因門檻較高,而限制了更多人的表達的可能性,因此,AI音樂工具的本質,是通過技術創新降低音樂創作門檻,讓用户不再受限於專業的樂理知識,就可以輕鬆通過音樂創作記錄生活的切片,是一種技術平權的追求。
AI音樂技術的突破,也將在科技發展史上留下濃墨重彩的一筆。
三、我們仍需不斷尋找AI落地的正確答案
技術的發展帶來了新產品、新生態和新的用户習慣,對AI來説,技術成熟只是發展的第一步,體驗場景才是落地的關鍵。
ChatGPT的出現,讓AI Agent成為了可能,同時也大幅提升了代碼優化、數據提煉、資料檢索等工作的效率。那麼就AI音樂來説,最先落地應用的領域,可能不是消費音樂,而是遊戲、短劇、影視劇等有着大量音樂需求的場景。
比如,在影視與廣吿等內容行業,AI 音樂能夠快速生成定製化音樂,節省製作成本和時間,且可根據具體場景、情節和情感氛圍精準創作適配音樂。布樂科技CEO 、知名遊戲監製楊晟認為,在藝術創作的過程中,藝術家可以指揮AI,就像指揮一個樂團一樣,讓作品更好地呈現,這也是整個行業努力的重要方向。
當然,無論是To B還是To C,也無論工具型還是社交型產品,AI大模型都需要找到合適的落地場景,這已經成為行業的普遍共識。
對於大模型的發展,零一萬物CEO、創新工場董事長李開復認為,與當年的AI四小龍類似,今天的AI企業需要從大模型起家,打造出可持續的商業模式,並在商業賽道中證明自己能夠接受二級市場的考驗——即公司必須有收入、在增長且可盈利,才能最終走向成功。
而AI音樂作為其中的重要細分賽道,也已經開始展現其強勁的發展能力。相關報吿顯示,2023年AI音樂產業已價值3億美元,預計到2028年可能突破30億美元,平均每年增長率將達到60%左右。
或許我們仍需不斷尋找AI音樂在不同場景中最適配的方式,不斷探索技術的極限,解決作品可能涉及的版權、文化衝突等問題,但至少AI帶來的創意已經讓我們感到驚歎。
“就像AlphaGo擊敗頂級棋手時棋壇的感受相似,”一名音樂人吿訴36氪。“也許未來更加成熟的AI真的會改變音樂乃至更多行業,但我依然相信人和AI是各有分工的。”