通用大語言模型熱度持續(xù)攀升,但如何在細分行業(yè)領域實現(xiàn)突圍,成為眾多大模型企業(yè)的攻堅重點。
近期由國內企業(yè)推出的新一代音樂推理大模型Mureka O1和Mureka V6,讓音樂大模型賽道的競爭進入更多人視野。
AI歌手引發(fā)翻唱熱潮
音樂大模型競爭始于2023年。一場由“AI歌手”引領的翻唱熱潮迅速在網(wǎng)絡上蔓延。孫燕姿、陳奕迅、林俊杰等華語樂壇巨星,紛紛有了AI替身,各大網(wǎng)絡平臺宛如“AI歌手復出演唱會”現(xiàn)場。
“AI歌手背后的技術支撐,是So-vits Svc AI音樂生成技術。”一位長期教網(wǎng)友“訓練AI歌手”的業(yè)內人士莫西(化名)告訴記者。該技術僅需解析少量音頻片段,就能精準模擬歌手音色,盡管在還原歌手個性化唱腔、演唱技巧及風格方面尚有不足,但近乎1:1的音色還原效果,點燃了全民音樂創(chuàng)作的熱情。
隨著音樂創(chuàng)作熱度的提升,多家科技大廠和初創(chuàng)企業(yè)紛紛發(fā)布相關產(chǎn)品投身競爭。其中,尤以Suno V3和Udio的發(fā)布最為引人關注。
2024年3月24日,AI初創(chuàng)公司Suno推出V3音樂生成模型,這款模型僅需幾秒,就能創(chuàng)作出2分鐘的完整歌曲,被業(yè)界贊譽為“音樂ChatGPT時刻的到來”。
兩首由Suno創(chuàng)作的中文歌曲——《桃花箋》和《宮保雞丁》,都曾讓國內音樂人發(fā)出贊嘆。目前,Suno已經(jīng)發(fā)布了V4版本,允許用戶生成音質更高、更好聽、時長更長(4分鐘)的音樂。
而獲得多家知名投資機構青睞的Udio,也推出了相關應用產(chǎn)品。借助社交媒體的傳播,Udio生成的音樂作品在美國社交媒體上迅速走紅。
除初創(chuàng)企業(yè)外,OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen等也相繼亮相。音樂愛好者只需輸入幾句歌詞和風格要求,就能獲取時長約兩分鐘的完整歌曲。這種技術革新,極大降低了音樂創(chuàng)作門檻,讓更多人得以參與其中 。
中國科技企業(yè)競逐全球
在國內,科技巨頭同樣敏銳地捕捉到這一賽道的潛力。昆侖萬維是國內較早推出音樂生成模型的企業(yè)。2024年4月,昆侖萬維發(fā)布第一代音樂生成模型Mureka V1(SkyMusic),收獲了良好的市場反饋。經(jīng)過一年多的升級優(yōu)化,公司近期推出升級版Mureka O1音樂推理大模型,以及Mureka V6模型。
Mureka V6不僅支持純音樂生成,還支持涵蓋英語、中文、日語等10種語言的AI音樂創(chuàng)作。昆侖萬維相關負責人告訴記者,團隊在該模型中引入自研ICL(in-context learning)技術,進一步優(yōu)化了聲場效果,提升了人聲質感和混音設計。
而Mureka O1基于Mureka V6推理優(yōu)化而來,是全球首個引入CoT(Chain of Thought,思維鏈)的音樂模型。該模型在推理過程中融入思考與自我批判機制,顯著提升了音樂品質、創(chuàng)作效率和靈活性。
和國外競品類似,Mureka V6和O1支持多種音樂風格和情感表達。曲風囊括爵士、電子、流行等,情感維度則包含快樂、神秘、悲傷等多種情緒。
昆侖萬維相關負責人告訴記者,Mureka O1作為全球首款音樂推理大模型,在性能方面超越了Suno,且模型登頂SOTA。(記者注:SOTA為“State-of-the-Art”的縮寫,意為“當前最佳技術”或“最前沿水平”,特指某一領域內目前表現(xiàn)最優(yōu)的方法、模型或技術成果。)
除了昆侖萬維外,還有多家大廠推出基于大模型的音樂創(chuàng)作應用。國內字節(jié)跳動旗下的海綿音樂,以及趣丸科技旗下的天譜樂,均在這一賽道嶄露頭角。
海綿音樂是字節(jié)跳動推出的免費AI音樂創(chuàng)作分享平臺,用戶輸入靈感語句或上傳圖片,就能生成個性化音樂作品,平臺還提供豐富的創(chuàng)作工具,助力用戶打造高質量音樂。天譜樂是趣丸科技在2024年7月發(fā)布的全球首個多模態(tài)配樂大模型。產(chǎn)品從一上線就全面接入了其旗下應用唱鴨APP,向所有用戶開放。
國內音樂雙巨頭騰訊音樂和網(wǎng)易云音樂,也分別推出了X·Studio和啟明星這樣的產(chǎn)品,以追趕當前生成式人工智能的浪潮。但或許是巨頭本身憑借強大的版權庫,已經(jīng)能夠收獲足夠的市場份額和商業(yè)回報,所以外界感受到的是,這兩家公司在AI音樂上的投入和活躍度始終不及上述代表性的玩家。
記者觀察:細分領域需要什么樣的大模型?從音樂賽道看AI創(chuàng)新的深層邏輯
在通用大模型陷入“百模大戰(zhàn)”的當下,音樂大模型賽道的激戰(zhàn)正為AI行業(yè)提供新的思考維度。昆侖萬維Mureka O1、Suno V4等產(chǎn)品的崛起,揭示了細分領域大模型突圍的關鍵路徑:技術垂直深耕、場景深度融合與用戶價值重構。
從發(fā)展階段看,音樂大模型的技術競爭已從簡單的音色模仿,轉向系統(tǒng)性的創(chuàng)作能力升級。Mureka O1引入的CoT機制,將推理過程拆解為“構思—批判—優(yōu)化” 循環(huán),這種類人思維機制顯著提升了音樂的連貫性和情感表達。對比早期 So-vits Svc技術僅能實現(xiàn)音色復刻,新一代模型已能處理復雜的編曲邏輯與多模態(tài)輸入,如海綿音樂的“文字 + 圖片”靈感生成模式,展現(xiàn)了技術從單點突破到系統(tǒng)能力構建的躍遷。
場景化落地考驗“最后一公里”能力。音樂創(chuàng)作的民主化浪潮背后,是大模型對行業(yè)痛點的精準解決。Suno V3 的“秒級生成 + 免費開放”策略,將專業(yè)創(chuàng)作工具平民化;天譜樂與唱鴨APP的深度整合,則打通了從創(chuàng)作到分發(fā)的完整鏈路。這種場景化創(chuàng)新帶來的不僅是用戶體驗提升,更是商業(yè)模式的重構——從傳統(tǒng)的版權交易轉向創(chuàng)作生態(tài)共建。
在大模型支持下愈發(fā)普及的音樂創(chuàng)作,則讓價值創(chuàng)造需要超越“技術烏托邦”。事實上,當音樂大模型開始處理中文、日語等多語言歌詞生成,其意義已超越技術本身。Mureka V6通過自研ICL技術優(yōu)化聲場效果,本質上是在構建跨文化的情感連接能力。這種能力的背后,是對細分領域用戶深層需求的洞察:音樂創(chuàng)作不僅是技術輸出,更是文化表達與情感共鳴的載體。
中國企業(yè)在這個領域的崛起,則顯示出中國科技企業(yè)參與全球化競爭的差異化路徑和獨特的創(chuàng)新邏輯。昆侖萬維通過“基礎模型迭代 + 垂直場景優(yōu)化”雙輪驅動,實現(xiàn)技術突破與商業(yè)化平衡;字節(jié)跳動則依托生態(tài)優(yōu)勢,將AI音樂創(chuàng)作嵌入社交媒體傳播鏈。這種“技術 + 生態(tài)”的組合拳,既避免了與國外模型的同質化競爭,又開辟了本土化的價值增長點。
音樂大模型的發(fā)展軌跡表明,細分領域的大模型競爭已進入“精耕時代”。未來的勝出者,不僅需要在技術上保持領先身位,更要在用戶價值創(chuàng)造、場景深度融合和文化表達能力上實現(xiàn)突破。當AI開始理解音樂中的細微情感變化,它所重構的不僅是創(chuàng)作流程,更是人類對藝術表達的認知邊界。這或許正是細分領域大模型的終極意義所在。
校對:王蔚
(點擊圖片進入報名頁面)