×

掃碼關注微信公眾號

挖貝網> 產業> 詳情

百度商業發布全球首個中文音視頻一體化生成模型MuseSteamer

2025/7/3 10:05:42     

在7月2日舉辦的百度AI DAY開放日上,百度商業研發團隊正式推出自研視頻生成模型MuseSteamer。該模型通過突破性技術創新,為全球視頻創作者帶來高效、專業的智能化解決方案。據了解,MuseSteamer提供了Turbo版、Lite版、Pro版及全系列有聲版模型矩陣,通過差異化設計滿足各類用戶不同創作需求。


image.png


“所思即所得”,重新定義敘事藝術邊界

百度商業體系商業研發總經理劉林在會上詳細介紹了MuseSteamer的核心突破。他指出,指令理解與遵循是多模態大模型基礎也是有挑戰的素質,MuseSteamer具備極致遵循力,可以真正幫助創作者實現“所思即所得”的創作自由。


image.png


在MuseSteamer生成的古裝武俠視頻中,一位頭戴斗笠、身著青衫的俠客正與巨型怪物展開驚心動魄的搏斗。該技術通過多模態大模型實現高度逼真的動態內容創作:斗笠下,俠客眉頭緊鎖,目光銳利,即使在特寫鏡頭和復雜光影條件下,面部微表情依然自然生動。同時,視頻還展現了MuseSteamer強大的運鏡能力:以俯拍鏡頭展現龐大怪物的壓迫感,隨即切換到俠客第一視角的仰拍,后以環繞運鏡呈現雙方交鋒的精彩瞬間。這些專業級鏡頭語言的自動化實現,讓普通用戶也能輕松獲得電影級的敘事張力。


image.png


從完整視頻可以看出,MuseSteamer能夠以導演拍攝的角度,對視頻基本劇情、畫面形成判斷,從俠客拔劍的起手式,到怪物咆哮時震落的碎石特效,不僅每個動作都嚴格遵循武俠風格的打斗軌跡,更通過快慢鏡頭的交替運用,將這場生死對決的緊張氛圍渲染得淋漓盡致,展現出AI視頻生成在專業影視創作中的巨大潛力。

劉林指出,在AI內容創作領域,視頻時長與畫質的突破往往意味著創作自由度的質變。以MuseSteamer生成的短片《她總在三點一刻出現》為例,該技術通過10秒超長鏡頭和1080P高清畫質,實現了電影級的藝術表現力。


image.png


視頻以極具張力的鏡頭語言展開:固定機位首先捕捉男主角在街頭徘徊張望的身影,隨后鏡頭自然轉向女主角,細膩呈現她喝咖啡的動作,蒸汽氤氳中睫毛的顫動,完整記錄“她總點一樣的咖啡”的細節。整個過程中,王家衛式的色彩美學貫穿始終,暗紅色調與冷色陰影形成鮮明對比。而1080P的高清畫質則刻畫出從咖啡熱氣到衣物褶皺的每一個細節,將專業運鏡、光影控制和敘事張力完美融合,為創作者提供了更廣闊的表達空間。

與市場上多數需要后期配音的解決方案不同,MuseSteamer能夠同步生成畫面、音效和人物臺詞,實現聲音與畫面的自然生成,顯著提升了視頻作品的完整性和藝術表現力,是全球首個實現中文音視頻一體化生成的視頻模型。

以一段沙漠越野主題的短片為例,系統不僅能呈現越野車在沙漠中疾速漂移的畫面,更能智能生成與之相匹配的立體聲效:發動機低沉的轟鳴聲隨著飛揚的沙塵變化而起伏,輪胎與沙地摩擦的聲響隨轉彎的角度而變化,極致遵循物理運動規律。聲音元素與畫面動作相得益彰,為創作者帶來真正“所見即所感”的音視頻一體化體驗。


image.png


數據、算法、審美多重突破,持續霸榜 VBench-I2V圖生視頻榜首

在技術層面,MuseSteamer的亮點表現源于百度在數據、算法、審美等方面的深耕。劉林介紹,該模型構建了億級規模中文多模態數據庫,通過“篩選-凈化-配比”三級優化體系,實現業界領先的文本指令與視覺元素的語義對齊精度。在算法架構上,MuseSteamer采用精細化結構設計,支持中文文本、參考圖像等多模態條件輸入,確保對畫面細節、主體運動軌跡等要素的遵循。此外,模型可生成分辨率高達1080P高清視頻,呈現出電影級流暢轉場與逼真的物理運動規律。


image.png


在音畫呈現上,MuseSteamer構建了一套完整的有聲視頻生成能力,圍繞“誰在說、怎么說、在什么環境下說”三個關鍵問題,通過多人自動化對齊編排、音視對齊Refiner,實現視覺信息、高還原度的人聲與環境音自動生成能力。這些技術創新共同構成了MuseSteamer的核心競爭力。在海外權威視頻生成評測榜單 VBench Leaderboard圖生視頻榜單中,MuseSteamer視頻生成模型以總分89.38%的成績,登上VBench-I2V圖生視頻全球榜首。

伴隨MuseSteamer的發布,全新AI視頻創作平臺——“繪想”也同步上線,為創作者提供全新視頻生成體驗。即日起,用戶可通過PC端搜索“MuseSteamer”或“繪想”免費體驗Turbo版功能,探索AI視頻創作的無限可能。為激發創作熱情,百度將在7月2日—8月3日期間舉辦“繪想·跨次元捏合”AI視頻創作大賽。參賽者只需上傳一張圖片,即可借助MuseSteamer視頻生成模型的強大能力生成富有創意的動態視頻作品。


image.png


隨著技術的突破,創意的邊界也將進一步拓展。MuseSteamer視頻生成模型讓專業級視頻創作變為大眾可及的能力,讓每個人都能成為自己故事的導演,實現“所思即所得”的創意自由。展望未來,百度將持續推進AIGC技術創新,讓技術真正服務于每個人的創意表達。


国产私拍大尺度在线视频_中文字幕无线码一区二区_精品中文字幕无码_91伊人久久大香线蕉