字節跳動近日正式推出全新音視頻生成模型Seedance 1.5 pro,這款模型突破傳統生成模式,首次實現從文本或圖像直接生成帶同步音頻的視頻內容。該技術通過音視頻聯合生成框架,將語音合成與動態畫面創作整合為單一流程,為內容創作者提供更高效的工具。
技術團隊透露,模型采用基于MMDiT架構的深度學習框架,通過多階段數據鏈路優化與強化學習算法,顯著提升音畫同步精度。在語音表現上,該系統支持中、英、日等多語種輸出,并能精準模擬四川話、粵語等方言的語音特征,口型匹配誤差率較前代降低40%。畫面生成方面,模型具備自主運鏡能力,可自動完成長鏡頭跟隨、希區柯克式變焦等復雜鏡頭運動,使靜態畫面產生電影級動態效果。
實際應用測試顯示,Seedance 1.5 pro在影視劇本可視化、廣告創意制作、互動短劇開發等領域展現潛力。測試案例中,模型生成的短視頻在指令遵循度、音質清晰度等指標上獲得提升,尤其在多語言敘事場景中表現突出。不過研發團隊指出,當前版本在處理高速運動物體的物理模擬、多角色對話場景的邏輯連貫性等方面仍需優化,后續將通過擴展訓練數據集與算法迭代持續改進。
該模型的推出標志著生成式AI向多媒體一體化創作邁出重要一步。相比傳統分階段制作流程,Seedance 1.5 pro將聲畫創作整合為端到端生成,理論上可將內容制作周期縮短60%以上。目前研發團隊正與多家影視機構合作,探索AI輔助創作的工業化應用路徑,重點攻關復雜場景下的物理引擎優化與多模態交互設計。




















