在近期于上海舉辦的FORCE LINK AI創新巡展活動中,火山引擎隆重推出了一系列AI模型升級新品,這些產品包括豆包·視頻生成模型的輕量級版本Seedance 1.0 lite、豆包1.5·視覺深度思考模型,以及豆包·音樂模型。這一系列新品旨在通過更為完善的模型矩陣和多樣化的智能工具,幫助企業構建從業務到智能應用的無縫鏈接,加速企業的智能化轉型進程。
在這些新品中,Seedance 1.0 lite尤為亮眼。作為豆包視頻生成模型系列的新成員,它以較小的參數量實現了令人矚目的技術突破。Seedance 1.0 lite不僅提供了影視級的視頻生成質量,還大幅提升了視頻生成速度,實現了效果、速度與性價比的完美平衡。該模型支持文本生成視頻和圖片生成視頻兩種方式,用戶可以根據需求選擇5秒或10秒的視頻時長,以及480P或720P的分辨率。
Seedance 1.0 lite在指令遵循能力上表現出色,通過強大的語義理解能力,它能夠精確控制視頻中人物的外貌、衣著、表情和動作等細節。該模型在多主體動作解析、嵌入式文本響應、程度副詞處理和鏡頭切換響應等方面也具有顯著優勢,使得生成的視頻內容更加自然、逼真。同時,Seedance 1.0 lite還支持多種影視級運鏡技術,如360度環繞、航拍、變焦等,為視頻增添了細膩高清的畫質和影視級的美感。
在應用方面,Seedance 1.0 lite展現了廣泛的適用性。在電商領域,它能夠幫助商家快速生成高質量的營銷視頻素材,精準匹配產品展示和活動推廣等場景,有效降低制作成本和周期。該模型還可應用于娛樂特效、影視創作、動態壁紙等多個領域,為創作者提供強大的視頻生成支持。
另一款新品豆包1.5·視覺深度思考模型同樣引人注目。這款多模態模型以僅20B的激活參數,在60個公開評估基準中的38個方面取得了最佳成績,尤其在視頻理解、視覺推理和GUI Agent能力方面表現卓越。通過采用動態幀率采樣技術,豆包1.5顯著提升了視頻時序定位的準確性,結合向量搜索功能,能夠精確識別視頻中與文本描述相匹配的片段。
豆包1.5·視覺深度思考模型還具備強大的視頻深度思考能力。通過學習數萬億多模態標記數據,并結合強化學習技術,該模型積累了豐富的視覺知識,顯著增強了視覺推理能力。在復雜的圖形推理任務中,它能夠自主提出假設、進行推理驗證,并在發現與假設不符時不斷反思并提出新的假設,直至得出正確答案。
豆包1.5·視覺深度思考模型還新增了GUI Agent功能。憑借其強大的GUI定位能力,該模型能夠在多種不同環境中執行復雜的交互任務。例如,在新開發的App功能自動化測試中,豆包1.5已展現出顯著的應用效果,目前已在字節跳動的多款App產品中得到實際應用。