近日,GitHub平臺(tái)上的Lvmin Zhang與斯坦福大學(xué)的研究者M(jìn)aneesh Agrawala攜手,推出了一項(xiàng)名為framePack的創(chuàng)新技術(shù),該技術(shù)在視頻擴(kuò)散模型中融入了固定長(zhǎng)度的時(shí)域上下文機(jī)制,使得生成長(zhǎng)時(shí)長(zhǎng)、高質(zhì)量視頻的效率顯著提升。
經(jīng)過(guò)實(shí)際測(cè)試,基于framePack架構(gòu)、擁有130億參數(shù)的模型,僅需配備6GB顯存的顯卡,便能輕松生成長(zhǎng)達(dá)60秒的視頻內(nèi)容。這一突破性進(jìn)展,無(wú)疑為視頻生成領(lǐng)域帶來(lái)了全新的可能性。
framePack作為一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),采用了多級(jí)優(yōu)化策略,實(shí)現(xiàn)了本地AI視頻的高效生成。值得注意的是,盡管其底層基于定制版的騰訊混元模型構(gòu)建,但現(xiàn)有的預(yù)訓(xùn)練模型同樣可以通過(guò)framePack進(jìn)行微調(diào)與適配,大大拓寬了其應(yīng)用范圍。
傳統(tǒng)的視頻擴(kuò)散模型在生成視頻時(shí),需要逐步處理帶有噪音的幀,并預(yù)測(cè)下一個(gè)噪音減少的幀。這一過(guò)程中,每生成一幀所需輸入的幀數(shù)量,即時(shí)域上下文長(zhǎng)度,會(huì)隨著視頻長(zhǎng)度的增加而不斷增加,對(duì)顯存提出了極高的要求。通常而言,至少需要12GB的顯存才能勉強(qiáng)應(yīng)對(duì),顯存不足則會(huì)導(dǎo)致視頻生成時(shí)間短、質(zhì)量差、耗時(shí)長(zhǎng)等問(wèn)題。
相比之下,framePack通過(guò)智能評(píng)估輸入幀的重要性,對(duì)所有幀進(jìn)行壓縮處理,將其轉(zhuǎn)化為固定的上下文長(zhǎng)度,從而顯著降低了對(duì)顯存的需求。這一創(chuàng)新使得framePack的視頻生成計(jì)算消耗與圖片擴(kuò)散模型相當(dāng),更加高效節(jié)能。同時(shí),每一幀畫(huà)面生成后都會(huì)實(shí)時(shí)呈現(xiàn),為用戶提供了便捷的即時(shí)預(yù)覽體驗(yàn)。
framePack還有效緩解了視頻生成中的“漂移”現(xiàn)象,即隨著視頻長(zhǎng)度的增加,質(zhì)量逐漸下降的問(wèn)題。通過(guò)framePack技術(shù),可以在不顯著犧牲視頻質(zhì)量的前提下,生成更長(zhǎng)的視頻內(nèi)容,滿足用戶對(duì)高質(zhì)量長(zhǎng)視頻的迫切需求。
在數(shù)據(jù)格式與硬件支持方面,framePack表現(xiàn)出色。它支持FP16、BF16等數(shù)據(jù)格式,兼容RTX 50、RTX 40、RTX 30系列顯卡(除RTX 3050 4GB外),幾乎涵蓋了所有近代顯卡。然而,對(duì)于RTX 20系列及更老的顯卡,以及AMD、Intel處理器的需求,framePack尚未進(jìn)行驗(yàn)證。
操作系統(tǒng)方面,framePack支持Windows和Linux兩大主流平臺(tái),為用戶提供了靈活的選擇空間。在性能方面,經(jīng)過(guò)teacache優(yōu)化的RTX 4090顯卡,每秒可生成約0.6幀視頻內(nèi)容,展現(xiàn)了framePack技術(shù)的強(qiáng)大實(shí)力。