午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

Token-Shuffle突破!自回歸模型也能高效生成高清圖像

   發(fā)布時間:2025-04-26 15:05 作者:楊凌霄

近日,科技新聞界傳來一則關于meta AI創(chuàng)新進展的報道。據(jù)報道,meta AI研發(fā)了一種名為Token-Shuffle的新方法,旨在解決自回歸(AR)模型在生成高分辨率圖像時所面臨的挑戰(zhàn)。

自回歸模型是一種在時間序列分析中廣泛應用的統(tǒng)計方法,它基于歷史數(shù)據(jù)預測未來值。近年來,這種方法在語言生成領域取得了顯著成就,并逐漸應用于圖像合成。然而,在處理高分辨率圖像時,AR模型遇到了瓶頸。與文本生成相比,圖像合成需要處理數(shù)千個token,導致計算成本急劇增加,限制了AR模型在精細圖像生成中的應用。

盡管擴散模型在高分辨率圖像生成方面表現(xiàn)出色,但其復雜的采樣過程和較慢的推理速度也成為其應用的局限。因此,meta AI推出的Token-Shuffle方法顯得尤為重要。

Token-Shuffle的核心機制在于解決token效率問題。該方法通過識別多模態(tài)大語言模型(MLLMs)中視覺詞匯的維度冗余,提出了一種創(chuàng)新策略:在Transformer處理前,將空間上相鄰的視覺token沿通道維度合并,推理后再恢復原始空間結(jié)構(gòu)。這種token融合機制不僅降低了計算成本,還保持了視覺質(zhì)量,使自回歸模型能夠高效處理最高達2048×2048分辨率的圖像。

具體來說,Token-Shuffle包括兩個關鍵步驟:token-shuffle和token-unshuffle。在輸入準備階段,通過多層感知機(MLP)將空間相鄰的token壓縮為單個token,從而減少token數(shù)量。以窗口大小s為例,token數(shù)量可減少到原來的s2分之一,顯著降低了Transformer的計算量。

Token-Shuffle還引入了針對自回歸生成的classifier-free guidance(CFG)調(diào)度器,動態(tài)調(diào)整引導強度,優(yōu)化文本-圖像對齊效果。這一創(chuàng)新不僅提升了圖像生成的質(zhì)量,還為AR模型在高分辨率圖像生成領域樹立了新的標桿。

在實驗中,Token-Shuffle展現(xiàn)了強大的實力。在GenAI-Bench基準測試中,基于2.7B參數(shù)的LLaMA模型,Token-Shuffle在“困難”提示下取得了VQAScore 0.77,超越了其他AR模型如LlamaGen和擴散模型LDM。同時,在Geneval基準測試中,Token-Shuffle的綜合得分為0.62,為AR模型樹立了新的標準。

用戶評估也顯示,盡管在邏輯一致性方面略遜于擴散模型,但Token-Shuffle在文本對齊和圖像質(zhì)量上優(yōu)于LlamaGen和Lumina-mGPT。這一成果不僅為圖像合成領域帶來了新的突破,也為未來AR模型在更高分辨率圖像生成中的應用提供了可能。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新