国产亚洲精品久久久久91网站 ,精品视频久久久,久久视屏这里只有精品6国产

Token-Shuffle突破！自回歸模型也能高效生成高清圖像

發(fā)布時間：2025-04-26 15:05 來源：ITBEAR 作者：楊凌霄

近日，科技新聞界傳來一則關(guān)于meta AI創(chuàng)新進(jìn)展的報道。據(jù)報道，meta AI研發(fā)了一種名為Token-Shuffle的新方法，旨在解決自回歸（AR）模型在生成高分辨率圖像時所面臨的挑戰(zhàn)。

自回歸模型是一種在時間序列分析中廣泛應(yīng)用的統(tǒng)計方法，它基于歷史數(shù)據(jù)預(yù)測未來值。近年來，這種方法在語言生成領(lǐng)域取得了顯著成就，并逐漸應(yīng)用于圖像合成。然而，在處理高分辨率圖像時，AR模型遇到了瓶頸。與文本生成相比，圖像合成需要處理數(shù)千個token，導(dǎo)致計算成本急劇增加，限制了AR模型在精細(xì)圖像生成中的應(yīng)用。

盡管擴(kuò)散模型在高分辨率圖像生成方面表現(xiàn)出色，但其復(fù)雜的采樣過程和較慢的推理速度也成為其應(yīng)用的局限。因此，meta AI推出的Token-Shuffle方法顯得尤為重要。

Token-Shuffle的核心機(jī)制在于解決token效率問題。該方法通過識別多模態(tài)大語言模型（MLLMs）中視覺詞匯的維度冗余，提出了一種創(chuàng)新策略：在Transformer處理前，將空間上相鄰的視覺token沿通道維度合并，推理后再恢復(fù)原始空間結(jié)構(gòu)。這種token融合機(jī)制不僅降低了計算成本，還保持了視覺質(zhì)量，使自回歸模型能夠高效處理最高達(dá)2048×2048分辨率的圖像。

具體來說，Token-Shuffle包括兩個關(guān)鍵步驟：token-shuffle和token-unshuffle。在輸入準(zhǔn)備階段，通過多層感知機(jī)（MLP）將空間相鄰的token壓縮為單個token，從而減少token數(shù)量。以窗口大小s為例，token數(shù)量可減少到原來的s2分之一，顯著降低了Transformer的計算量。

Token-Shuffle還引入了針對自回歸生成的classifier-free guidance（CFG）調(diào)度器，動態(tài)調(diào)整引導(dǎo)強(qiáng)度，優(yōu)化文本-圖像對齊效果。這一創(chuàng)新不僅提升了圖像生成的質(zhì)量，還為AR模型在高分辨率圖像生成領(lǐng)域樹立了新的標(biāo)桿。

在實驗中，Token-Shuffle展現(xiàn)了強(qiáng)大的實力。在GenAI-Bench基準(zhǔn)測試中，基于2.7B參數(shù)的LLaMA模型，Token-Shuffle在“困難”提示下取得了VQAScore 0.77，超越了其他AR模型如LlamaGen和擴(kuò)散模型LDM。同時，在Geneval基準(zhǔn)測試中，Token-Shuffle的綜合得分為0.62，為AR模型樹立了新的標(biāo)準(zhǔn)。

用戶評估也顯示，盡管在邏輯一致性方面略遜于擴(kuò)散模型，但Token-Shuffle在文本對齊和圖像質(zhì)量上優(yōu)于LlamaGen和Lumina-mGPT。這一成果不僅為圖像合成領(lǐng)域帶來了新的突破，也為未來AR模型在更高分辨率圖像生成中的應(yīng)用提供了可能。

更多>同類內(nèi)容

午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

Token-Shuffle突破！自回歸模型也能高效生成高清圖像