騰訊混元近期宣布了一項重大技術進展,開源了一款名為InstantCharacter的定制化圖像生成插件,并與開源文生圖模型Flux實現了完美兼容。這一創新工具為內容創作者帶來了前所未有的便利與創意空間。
據騰訊官方介紹,InstantCharacter插件的功能強大且直觀。用戶只需提供一張圖片和一句簡短的描述,就能讓任意角色以期望的姿勢出現在任何場景中。例如,輸入一張原始圖片,并附上“一只兔子在廚房里拿著勺子喝湯”的提示,系統就能迅速生成一張兔子在廚房中享受美食的生動圖像。
更令人驚嘆的是,InstantCharacter插件還能處理更加復雜和富有創意的提示。例如,輸入“一只兔子在城市中,賽博朋克風格”,系統就能生成一張充滿未來感的兔子形象,完美融入賽博朋克的城市背景中。
在多輪文生圖場景中,角色的一致性一直是一個難題。而InstantCharacter插件憑借其先進的技術,確保了角色在不同場景中的一致性和真實性。同時,生成的圖像畫質和精度高,文本編輯性強,用戶可以根據需要靈活切換場景和動作,極大地提升了創作效率和自由度。
騰訊混元團隊表示,InstantCharacter插件在角色一致性和圖像生成精確度上超越了業界此前的相關技術,能夠處理多種風格和復雜度的圖像。這一創新工具將廣泛應用于連環畫、影片創作等領域,為內容創作者提供更加高效和便捷的視覺作品創作方式。
從技術層面來看,InstantCharacter插件采用了創新的DiT模型框架,并引入了一個可擴展的適配器。這一設計使得系統能夠靈活適應不同的角色特征,并與現代擴散變換器的潛在空間無縫交互。為了有效訓練這一框架,騰訊混元團隊還構建了一個包含千萬級樣本的大規模角色數據集,進一步提升了系統的性能和準確性。