谷歌近期為其視頻AI技術(shù)Veo 2增添了一系列創(chuàng)新功能,旨在極大提升用戶制作電影質(zhì)感視頻及編輯真實(shí)素材的效率。這些新增功能目前已在谷歌云的Vertex AI平臺(tái)上開(kāi)放預(yù)覽,與此同時(shí),谷歌也對(duì)文本轉(zhuǎn)圖像模型Imagen 3及音頻相關(guān)的AI模型進(jìn)行了重要的更新。
Veo 2的新功能亮點(diǎn)包括修復(fù)功能(inpainting)和外擴(kuò)功能(outpainting)。據(jù)谷歌介紹,修復(fù)功能可以智能地移除視頻中不需要的背景圖像、標(biāo)志或干擾元素,而外擴(kuò)功能則能夠擴(kuò)展原始視頻畫(huà)面,利用AI生成的片段填充新增空間,實(shí)現(xiàn)與原始畫(huà)面的自然融合,這一功能類(lèi)似于Adobe在圖像處理中的生成式擴(kuò)展。
此次更新還賦予了Veo 2用戶在生成視頻時(shí)結(jié)合電影拍攝技巧預(yù)設(shè)與文字描述的能力,從而精準(zhǔn)指導(dǎo)鏡頭構(gòu)圖、拍攝角度和節(jié)奏。預(yù)設(shè)選項(xiàng)包括延時(shí)攝影效果、無(wú)人機(jī)視角以及模擬不同方向的鏡頭平移等,為用戶提供了更多創(chuàng)作自由度。
Veo 2還引入了插值功能,該功能能夠在兩個(gè)靜態(tài)圖像之間創(chuàng)建平滑的視頻過(guò)渡,為視頻開(kāi)頭和結(jié)尾序列添加新的幀,進(jìn)一步增強(qiáng)視頻的流暢度和專(zhuān)業(yè)感。
值得注意的是,Adobe的競(jìng)爭(zhēng)對(duì)手產(chǎn)品Firefly視頻模型也推出了類(lèi)似的生成式AI視頻擴(kuò)展功能,并在Premiere Pro中上線。谷歌在Veo 2的輸出中加入了SynthID數(shù)字歸屬水印,以保障內(nèi)容的原創(chuàng)性,這與Adobe的內(nèi)容憑證系統(tǒng)有異曲同工之妙。然而,Adobe明確表示其工具完全適用于商業(yè)用途,因?yàn)樗鼈兓谑跈?quán)和公有領(lǐng)域內(nèi)容訓(xùn)練,而谷歌在訓(xùn)練AI模型時(shí)則大量使用了網(wǎng)絡(luò)抓取的內(nèi)容。
在文本轉(zhuǎn)圖像模型方面,谷歌對(duì)Imagen 3的編輯功能進(jìn)行了升級(jí),據(jù)稱(chēng)可以顯著提升移除物體的效果,使處理后的圖像看起來(lái)更加自然。Veo 2和Imagen 3已被歐萊雅、卡夫亨氏等公司用于營(yíng)銷(xiāo)內(nèi)容制作,顯著縮短了制作周期。例如,卡夫亨氏的數(shù)字體驗(yàn)負(fù)責(zé)人賈斯汀·托馬斯表示,原本需要八周才能完成的任務(wù),現(xiàn)在僅需八小時(shí)即可完成。
在音頻領(lǐng)域,谷歌推出了文本轉(zhuǎn)音樂(lè)模型Lyria的私人預(yù)覽版,并為合成語(yǔ)音模型Chirp 3新增了“即時(shí)定制語(yǔ)音”功能。谷歌表示,Chirp 3現(xiàn)在能夠僅從10秒的音頻輸入中生成逼真的定制語(yǔ)音。谷歌還推出了一項(xiàng)新的轉(zhuǎn)錄功能預(yù)覽,該功能能夠識(shí)別并分離多人對(duì)話中的不同說(shuō)話者,為多方參與的談話提供更清晰的轉(zhuǎn)錄結(jié)果。
這一系列更新只是谷歌近期宣布的AI相關(guān)消息的一部分。谷歌還透露,其效率優(yōu)化型Flash模型的最新版本Gemini 2.5 Flash即將登陸Vertex AI,該版本能夠根據(jù)任務(wù)的復(fù)雜程度自動(dòng)調(diào)整處理時(shí)間,從而更快地為簡(jiǎn)單請(qǐng)求提供結(jié)果。
谷歌本周還將更新其面向企業(yè)的Agentic AI工具,使AI代理能夠在不同平臺(tái)(如PayPal和Salesforce)之間無(wú)縫溝通并執(zhí)行任務(wù)。同時(shí),谷歌云市場(chǎng)也將推出一個(gè)新板塊,供企業(yè)瀏覽和購(gòu)買(mǎi)由第三方谷歌合作伙伴構(gòu)建的AI代理。