近期,一項(xiàng)關(guān)于谷歌Gemini 2.5 Pro模型的最新報(bào)告引起了廣泛關(guān)注。這款A(yù)I模型被譽(yù)為首款能夠全面理解PDF文檔布局的模型,其強(qiáng)大的視覺(jué)解析能力令人矚目。
谷歌于3月25日首次向付費(fèi)用戶(hù)和開(kāi)發(fā)者推出了Gemini 2.5 Pro的實(shí)驗(yàn)版本,緊接著在四天后,便通過(guò)免費(fèi)的Web應(yīng)用向全球用戶(hù)開(kāi)放。這一迅速的動(dòng)作展示了谷歌對(duì)于該模型的高度自信。
Gemini 2.5 Pro不僅在提取PDF文檔中的文本內(nèi)容方面表現(xiàn)出色,更令人驚嘆的是其對(duì)于文檔視覺(jué)布局的理解能力。無(wú)論是圖表、表格還是整體排版,該模型都能準(zhǔn)確捕捉并解析。這意味著用戶(hù)在使用該模型時(shí),可以獲得更為精確和直觀的引用功能。
谷歌在開(kāi)發(fā)者文檔中透露,Gemini 2.5 Pro具備“原生視覺(jué)”能力,能夠同時(shí)處理最多3000個(gè)PDF文件,每個(gè)文件的上限為1000頁(yè)或50MB。該模型還擁有高達(dá)100萬(wàn)token的上下文窗口,未來(lái)還將擴(kuò)展至200萬(wàn)token。這樣的配置確保了模型在處理復(fù)雜文檔時(shí)的穩(wěn)定性和準(zhǔn)確性。
在對(duì)比測(cè)試中,Gemini 2.5 Pro的IoU(交并比)精度達(dá)到了0.804,遠(yuǎn)超其他模型如OpenAI的GPT-4o(0.223)和Claude 3.7 Sonnet(0.210)。這一結(jié)果充分展示了Gemini 2.5 Pro在空間理解能力上的優(yōu)勢(shì)。
除了以上功能外,Gemini 2.5 Pro還為用戶(hù)帶來(lái)了全新的文檔交互模式。通過(guò)直觀的視覺(jué)反饋和精確的文本定位功能,用戶(hù)可以更加便捷地獲取所需信息,并驗(yàn)證信息的準(zhǔn)確性。這種清晰度和交互性是現(xiàn)有工具無(wú)法比擬的。