蘋果機(jī)器學(xué)習(xí)團(tuán)隊(duì)近期在GitHub上掀起波瀾,他們發(fā)布并開源了一款名為FastVLM的視覺語(yǔ)言模型,為用戶提供0.5B、1.5B和7B三種不同規(guī)模的版本選擇。
這款模型是蘋果基于其自研的MLX框架精心打造,同時(shí)借助LLaVA代碼庫(kù)進(jìn)行高效訓(xùn)練。尤為FastVLM針對(duì)Apple Silicon設(shè)備的端側(cè)AI運(yùn)算進(jìn)行了深度優(yōu)化,旨在為用戶提供更為流暢的體驗(yàn)。
技術(shù)文檔詳細(xì)揭示了FastVLM的卓越性能。它在保持高精度的同時(shí),實(shí)現(xiàn)了高分辨率圖像處理的近實(shí)時(shí)響應(yīng),而且所需的計(jì)算量遠(yuǎn)低于同類模型。這一突破性的進(jìn)展,無疑為視覺語(yǔ)言模型的應(yīng)用開辟了更廣闊的空間。
FastVLM的核心競(jìng)爭(zhēng)力在于其創(chuàng)新的FastViTHD混合視覺編碼器。蘋果團(tuán)隊(duì)自豪地表示,這款編碼器專為高分辨率圖像設(shè)計(jì),旨在實(shí)現(xiàn)高效的VLM性能。與同類模型相比,F(xiàn)astViTHD的處理速度提升了3.2倍,而體積卻僅為原來的3.6分之一。這一顯著的優(yōu)勢(shì),使得FastVLM在視覺語(yǔ)言模型領(lǐng)域獨(dú)樹一幟。
在具體性能對(duì)比中,F(xiàn)astVLM的最小模型版本展現(xiàn)出了驚人的表現(xiàn)。與LLaVA-OneVision-0.5B模型相比,F(xiàn)astVLM的首詞元響應(yīng)速度提升了85倍,而視覺編碼器的體積則縮小了3.4倍。當(dāng)搭配Qwen2-7B大語(yǔ)言模型版本時(shí),F(xiàn)astVLM使用單一的圖像編碼器便超越了Cambrian-1-8B等近期研究成果,首詞元響應(yīng)速度更是提升了7.9倍。
為了直觀展示FastVLM的性能表現(xiàn),蘋果技術(shù)團(tuán)隊(duì)還推出了一款配套的iOS演示應(yīng)用。這款應(yīng)用通過實(shí)機(jī)演示,讓用戶能夠親身體驗(yàn)到移動(dòng)端模型的出色表現(xiàn)。這一舉措無疑進(jìn)一步增強(qiáng)了用戶對(duì)FastVLM的信心和期待。
蘋果技術(shù)團(tuán)隊(duì)在介紹中表示,基于對(duì)圖像分辨率、視覺延遲、詞元數(shù)量與LLM大小的綜合效率分析,他們成功開發(fā)出了FastVLM。這款模型在延遲、模型大小和準(zhǔn)確性之間實(shí)現(xiàn)了最優(yōu)權(quán)衡,為用戶提供了更為高效、便捷的體驗(yàn)。
展望未來,F(xiàn)astVLM的應(yīng)用場(chǎng)景將十分廣泛。特別是針對(duì)蘋果正在研發(fā)的智能眼鏡類穿戴設(shè)備,F(xiàn)astVLM的本地化處理能力將有效支持這類設(shè)備脫離云端實(shí)現(xiàn)實(shí)時(shí)視覺交互。這一技術(shù)的突破,無疑為蘋果在智能穿戴設(shè)備領(lǐng)域的布局注入了新的活力。
MLX框架的推出進(jìn)一步增強(qiáng)了蘋果的端側(cè)AI技術(shù)生態(tài)。這一框架允許開發(fā)者在Apple設(shè)備本地訓(xùn)練和運(yùn)行模型,同時(shí)兼容主流AI開發(fā)語(yǔ)言。這為開發(fā)者提供了更為靈活、高效的開發(fā)環(huán)境,進(jìn)一步推動(dòng)了蘋果端側(cè)AI技術(shù)的發(fā)展。