蘋果在智能穿戴設備領域的布局正逐漸浮出水面,業界廣泛預期其將在2027年前后推出一款智能眼鏡,這款產品被看作是meta Ray-Bans的有力競爭者。與此同時,蘋果還計劃推出配備攝像頭的AirPods,兩者都將集成一系列前沿的AI功能。盡管這些設備的外觀設計仍是個謎,但蘋果已經通過其AI模型的展示,為我們揭示了未來產品可能的工作模式。
回溯到2023年,蘋果機器學習研究團隊發布了一項名為MLX的開源框架,專為蘋果芯片設計。MLX的推出,標志著開發者可以在蘋果設備上本地訓練和運行機器學習模型,同時無需放棄對傳統AI開發框架和語言的依賴,這為開發者提供了極大的便利。
隨著FastVLM的問世,蘋果在視覺語言模型領域邁出了重要一步。這款模型能夠快速且準確地識別用戶的手勢、屏幕上的表情符號以及手寫文字,為智能穿戴設備帶來了全新的交互體驗。據蘋果介紹,FastVLM利用了MLX框架,實現了高分辨率圖像的即時處理,且對計算資源的需求遠低于同類模型。
FastVLM的核心在于其名為FastViTHD的編碼器,該編碼器專為高分辨率圖像的高效處理而設計。與市場上的其他模型相比,FastVLM在速度上快了3.2倍,體積小了3.6倍。這一特性對于需要在本地處理信息的設備來說至關重要,因為它們無需依賴云端來即時響應用戶的需求。
除了速度和體積上的優勢,FastVLM在設計時還特別考慮了減少輸出標記的數量。在模型解釋數據并生成響應的推理階段,標記的數量至關重要。據蘋果透露,其模型的首次標記響應時間比同類模型快了85倍,這意味著用戶從發送第一個提示到收到第一個標記答案的時間將大大縮短。更少的標記、更快且更輕量的模型,共同構成了FastVLM在處理速度上的顯著優勢。