近日,meta公司高層親自出面,對圍繞其最新AI模型的一則不實傳聞進行了澄清。傳聞聲稱,meta在推出Llama 4 Maverick和Llama 4 Scout模型時,采取了不當手段,即在基準測試的“測試集”上進行了額外訓練,以提升模型測試表現,并隱瞞了模型的不足。
meta公司生成式人工智能部門的副總裁艾哈邁德·阿爾·達赫勒,在社交平臺X上發表聲明,堅決否認了這一說法,稱其為“毫無根據的謠言”。
在AI領域,測試集是專門用于評估模型訓練后性能的數據集。若模型在測試集上進行訓練,將會人為地提高基準測試分數,導致模型的實際能力被夸大。
傳聞的起因,部分源于Maverick和Scout在某些任務上的不盡如人意,以及meta選擇在基準測試平臺LM Arena上使用未發布的實驗版本Maverick以獲得更好成績的決定。研究人員發現,公開下載的Maverick版本與LM Arena上的版本在行為上存在顯著差異,這進一步加劇了傳聞的流傳。
針對這一情況,阿爾·達赫勒承認,部分用戶在通過不同云服務提供商使用Maverick和Scout模型時,確實遇到了“質量差異”的問題。他解釋說:“我們急于將模型發布出去,因此預計需要幾天時間才能確保所有公開版本都調整到位。目前,我們正在積極進行錯誤修復,并與合作伙伴緊密協作。”
阿爾·達赫勒進一步強調,meta始終致力于提供高質量的AI模型,對于此次出現的誤解和不便,公司深感歉意,并將繼續努力提升用戶體驗。