在人工智能技術飛速發展的當下,大語言模型(LLM)和多模態模型的參數量與訓練數據量呈指數級增長,這對數據存儲提出了前所未有的挑戰。AI全工作流,涵蓋數據采集、清洗預處理、GPU高并發訓練以及模型推理等環節,均需要TB/s級帶寬和低延遲I/O支持。一旦存儲出現瓶頸,昂貴的GPU算力便會閑置,造成資源浪費。同時,海量原始數據、中間數據和歸檔數據的長期保存需求,使得單一存儲介質難以兼顧高性能與成本控制,“全閃存+混閃”的分層存儲方案逐漸成為業界共識。
然而,傳統分層存儲方案存在諸多痛點。其一,數據分層依賴創建時間(mtime),導致高頻訪問的訓練集可能因“到期”被降級至慢速混閃池,嚴重影響訓練性能。其二,數據在不同存儲層間流動需手動切換路徑或掛載點,操作復雜且易出錯,可能引發訓練失敗。其三,為避免性能問題,企業被迫將更多數據保留在全閃存層,或反復“搬運”降級數據回熱層,導致總擁有成本(TCO)大幅上升。某大型智算中心曾因開源方案缺乏智能分層能力,數據預處理效率低下,GPU等待時間過長,無法實現數據的高效流轉。
為破解這些難題,北京星辰天合科技股份有限公司基于XEOS對象存儲,推出了“XEOS AI數據湖方案”。該方案通過智能數據流動機制,重塑了AI分層存儲邏輯,為頭部AGI廠商、國家級AI實驗室和大型智算中心提供了高效的數據底座。方案采用基于訪問時間(atime)的智能生命周期管理,系統能夠實時感知數據訪問行為,精準捕獲如GetObject/HeadObject等操作,并自動刷新atime。高頻訓練數據集因訪問頻繁,atime不斷更新,可長期駐留在全閃熱層,保障訓練性能穩定;而“長期無訪問”的冷數據則自動流向低成本混閃池,實現資源合理分配。
在數據訪問方面,方案實現了“一次慢、次次快”的模式。上層應用無需關心數據存儲位置,在統一命名空間下,訪問路徑保持不變,避免了手動切換的失誤。首次訪問冷層數據時,系統會異步將數據緩存至熱層,后續訪問直接從熱層讀取,大幅提升速度。每一次緩存數據訪問都會刷新其過期時間,確保熱點數據長期駐留高速層。系統還支持通過批量HeadObject操作提前預熱數據集,實現首次訪問即達極致性能。
方案在架構設計上摒棄了傳統多存儲層割裂的模式,在統一命名空間內整合了“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質,針對模型訓練和推理等高頻訪問場景優化,提供低至毫秒級的時延和TB/s級帶寬,滿足GPU集群高并發數據加載需求。溫冷層采用“SSD+HDD”混閃架構,以較低成本承載原始數據、中間結果和訓練日志等低頻訪問數據,并支持自動歸檔與生命周期清理功能,有效管理長期存儲數據。數據在層間流動時,訪問路徑和權限控制保持一致,消除了“數據搬運”的操作成本與性能損耗。
性能方面,方案基于分布式架構設計,單集群可承載EB級容量,支持線性擴展,能夠輕松應對AI數據的“爆發式增長”。通過對I/O調度算法的優化,系統在極限壓力下仍能保持低時延。在頭部AGI廠商場景中,峰值讀取帶寬可達5Tbps,讀取時延≤8ms;在智算中心場景中,讀取峰值達149.34GB/s,滿足大模型“高并發、高帶寬”的訓練需求。系統繼承了星辰天合企業級存儲的金融級可靠性,數據可用性達99.9999%,為數據安全提供了堅實保障。
該方案在實際應用中取得了顯著成效。在經濟效益方面,通過“智能分層+混閃架構”,客戶存儲TCO平均降低30%-60%。某智算中心避免了全閃存過度配置,年節省存儲采購成本超千萬元;頭部AGI廠商通過冷數據自動歸檔,減少30%全閃容量占用。同時,方案消除了數據流動的人工干預與性能損耗,數據預處理效率提升300%,GPU利用率提升25%-75%。某智算中心GPU等待時間從日均4小時縮短至1小時,年增加模型訓練迭代次數超50次。方案支持在線擴容,無需停機,某客戶在4個月內完成20PB數據擴容,未影響任何訓練任務,避免了因擴容中斷導致的研發延誤。
在社會效益方面,方案通過高效數據底座釋放了GPU算力,幫助頭部AGI廠商和國家級實驗室突破模型訓練效率瓶頸,加速了SOTA模型研發,助力我國AI技術在全球競爭中保持領先。同時,“高性能+低成本”的平衡方案降低了AI落地門檻,讓中小型AI企業無需承擔高昂全閃存成本即可獲得TB/s級存儲能力,推動了AI技術在制造、醫療、金融等行業的普及。混閃架構與智能分層減少了高能耗全閃存的使用量,某智算中心采用方案后,存儲系統年耗電量降低28%,符合“雙碳”目標,助力AI產業綠色發展。
XSKY星辰天合是面向AI時代的統一數據平臺提供商,十年專注分布式存儲,長期位列IDC市場報告“TOP 5”,且是唯一獨立存儲廠商,同時在對象存儲市場保持長期領導者地位。公司產品已在3000+客戶的企業級生產環境經受驗證,為企業AI創新與數據基礎設施現代化提供了可靠的數據底座。與之合作的某通用人工智能科技公司是全球領先的AGI科技公司,自主研發了具有業界競爭力的多模態通用大模型,在代碼生成、智能體(Agent)能力及超長上下文處理等方面表現卓越,服務范圍覆蓋全球超200個國家及地區,累計觸達個人用戶突破一億,并為超過5萬家企業客戶與開發者提供技術支持與解決方案。




















