麻省理工學(xué)院與Empirical Health的研究團(tuán)隊(duì)近日宣布,他們利用Apple Watch收集的300萬“人-天”健康數(shù)據(jù),開發(fā)出一種新型基礎(chǔ)模型,在預(yù)測多種疾病方面展現(xiàn)出顯著優(yōu)勢。這項(xiàng)研究通過創(chuàng)新的數(shù)據(jù)處理方式,成功解決了可穿戴設(shè)備數(shù)據(jù)不規(guī)則、不完整的難題,為健康監(jiān)測領(lǐng)域開辟了新路徑。
研究的核心突破在于將聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)應(yīng)用于醫(yī)療健康領(lǐng)域。這一架構(gòu)由meta前首席AI科學(xué)家Yann LeCun提出,其獨(dú)特之處在于讓模型學(xué)習(xí)推斷缺失數(shù)據(jù)的語義表征,而非簡單重建原始數(shù)值。例如,當(dāng)處理被遮蔽的圖像區(qū)域時,模型會通過可見部分推斷不可見區(qū)域的特征,而非還原具體像素。這種思路為處理可穿戴設(shè)備數(shù)據(jù)提供了新思路——設(shè)備記錄的心率、睡眠等指標(biāo)常存在時間上的不連續(xù)性,傳統(tǒng)模型難以有效利用這類數(shù)據(jù)。
研究團(tuán)隊(duì)構(gòu)建的縱向數(shù)據(jù)集包含16,522名參與者的長期記錄,總計(jì)約300萬“人-天”數(shù)據(jù)。每位參與者每日記錄63項(xiàng)指標(biāo),涵蓋心血管健康、呼吸功能、睡眠質(zhì)量、身體活動及基礎(chǔ)統(tǒng)計(jì)五大領(lǐng)域。值得注意的是,僅15%的參與者有完整的醫(yī)療標(biāo)注史,這意味著85%的數(shù)據(jù)在傳統(tǒng)監(jiān)督學(xué)習(xí)框架下會被視為無效。研究團(tuán)隊(duì)通過自監(jiān)督預(yù)訓(xùn)練策略,先讓模型在整個數(shù)據(jù)集上學(xué)習(xí)數(shù)據(jù)特征,再在有標(biāo)簽的子集上進(jìn)行微調(diào),成功克服了這一挑戰(zhàn)。
具體實(shí)現(xiàn)中,研究人員將每條觀測數(shù)據(jù)轉(zhuǎn)化為“三元組”(日期、數(shù)值、指標(biāo)類型),每個觀測值對應(yīng)一個“token”。這些token經(jīng)過掩碼處理后輸入編碼器,模型需預(yù)測被掩碼片段的嵌入表示。這種設(shè)計(jì)使模型能夠捕捉數(shù)據(jù)中的潛在模式,即使某些指標(biāo)僅在極少數(shù)時間點(diǎn)被記錄,或不同指標(biāo)的記錄頻率差異巨大,模型仍能有效學(xué)習(xí)。
在疾病預(yù)測性能方面,新模型(JETS)與多個基線模型對比中表現(xiàn)突出。測試結(jié)果顯示,其對高血壓的預(yù)測AUROC達(dá)86.8%,房撲為70.5%,慢性疲勞綜合征為81%,病態(tài)竇房結(jié)綜合征同樣達(dá)到86.8%。AUROC和AUPRC指標(biāo)衡量的是模型區(qū)分病例的能力,而非簡單準(zhǔn)確率,這表明模型能更精準(zhǔn)地識別潛在患者,為早期干預(yù)提供依據(jù)。
這項(xiàng)研究的意義不僅在于模型性能的提升,更在于它證明了日常可穿戴設(shè)備數(shù)據(jù)的巨大潛力。盡管Apple Watch等設(shè)備并非全天候佩戴,且不同用戶的佩戴習(xí)慣差異顯著,但通過創(chuàng)新的模型架構(gòu)與訓(xùn)練策略,仍能從海量數(shù)據(jù)中提取有價值的信息。這種能力為疾病早期預(yù)警和個性化健康管理提供了新工具,未來可能改變?nèi)藗儽O(jiān)測健康的方式。


















