麻省理工學(xué)院與Empirical Health的研究團(tuán)隊(duì)近日取得一項(xiàng)突破性進(jìn)展,他們基于300萬(wàn)“人-天”的Apple Watch健康數(shù)據(jù),開(kāi)發(fā)出一種新型自監(jiān)督學(xué)習(xí)模型,在疾病預(yù)測(cè)領(lǐng)域展現(xiàn)出顯著優(yōu)勢(shì)。這項(xiàng)研究通過(guò)創(chuàng)新的數(shù)據(jù)處理方式,成功解決了可穿戴設(shè)備數(shù)據(jù)不完整、不規(guī)則的難題,為健康監(jiān)測(cè)技術(shù)開(kāi)辟了新方向。
研究核心基于meta前首席AI科學(xué)家Yann LeCun提出的“聯(lián)合嵌入預(yù)測(cè)架構(gòu)”(JEPA)。該架構(gòu)突破傳統(tǒng)AI系統(tǒng)直接重建缺失數(shù)據(jù)的模式,轉(zhuǎn)而訓(xùn)練模型從上下文推斷缺失部分的語(yǔ)義表征。例如在圖像處理中,系統(tǒng)不會(huì)嘗試還原被遮蔽區(qū)域的原始像素,而是通過(guò)可見(jiàn)部分推斷其抽象特征。這種思路被研究團(tuán)隊(duì)創(chuàng)新性地應(yīng)用于健康數(shù)據(jù)領(lǐng)域,特別是處理心率、睡眠時(shí)長(zhǎng)等存在大量缺失的時(shí)間序列指標(biāo)。
研究團(tuán)隊(duì)構(gòu)建的縱向數(shù)據(jù)集涵蓋16,522名參與者,累計(jì)記錄約300萬(wàn)“人-天”的生理數(shù)據(jù)。每位參與者每日記錄63項(xiàng)指標(biāo),覆蓋心血管、呼吸、睡眠、運(yùn)動(dòng)等五大健康維度。值得注意的是,僅15%的參與者擁有完整醫(yī)療標(biāo)注記錄,傳統(tǒng)監(jiān)督學(xué)習(xí)框架下85%的數(shù)據(jù)難以利用。研究團(tuán)隊(duì)通過(guò)自監(jiān)督預(yù)訓(xùn)練策略,先讓模型在無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)通用特征,再針對(duì)特定疾病在少量標(biāo)注數(shù)據(jù)上進(jìn)行微調(diào)。
在數(shù)據(jù)處理環(huán)節(jié),研究人員將每條觀測(cè)記錄轉(zhuǎn)化為包含日期、數(shù)值、指標(biāo)類型的“三元組”,進(jìn)而編碼為可學(xué)習(xí)的“token”。通過(guò)隨機(jī)掩碼部分token,模型需要預(yù)測(cè)被遮擋片段的嵌入表示。這種訓(xùn)練方式使模型能夠捕捉數(shù)據(jù)中的潛在模式,即使面對(duì)極端不平衡的記錄頻率——某些指標(biāo)僅0.4%的記錄時(shí)間出現(xiàn),而另一些指標(biāo)存在于99%的日常讀數(shù)中。
實(shí)驗(yàn)結(jié)果顯示,新型模型在多項(xiàng)疾病預(yù)測(cè)任務(wù)中表現(xiàn)優(yōu)異:高血壓預(yù)測(cè)的AUROC指標(biāo)達(dá)到86.8%,慢性疲勞綜合征為81%,病態(tài)竇房結(jié)綜合征同樣取得86.8%的成績(jī)。雖然房撲預(yù)測(cè)的70.5%略低于部分基線模型,但整體性能優(yōu)勢(shì)明顯。研究特別指出,AUROC和AUPRC指標(biāo)反映的是模型對(duì)病例的排序能力,而非傳統(tǒng)意義上的預(yù)測(cè)準(zhǔn)確率。
這項(xiàng)成果的重要價(jià)值在于證明了日常可穿戴設(shè)備的潛在價(jià)值。盡管Apple Watch等設(shè)備存在佩戴時(shí)間不固定、數(shù)據(jù)記錄不連續(xù)等問(wèn)題,但通過(guò)創(chuàng)新的模型架構(gòu)和訓(xùn)練策略,仍能從海量數(shù)據(jù)中提取有效健康信號(hào)。研究團(tuán)隊(duì)開(kāi)發(fā)的JETS模型不僅為疾病早期預(yù)警提供了新工具,更展示了如何最大化利用不完整健康數(shù)據(jù)的可能性,為智能健康監(jiān)測(cè)領(lǐng)域樹(shù)立了新的技術(shù)標(biāo)桿。


















