合成孔徑雷達(SAR)因其獨特的主動式微波成像機制,在遙感領(lǐng)域占據(jù)重要地位。然而,傳統(tǒng)視覺模型多基于光學圖像開發(fā),難以直接適配SAR圖像的特殊性質(zhì)。哈工大團隊近日提出名為SUMMIT的SAR基礎(chǔ)模型,通過融合多輔助任務(wù)的自監(jiān)督學習框架,在分類、檢測和分割等任務(wù)中取得突破性進展,相關(guān)論文發(fā)表于國際學術(shù)期刊。
SAR圖像的生成依賴于回波矢量疊加,導致其存在斑點噪聲和幾何畸變等光學圖像中不存在的特性。SAR圖像為單通道幅度信息,目標表征主要依賴強散射點和邊緣結(jié)構(gòu),而非光學圖像中的顏色與紋理。這些差異使得直接遷移光學模型至SAR領(lǐng)域效果不佳,且現(xiàn)有SAR預(yù)訓練數(shù)據(jù)集規(guī)模有限、質(zhì)量參差不齊,進一步限制了模型性能。
針對上述挑戰(zhàn),研究團隊以視覺Transformer(ViT)的掩碼自編碼器(MAE)架構(gòu)為基礎(chǔ),創(chuàng)新性地引入輔助任務(wù)協(xié)調(diào)模塊(ATCM)。該模塊將三個物理驅(qū)動的自監(jiān)督任務(wù)——自監(jiān)督去噪、邊緣特征增強和散射點特征提取——無縫集成至預(yù)訓練流程。例如,在去噪任務(wù)中,模型通過對數(shù)變換和模擬高斯噪聲注入,學習從含噪數(shù)據(jù)中恢復純凈信號;在散射點提取任務(wù)中,利用Harris角點檢測定位強后向散射中心,強化模型對目標關(guān)鍵結(jié)構(gòu)的感知能力。
實驗結(jié)果表明,SUMMIT在多個主流數(shù)據(jù)集上顯著優(yōu)于傳統(tǒng)方法。在目標檢測任務(wù)中,模型在SARDet-100K數(shù)據(jù)集上的平均精度(mAP)較直接微調(diào)的ViTDet提升至少5%,尤其在港口和停機坪等密集場景下,能有效區(qū)分重疊目標,減少漏檢與誤檢。目標分類任務(wù)中,模型在MSTAR數(shù)據(jù)集上展現(xiàn)卓越的小樣本學習能力:僅使用30%訓練數(shù)據(jù)時準確率達98.39%,全量數(shù)據(jù)下準確率高達99.89%,超越ResNet和Swin-Transformer等主流模型。
通過注意力熱力圖分析可進一步驗證模型對SAR物理機制的理解。對比普通ViT模型,SUMMIT的注意力高度集中在目標的強散射中心(如艦船甲板、飛機機身),而非受斑點噪聲干擾的背景區(qū)域。這一特性表明,輔助任務(wù)的設(shè)計成功引導模型聚焦于信號本質(zhì),而非噪聲干擾。
該研究證明,在垂直領(lǐng)域AI開發(fā)中,領(lǐng)域知識的深度融合至關(guān)重要。單純依賴數(shù)據(jù)規(guī)模難以解決SAR等復雜物理背景下的視覺問題,唯有將散射機制、噪聲分布等物理特性嵌入模型設(shè)計,才能實現(xiàn)真正意義上的性能突破。目前,團隊已開源相關(guān)代碼,為SAR遙感領(lǐng)域的智能化發(fā)展提供新工具。



















