近日,科技界傳來一項新的合作成果,英偉達與麻省理工學院(MIT)攜手推出了Audio-SDS技術,這是一項基于文本條件的音頻擴散模型擴展技術,為音頻生成領域帶來了新突破。
音頻擴散模型在近年來憑借其生成高質量音頻的能力備受矚目。然而,這類模型的一個顯著局限在于難以對明確且可解釋的參數進行優化,這限制了其在實際應用中的靈活性和廣泛性。
為了克服這一挑戰,英偉達與MIT的科研團隊首次將Score Distillation Sampling(SDS)方法引入到音頻領域。他們結合了預訓練模型的強大生成能力與參數化音頻表示,從而無需依賴大規模特定數據集,即可應用于FM合成器參數校準、物理沖擊音合成以及音源分離等三大關鍵任務。
SDS技術此前已在文本生成3D圖像和圖像編輯領域得到了廣泛應用。英偉達此次將SDS技術與音頻生成相結合,推出了Audio-SDS。該技術能夠利用預訓練模型的先驗知識,直接根據高級文本提示調整FM合成參數、沖擊音模擬器或分離掩碼,從而實現了更加靈活和精準的音頻生成。
在實驗中,研究團隊采用了基于解碼器的SDS、多步去噪以及多尺度頻譜圖等方法。實驗結果表明,Audio-SDS在主觀聽覺測試和客觀指標(如CLAP分數、信號失真比SDR)上均展現出了卓越的性能。
Audio-SDS的一大創新之處在于,它僅需一個預訓練模型即可支持多種音頻任務,從而極大地降低了對大規模領域特定數據集的依賴。這一特性使得Audio-SDS在音頻生成領域具有更廣泛的應用前景。
然而,研究團隊也指出了Audio-SDS目前仍面臨的一些挑戰,包括模型覆蓋范圍有限、潛在編碼偽影以及優化敏感性等問題。他們表示,未來將繼續致力于解決這些問題,以進一步提升Audio-SDS的性能和應用范圍。