微軟近期宣布,他們成功獲得了一項創新專利,該技術能夠實時將用戶的語音輸入轉化為生動的圖片,為會議和講座帶來前所未有的視覺革新。據悉,這項專利的核心在于能夠實時捕捉會議或講座中的音頻內容,借助先進的語言模型進行內容提煉,并最終生成相應的AI圖像。整個過程涵蓋了音頻捕捉、文本處理和圖像生成三大環節。
在實際操作中,用戶通過麥克風發言,系統即刻捕捉音頻并將其轉換為文本。隨后,系統將文本進行分段處理,并運用語言模型對每段內容進行精煉總結。最后,根據這些總結內容,系統生成相應的AI圖像,并實時展示在屏幕上。
微軟計劃將這項技術廣泛應用于其Microsoft Teams平臺,使其能夠根據演講者話題的變化實時更新圖像,從而極大地提升視覺溝通效果。微軟強調,這種圖像輔助功能對于視覺學習者來說尤為有益,能夠幫助他們更清晰地理解和吸收信息。
這項專利的申請始于2023年4月5日,經過長達半年的嚴格審核,最終于10月獲得了美國商標和專利局的正式批準。該專利文件共計20頁,詳細闡述了如何將語音實時轉化為圖像的技術細節。