近日,亞馬遜震撼發布了其最新一代生成式AI模型——Nova Sonic,這款模型在語音處理領域實現了重大突破,能夠生成自然流暢的語音,為語音交互技術樹立了新的標桿。
據亞馬遜官方介紹,Nova Sonic在速度、語音識別以及對話質量等多個關鍵指標上,表現與OpenAI和谷歌的前沿語音模型不相上下。這一成就標志著亞馬遜在AI語音技術上的顯著進步,也是對近年來新興AI語音模型的有力回應。
與亞馬遜早期的Alexa等模型相比,Nova Sonic在語音交互時更加自然流暢,用戶體驗得到了顯著提升。這一轉變得益于Nova Sonic強大的語音處理能力,它不僅能夠準確識別用戶的語音指令,還能在對話中展現出更加自然的語言風格。
為了讓更多開發者能夠利用Nova Sonic的強大功能,亞馬遜將其通過Bedrock開發者平臺向用戶開放。該平臺是專為構建企業級AI應用而設計的工具,而Nova Sonic則通過一個全新的雙向流式API接入,使得開發者能夠輕松地將該模型集成到自己的應用中。
在價格方面,亞馬遜聲稱Nova Sonic是市場上“最具成本效益”的AI語音模型。與OpenAI的GPT-4o相比,Nova Sonic的價格便宜了約80%,這無疑將吸引更多開發者選擇該模型。
亞馬遜高級副總裁兼人工通用智能(AGI)部門首席科學家羅希特·普拉薩德透露,Nova Sonic的部分組件已經為亞馬遜升級版數字語音助手Alexa+提供了動力支持。這一消息進一步證明了Nova Sonic的強大實力。
普拉薩德還表示,與競爭對手的AI語音模型相比,Nova Sonic在將用戶請求路由到不同API方面表現出色。它能夠根據上下文信息判斷何時需要從互聯網獲取實時信息、解析專有數據源或在外部應用程序中采取行動,并使用合適的工具來完成任務。
在雙向對話中,Nova Sonic展現出了出色的等待“合適時機”發言的能力。它能夠準確判斷說話者的停頓和打斷情況,確保對話的流暢性和自然性。Nova Sonic還能夠為用戶的語音生成文本記錄,這些文本記錄可以被開發者用于各種應用場景。
在語音識別方面,Nova Sonic的表現同樣令人矚目。據普拉薩德介紹,該模型在語音識別錯誤方面比其他AI語音模型更少。即使在用戶咕噥、說錯話或處于嘈雜環境中時,Nova Sonic也能夠準確理解用戶的意圖。在一項跨語言和方言的語音識別基準測試中,Nova Sonic在英語、法語、意大利語、德語和西班牙語上的平均單詞錯誤率僅為4.2%。
在衡量多人參與的高音量互動的基準測試中,Nova Sonic也展現出了出色的表現。與OpenAI的GPT-4o-transcribe模型相比,Nova Sonic在單詞錯誤率方面準確率高出46.7%。同時,Nova Sonic還擁有行業領先的速度,其平均感知延遲為1.09秒,比OpenAI的GPT-4o模型更快。
普拉薩德強調,Nova Sonic是亞馬遜構建人工通用智能(AGI)這一更廣泛戰略的一部分。未來,亞馬遜計劃推出更多能夠理解不同模態(包括圖像、視頻和語音)的AI模型,以及“其他在將事物引入物理世界時相關的感官數據”。
由普拉薩德負責的亞馬遜AGI部門在公司產品戰略中扮演著越來越重要的角色。上周,亞馬遜剛剛推出了Nova Act的預覽版,該模型似乎為Alexa+和亞馬遜的“代我購買”功能的部分元素提供了支持。從Nova Sonic開始,亞馬遜希望將更多內部的AI模型提供給開發者使用,以助力他們構建各種創新應用。