在近期舉辦的智能未來大會上,著名語音科學家Daniel Povey以獨特的視角,將AI技術發展與生物進化過程進行了深度類比,引發了與會者的廣泛關注。作為小米集團首席語音科學家,他提出,AI技術的演進路徑與生物進化有著驚人的相似性,都遵循著不斷試錯、篩選最優解的底層邏輯。
Daniel Povey指出,AI“配方”的設計本質上是一個持續迭代的過程。科研人員提出新理論、發布新論文,但最終能落地的往往是那些經過實踐檢驗的“配方”。這一過程與生物進化中的自然選擇極為相似:生命體通過基因突變產生變異,環境則篩選出適應度更高的個體。在AI領域,這種篩選機制體現在不同模型架構的競爭與淘汰中,只有性能更優的方案才能被廣泛采用。
他進一步解釋,AI發展的節奏也與生物進化的“間斷平衡”理論吻合。歷史上,生物進化曾長期處于停滯狀態,直到某些關鍵突破引發劇變。例如,光合作用的出現徹底改變了地球生態。AI領域同樣存在類似現象:Transformer架構的誕生,原本為語言模型設計,卻意外推動了計算機視覺、語音識別等多個領域的革新。這種跨領域的突破,正是AI技術實現躍遷的重要動力。
在談到技術演進的速度時,Daniel Povey強調了開源的重要性。他以自身經歷為例,2012年因工業界對開源的抵觸轉投學術界,而如今小米等企業積極擁抱開源文化,為他提供了理想的研究環境。他直言,若沒有開源,AI研究的速度可能降低千倍。開源社區的協作模式,使得研究人員無需重復造輪子,而是能站在前人的基礎上快速迭代,這種效率提升對技術突破至關重要。
對于AI的未來方向,他提出“通才”與“專才”的平衡策略。自然界中,熊貓等專才在穩定環境中占據優勢,而老鼠等通才則能在環境劇變時生存。AI領域同樣需要保留多種技術路線:一方面,利用Transformer等成熟架構賦能現有產品;另一方面,投入資源探索未知方向,為下一個顛覆性技術儲備可能性。他透露,自己的團隊正在研發名為Zapformer的通用聲音基座模型,旨在突破傳統語音識別的局限,實現從“人聲”到“萬聲”的跨越。
Daniel Povey坦言,探索性研究的成功率極低,但他堅信“廣撒網”的策略終將有所回報。他以自身經歷為例,早年提出的類似LayerNorm的歸一化模塊,雖未在當時引起關注,卻為后續研究提供了靈感。這種對長期價值的堅持,也體現在小米的AI戰略中:既通過SOTA級技術賦能“人車家全生態”,又支持團隊在語音、模型架構等領域開展前沿探索。在他看來,這種“雙軌制”是大公司在技術競爭中保持活力的關鍵。






















