近期,ChatGPT及其同類AI產品的能力進步顯著,但用戶逐漸意識到這些智能助手有時會提供錯誤信息,甚至能編造出看似合理的答案,且態度一本正經。
根據OpenAI官方數據,在專門用于檢測AI“幻覺”的PersonQA測試中,o4-mini的準確率低于其前代o1和o3,編造答案的頻率更是o1的三倍。而性能更強的o3雖然整體準確率有所提升,但其編造答案的概率也比o1高出兩倍。研發團隊表示,盡管他們為模型加入了圖像分析和聯網檢索能力,但仍無法解釋為何升級后的產品更容易產生不實信息。
值得注意的是,這些新模型展現出了巨大的潛力,如通過照片定位拍攝地點、深度解析網頁信息以及構建復雜的邏輯鏈條。然而,就像脫韁的想象力,它們在推理過程中往往會夾雜虛構內容。OpenAI的工程師們至今未能找到解決這一技術難題的方法。
在實際應用中,o4-mini有時會過早地給出結論,這可能意味著在信息加工過程中存在某種程度的失真。因此,在可預見的未來,對AI輸出的審慎核查仍將是一項必要的工作。在追求智能的道路上,真實與幻象之間的界限往往十分微妙。