近日,Anthropic公司在其舉辦的一場活動中,震撼發(fā)布了Claude Opus 4與Claude Sonnet 4兩款新一代語言模型,標(biāo)志著人工智能在結(jié)構(gòu)化推理、軟件工程及自主代理行為等領(lǐng)域取得了顯著突破。
Claude Opus 4,被譽為Anthropic迄今為止的巔峰之作,專為應(yīng)對復(fù)雜推理流程和軟件開發(fā)場景而生。據(jù)官方博文介紹,該模型在SWE-bench基準(zhǔn)測試中表現(xiàn)卓越,解決真實GitHub問題的能力達到了72.5%的準(zhǔn)確率;在TerminalBench測試中,其多步驟終端代碼生成任務(wù)的準(zhǔn)確率也高達43.2%。尤為Opus 4在軟件環(huán)境中展現(xiàn)出了驚人的自主行為能力,得益于其改進的內(nèi)存管理、更廣泛的上下文保留以及增強的內(nèi)部規(guī)劃機制,據(jù)Rakuten測試數(shù)據(jù)顯示,它能夠連續(xù)進行近7小時的代碼生成和任務(wù)執(zhí)行,這一成績不僅刷新了AI世界紀(jì)錄,更是遠超其前代Claude 3 Opus的不足1小時表現(xiàn)。
Anthropic公司強調(diào),其AI模型并非旨在取代人類工作崗位,而是作為日常工作的自動化工具存在。然而,marktechpost媒體卻認為,Claude 4系列的問世,將徹底改變AI的使用方式,使AI從以往單一任務(wù)的輔助工具,轉(zhuǎn)變?yōu)楣δ芨鼜?、?yīng)用范圍更廣的“AI同事”,幾乎能夠勝任一個完整工作班次的任務(wù)。
與此同時,Claude Sonnet 4也以其穩(wěn)定的架構(gòu)、提升的速度與質(zhì)量,以及未顯著增加的計算成本,成功接替了前代Claude 3.5 Sonnet。該模型針對中規(guī)模部署進行了優(yōu)化,適合在成本與性能之間尋求平衡的場景應(yīng)用。盡管在推理能力上稍遜于Opus 4,但Sonnet 4同樣繼承了眾多架構(gòu)升級,支持多文件代碼導(dǎo)航、中間工具使用以及結(jié)構(gòu)化文本處理,且延遲表現(xiàn)更佳。目前,它已成為Claude.ai免費用戶的默認模型,并通過API提供服務(wù),廣泛應(yīng)用于輕量開發(fā)工具、用戶助手和分析流程等領(lǐng)域。
兩款模型均具備混合推理能力,提供了“快速模式”與“擴展思考模式”兩種選擇??焖倌J竭m用于低延遲的簡短對話任務(wù),而擴展思考模式則專為需要深度推理和多輪代理行為的復(fù)雜任務(wù)設(shè)計。這種雙模式策略使用戶能夠根據(jù)任務(wù)復(fù)雜度靈活分配計算資源,提高了工作效率。
Claude Opus 4和Sonnet 4還可通過Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等多個云平臺進行訪問,支持從自主代理到代碼分析等多種企業(yè)應(yīng)用場景。這一特性進一步拓寬了它們的應(yīng)用范圍,使得更多企業(yè)能夠享受到AI技術(shù)帶來的便利與效率提升。