OpenAI近期在緊湊型推理模型o4-mini上引入了強化微調技術(RFT),為開發者提供了一種全新的工具,旨在幫助他們將基礎模型定制化以適應特定任務需求。這一技術的推出,標志著OpenAI在模型微調領域邁出了重要一步。
RFT技術巧妙地將強化學習原理應用于語言模型的微調過程中,打破了傳統微調模式的局限。以往,開發者主要依賴標注數據來調整模型,而現在,他們可以通過設計任務特定的評分函數來評估模型輸出。這些評分函數基于自定義標準,如準確性、格式或語氣,為模型表現打分。模型則通過優化獎勵信號,逐步學習并生成符合期望的行為。
o4-mini是OpenAI于今年4月發布的一款緊湊型推理模型,具備文本和圖像輸入功能,尤其擅長結構化推理和鏈式思維提示。RFT技術在o4-mini上的應用,為開發者提供了一個既輕量又強大的基礎模型,非常適合處理高風險、領域特定的推理任務。其高效的計算能力和快速的響應速度,使得o4-mini在實時應用場景中表現出色。
使用RFT技術需要經歷四個關鍵步驟:首先,開發者需要設計評分函數;其次,準備高質量的數據集;然后,通過OpenAI API啟動訓練任務;最后,持續評估和優化模型表現。這一流程使得RFT技術在處理復雜任務時尤為有效,尤其是在那些難以定義標準答案的領域,如醫療和法律等。
在醫療領域,開發者可以通過程序評估解釋的清晰度和完整性,從而指導模型不斷改進。同樣,在法律和代碼生成等領域,RFT技術也展現出了其定制化優勢。多家早期采用者已經成功在o4-mini上應用了RFT技術,并取得了顯著成果。
目前,RFT技術已經向認證組織開放。訓練費用為每小時100美元,若使用GPT-4o等模型作為評分工具,則還需按標準推理費率額外計費。為了鼓勵數據共享,OpenAI還推出了激勵措施。同意共享數據集用于研究的組織,可以享受50%的訓練費用折扣。這一舉措不僅降低了使用RFT技術的成本,還促進了學術界和工業界的合作與交流。