每經(jīng)記者 蔡 鼎 實(shí)習記者 岳楚鵬 每經(jīng)編輯 蘭素英
近日,據The Information報道,OpenAI的下一代旗艦模型可能不會(huì )像前面幾代產(chǎn)品那樣實(shí)現巨大的飛躍。
據報道,測試代號為Orion的新模型的員工發(fā)現,盡管新模型性能超過(guò)了OpenAI現有的模型,但進(jìn)步程度并不如從GPT- 3到GPT-4那么大。
換句話(huà)說(shuō),OpenAI進(jìn)步的速度似乎正在放緩。根據一些內部員工的說(shuō)法,在諸如編程這類(lèi)任務(wù)上,Orion并不比之前的模型更可靠。OpenAI員工和研究人員表示,GPT研發(fā)速度放緩的原因之一是高質(zhì)量文本和其他數據的供應量在不斷減少。
為應對這種情況,OpenAI成立了一個(gè)基礎團隊,以研究如何在新訓練數據不斷減少的情況下繼續改進(jìn)模型。據報道,這些新策略包括使用AI模型生成的合成數據對Orion進(jìn)行訓練等。
目前,OpenAI并未回應相關(guān)消息的評論請求。不過(guò)上個(gè)月OpenAI曾表示,“今年沒(méi)有發(fā)布代號為Orion的模型的計劃”。
在語(yǔ)言任務(wù)上表現更好
使用ChatGPT的用戶(hù)數量正在飆升。不過(guò),ChatGPT的底層模型改進(jìn)速度似乎正在放緩。
OpenAI即將推出的旗艦模型Orion所面臨的挑戰顯示了OpenAI所面臨的困難。今年5月,OpenAI首席執行官阿爾特曼告訴員工,他預計正在訓練的Orion可能會(huì )比一年前發(fā)布的上一款模型好得多。
The Information近日援引知情人士的消息稱(chēng),阿爾特曼表示,盡管OpenAI只完成了Orion訓練過(guò)程的20%,但就智能程度以及完成任務(wù)和回答問(wèn)題的能力而言,它已經(jīng)與GPT-4相當。
然而,一些使用或測試過(guò)Orion的OpenAI員工表示,雖然Orion的性能超過(guò)了之前的模型,但與GPT-3到GPT-4的飛躍相比,質(zhì)量的提升要小得多。
OpenAI的一些研究人員認為,在處理某些任務(wù)方面,Orion并不比之前的模型更可靠。The Information援引OpenAI一名員工的話(huà)稱(chēng),Orion在語(yǔ)言任務(wù)上表現更好,但在編碼等任務(wù)上可能不會(huì )勝過(guò)之前的模型。其中一位員工表示,與OpenAI最近發(fā)布的其他模型相比,Orion在數據中心運行成本可能更高。
OpenAI 研 究 員 Noam Brown上個(gè)月在TED AI會(huì )議上表示,開(kāi)發(fā)更先進(jìn)的模型在財務(wù)上可能不可行。
“我們真要訓練耗資數千億美元或數萬(wàn)億美元的模型嗎?”Brown說(shuō),“在某個(gè)時(shí)候,擴展范式(Scaling paradigm)就會(huì )崩潰?!?/p>
數據資源被榨干了?
Scaling law是AI領(lǐng)域的一個(gè)核心假設:只要有更多的數據可供學(xué)習,以及額外的計算能力來(lái)促進(jìn)訓練過(guò)程,大語(yǔ)言模型(LLM)就會(huì )繼續以相同的速度改進(jìn)。
扎克伯格、阿爾特曼等也公開(kāi)表示,他們尚未觸及傳統Scaling law的極限。
這就是為什么包括OpenAI在內的公司仍花費數十億美元來(lái)建造昂貴的數據中心,以盡可能地從預訓練模型中獲取性能提升。
雖然理論上目前的模型并沒(méi)有觸及Scaling law的極限,但是可供使用的數據來(lái)源卻快要干涸了。
OpenAI的員工和研究人員表示,GPT模型減速的一個(gè)原因是高質(zhì)量文本和其他數據的供應不足。大語(yǔ)言模型需要在預訓練期間處理這些數據,以理解世界和不同概念之間的關(guān)系,從而解決撰寫(xiě)文章或編程錯誤等問(wèn)題。
The Information援引知情人士的消息稱(chēng),過(guò)去幾年里,大語(yǔ)言模型在預訓練過(guò)程中使用了來(lái)自網(wǎng)站、書(shū)籍和其他來(lái)源的公開(kāi)文本和數據,但模型開(kāi)發(fā)人員基本上已經(jīng)把這類(lèi)數據資源榨干了。
已有合成數據用于訓練
為了應對這種情況,OpenAI成立了一個(gè)基礎團隊,以研究如何在新訓練數據不斷減少的情況下繼續改進(jìn)模型。該團隊由之前負責預訓練的Nick Ryder領(lǐng)導。OpenAI表示,這個(gè)團隊將研究如何應對訓練數據的匱乏,以及Scaling law還能適用多長(cháng)時(shí)間。
OpenAI的一名員工稱(chēng),Orion的訓練數據里有一部分是AI生成的合成數據。這些數據由GPT-4和最近發(fā)布的推理模型o1生成。然而,該員工表示,這種合成數據導致了一個(gè)新問(wèn)題,即Orion 最終可能會(huì )在某些方面與那些舊模型相似。
軟件公司Databricks的聯(lián)合創(chuàng )始人兼董事長(cháng)Ion Stoica表示,這種合成數據可能并不能幫助AI進(jìn)步。
除此之外,OpenAI的研究者們在模型訓練后階段進(jìn)行了額外的改進(jìn)。比如,OpenAI采用了強化學(xué)習方法,通過(guò)讓模型從大量有正解的任務(wù)中學(xué)習(比如數學(xué)或編程問(wèn)題),以此來(lái)改進(jìn)處理特定任務(wù)的方式。
同時(shí),OpenAI還會(huì )請人工評估員對預訓練的模型在特定任務(wù)上進(jìn)行測試,并對答案進(jìn)行評分。這有助于研究者調整模型,以更好地應對諸如寫(xiě)作或編程等特定類(lèi)型的請求。這一方法,即附帶人類(lèi)反饋的強化學(xué)習,有助于改進(jìn)之前的AI模型。
o1就是OpenAI使用這種改進(jìn)手段得到的成果,o1模型在給出答案前,會(huì )花更多時(shí)間來(lái)“思考”大語(yǔ)言模型在訓練過(guò)程中處理的數據。這意味著(zhù),即使不對底層模型進(jìn)行修改,只要在回答用戶(hù)問(wèn)題時(shí)提供額外的計算資源,o1模型的回應質(zhì)量就能持續提升。據知情人士透露,如果OpenAI能夠持續改進(jìn)底層模型的質(zhì)量,哪怕速度較慢,也能顯著(zhù)提升推理效果。
“這為我們提供了一個(gè)全新的擴展維度?!盉rown在TED AI大會(huì )上表示,研究人員可以通過(guò)將每次查詢(xún)的成本從一分錢(qián)提升到十分錢(qián)來(lái)提高模型的響應質(zhì)量。
阿爾特曼同樣強調了OpenAI推理模型的重要性,這些模型可以與LLMs結合。阿爾特曼在10月份一個(gè)面向應用開(kāi)發(fā)者的活動(dòng)中表示:“我希望推理功能能解鎖我們多年來(lái)期待實(shí)現的許多功能——例如,讓這類(lèi)模型有能力貢獻新的科學(xué)知識,幫助編寫(xiě)更復雜的代碼?!?/p>
但兩位知情員工表示,o1模型目前的價(jià)格比非推理模型高出六倍,因此它沒(méi)有廣泛的客戶(hù)群。
與此同時(shí),o1模型的安全性也被很多人詬病,《自然》雜志就曾表示,在評估過(guò)程中,他們發(fā)現o1有時(shí)會(huì )遺漏關(guān)鍵安全信息,例如未強調爆炸危險或建議不適當的化學(xué)品控制方法。
值得一提的是,OpenAI安全系統團隊負責人翁荔(Lilian Weng)近日宣布將離開(kāi)已經(jīng)工作了近7年的OpenAI。