出品 | 搜狐科技
作者 | 梁昌均
在DeepSeek成為新晉“源神”后,國(guó)內(nèi)此前的開(kāi)源領(lǐng)頭羊阿里加快追趕。
這不,阿里通義團(tuán)隊(duì)又上新了。這次他們推出最新推理模型QwQ-32B。這是一款擁有320億參數(shù)的模型,其性能可與具備6710億參數(shù)(其中370億被激活)的DeepSeek-R1媲美。
這意味著,QwQ-32B用不到5%的參數(shù)規(guī)模,達(dá)到了DeepSeek-R1的相同性能?!斑@一成果突顯了將強(qiáng)化學(xué)習(xí)應(yīng)用于經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練的強(qiáng)大基礎(chǔ)模型的有效性?!蓖x團(tuán)隊(duì)表示。
繼深度學(xué)習(xí)之后,強(qiáng)化學(xué)習(xí)正在成為影響AI技術(shù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力,DeepSeek、OpenAI、谷歌等此前均因此受益。
最近官宣的2024年圖靈獎(jiǎng),“強(qiáng)化學(xué)習(xí)之父”理查德·薩頓(Richard S. Sutton)及其76歲的導(dǎo)師安德魯·巴托(Andrew G. Barto),憑借奠基研發(fā)強(qiáng)化學(xué)習(xí)技術(shù)而共同獲獎(jiǎng)。
圖靈獎(jiǎng)被譽(yù)為“計(jì)算機(jī)領(lǐng)域的諾貝爾獎(jiǎng)”,如今頒給強(qiáng)化學(xué)習(xí)奠基人,一定程度也證明了,AI的強(qiáng)化學(xué)習(xí)時(shí)代,真的來(lái)了。
阿里通義團(tuán)隊(duì)更是表示,相信將更強(qiáng)大的基礎(chǔ)模型與依托規(guī)模化計(jì)算資源的強(qiáng)化學(xué)習(xí)相結(jié)合,會(huì)更接近實(shí)現(xiàn)通用人工智能(AGI)。
性能媲美DeepSeek-R1,開(kāi)放力度沒(méi)DeepSeek大
根據(jù)阿里通義團(tuán)隊(duì)公布的系列基準(zhǔn)測(cè)試,包括數(shù)學(xué)推理(AIME2024)、編程能力( LiveCodeBench )和通用能力(LiveBench)等,QwQ-32B均接近或超過(guò)滿血版的DeepSeek-R1-671B模型,同時(shí)遠(yuǎn)超過(guò)OpenAI-o1-mini,以及R1蒸餾模型。
展開(kāi)全文
其中在被業(yè)內(nèi)評(píng)為“最難LLMs評(píng)測(cè)榜”的LiveBench上,QwQ-32B超過(guò)了R1。該測(cè)評(píng)基準(zhǔn)由圖靈獎(jiǎng)得主、Meta首席科學(xué)家楊立昆聯(lián)合紐約大學(xué)等推出,從多個(gè)復(fù)雜維度對(duì)模型進(jìn)行評(píng)估,包括數(shù)學(xué)、推理、編程、語(yǔ)言理解、指令遵循和數(shù)據(jù)分析等。
此外,在谷歌等提出的指令遵循能力IFEval評(píng)測(cè)集,以及加州大學(xué)伯克利分校等提出的評(píng)估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測(cè)試中,QwQ-32B的得分也均超越了DeepSeek- R1。在更小尺寸模型上,實(shí)現(xiàn)了更強(qiáng)性能。
目前,該模型已上線阿里云平臺(tái),開(kāi)發(fā)者可在云端部署,并進(jìn)行模型微調(diào)、評(píng)測(cè)和應(yīng)用搭建。同時(shí),由于更低參數(shù),QwQ-32B還能滿足更低的資源消耗需求,可以在消費(fèi)級(jí)顯卡上實(shí)現(xiàn)本地部署,適合快速響應(yīng)或?qū)?shù)據(jù)安全要求高的應(yīng)用場(chǎng)景。
不少網(wǎng)友反饋,蘋(píng)果Mac就可跑這款模型。而要高效運(yùn)行DeepSeek模型,至少需要22臺(tái)服務(wù)器(每臺(tái)8張GPU)。相比之下,QwQ-32B大大降低了推理部署的成本門(mén)檻。
同時(shí),QwQ-32B已在 Hugging Face和 ModelScope開(kāi)源,并采用了Apache 2.0開(kāi)源協(xié)議,所有人都可免費(fèi)下載及商用。
Apache 2.0是 Apache軟件基金會(huì)發(fā)布的開(kāi)源許可證,是一個(gè)相對(duì)寬松的許可證,開(kāi)發(fā)者可以自由地使用、修改和分發(fā)軟件,適用于商業(yè)項(xiàng)目,同時(shí)也有附加條款,如開(kāi)發(fā)者要保留版權(quán)聲明、許可證文本和NOTICE文件,并包含專利授權(quán)條款,從而既提供了靈活性,又確保了合規(guī)性和專利安全,成為很多開(kāi)源項(xiàng)目的首選。
對(duì)比來(lái)看,DeepSeek-R1模型則使用MIT開(kāi)源協(xié)議,完全開(kāi)源,不限制商用,無(wú)需申請(qǐng),同時(shí)產(chǎn)品協(xié)議明確可模型蒸餾,允許用戶利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。
相較而言,MIT許可證是最簡(jiǎn)單和寬松的開(kāi)源協(xié)議,許可證文本更為簡(jiǎn)潔,沒(méi)有專利授權(quán)和商標(biāo)使用等復(fù)雜條款,因此更適合快速開(kāi)發(fā)和商業(yè)化。這也是為什么DeepSeek-R1發(fā)布后,國(guó)內(nèi)上百家企業(yè)都能夠迅速接入、推動(dòng)商用的原因。
此外,DeepSeek此前通過(guò)開(kāi)源周公布了覆蓋算力、通信與存儲(chǔ)等關(guān)鍵領(lǐng)域的代碼庫(kù),將降低硬件適配門(mén)檻、提高模型訓(xùn)練與推理效率的方法公之于眾,成為當(dāng)之無(wú)愧的“源神”。
對(duì)比來(lái)看,通義團(tuán)隊(duì)此次并未公布QwQ-32B有關(guān)論文和具體訓(xùn)練方法,在開(kāi)放開(kāi)源程度上相對(duì)較弱。不過(guò),從規(guī)??矗⒗飫t是當(dāng)之無(wú)愧的開(kāi)源領(lǐng)頭羊。
從2023年至今,阿里通義已開(kāi)源200多款模型,包含大語(yǔ)言模型千問(wèn)及視覺(jué)生成模型萬(wàn)相等兩大基模系列,覆蓋從0.5B到110B等參數(shù)。目前,千問(wèn)的全球衍生模型已突破9萬(wàn)個(gè),超越Llama系列,成為全球最大的開(kāi)源模型族群。
跟多的對(duì)手在追剛。智譜此前表示,今年將是開(kāi)源年,將會(huì)發(fā)布全新大模型(包括基座模型、推理模型、多模態(tài)模型、Agent等)并將其開(kāi)源。百度也宣布,即將發(fā)布的文心大模型4.5也會(huì)開(kāi)源,國(guó)內(nèi)開(kāi)源模型的競(jìng)爭(zhēng)將會(huì)進(jìn)一步加劇。
強(qiáng)化學(xué)習(xí)又立大功,邁向AGI的可行之路?
如何實(shí)現(xiàn)更小尺寸模型,達(dá)到更強(qiáng)性能?阿里通義團(tuán)隊(duì)借助了強(qiáng)化學(xué)習(xí)(RL)的力量。
此前,DeepSeek-R1借助強(qiáng)化學(xué)習(xí),通過(guò)整合冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練,跳過(guò)無(wú)監(jiān)督微調(diào),使模型能夠進(jìn)行深度思考和復(fù)雜推理。
QwQ-32B此次則重點(diǎn)探討了大規(guī)模強(qiáng)化學(xué)習(xí)對(duì)大語(yǔ)言模型的智能的提升作用。通義團(tuán)隊(duì)介紹,該模型在冷啟動(dòng)基礎(chǔ)上,針對(duì)數(shù)學(xué)和編程任務(wù)、通用能力分別進(jìn)行了兩輪大規(guī)模強(qiáng)化學(xué)習(xí),從而獲得了令人驚喜的推理能力提升,應(yīng)證了大規(guī)模強(qiáng)化學(xué)習(xí)可顯著提高模型性能。
在初始階段,團(tuán)隊(duì)針對(duì)數(shù)學(xué)和編程任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程中,與依賴傳統(tǒng)的獎(jiǎng)勵(lì)模型(reward model)不同,通過(guò)校驗(yàn)生成答案的正確性提供反饋。隨著強(qiáng)化學(xué)習(xí)拓展和訓(xùn)練輪次的推進(jìn),這兩個(gè)領(lǐng)域中的性能均表現(xiàn)出持續(xù)的提升。
在第一階段的強(qiáng)化學(xué)習(xí)過(guò)后,通義團(tuán)隊(duì)又增加了針對(duì)通用能力的強(qiáng)化學(xué)習(xí),并使用通用獎(jiǎng)勵(lì)模型和基于規(guī)則的驗(yàn)證器進(jìn)行訓(xùn)練。最終發(fā)現(xiàn),通過(guò)少量步驟的通用強(qiáng)化學(xué)習(xí),可以提升通用能力,且數(shù)學(xué)和編程任務(wù)上的性能沒(méi)有顯著下降。
此外,QwQ-32B模型中還集成了與智能體Agent相關(guān)的能力,使其能夠在使用工具的同時(shí)進(jìn)行批判性思考,并根據(jù)環(huán)境反饋調(diào)整推理過(guò)程。
不過(guò),不同于DeepSeek-R1,QwQ-32B是一個(gè)密集模型,未采用MoE結(jié)構(gòu)(專家模型),并支持131k的上下文長(zhǎng)度,比R1的128k略長(zhǎng)。
“這是通義在大規(guī)模強(qiáng)化學(xué)習(xí)以增強(qiáng)推理能力方面的第一步。我們不僅見(jiàn)證了擴(kuò)展強(qiáng)化學(xué)習(xí)的巨大潛力,還認(rèn)識(shí)到預(yù)訓(xùn)練語(yǔ)言模型中尚未開(kāi)發(fā)的可能性?!卑⒗锿x團(tuán)隊(duì)表示,將積極探索將智能體與強(qiáng)化學(xué)習(xí)集成,目標(biāo)是通過(guò)推理時(shí)間擴(kuò)展來(lái)釋放更高的智能。
目前,智能體被視為大模型超級(jí)應(yīng)用的突破點(diǎn)。今日發(fā)布的號(hào)稱世界首個(gè)通用智能體產(chǎn)品的Manus,引發(fā)關(guān)注。如何將智能體與強(qiáng)化學(xué)習(xí)集成,能否顯著提升模型性能,還有待驗(yàn)證。
隨著OpenAI、谷歌、DeepSeek、阿里等團(tuán)隊(duì)推理模型的研究實(shí)踐,強(qiáng)化學(xué)習(xí)已經(jīng)成為驅(qū)動(dòng)AI智能提升的核心。它曾于2016年在AlphaGo上展現(xiàn)出巨大威力,如今再一次放出光芒。
這在學(xué)術(shù)界也得到認(rèn)可。最近,美國(guó)計(jì)算機(jī)學(xué)會(huì)ACM宣布,理查德·薩頓及安德魯·巴托為2024年ACM圖靈獎(jiǎng)獲得者,以表彰他們?yōu)閺?qiáng)化學(xué)習(xí)奠定了概念和算法基礎(chǔ),早年的“冷板凳”算是得到了正名。
1998年,兩人共同撰寫(xiě)了奠基之作《強(qiáng)化學(xué)習(xí)導(dǎo)論》,并被引用接近8萬(wàn)次。后來(lái),強(qiáng)化學(xué)習(xí)還與深度學(xué)習(xí)(由2018年圖靈獎(jiǎng)得主Yoshua Bengio、Geoffrey Hinton和Yann LeCun研究)結(jié)合,催生了深度強(qiáng)化學(xué)習(xí)技術(shù)。
因此,薩頓在業(yè)內(nèi)也被稱為“強(qiáng)化學(xué)習(xí)之父”。獲獎(jiǎng)后,他引用了艾倫·圖靈的名言稱:“我們想要的是一臺(tái)能從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器?!?/p>
在薩頓看來(lái),強(qiáng)化學(xué)習(xí)的核心,是確保機(jī)器從經(jīng)驗(yàn)中學(xué)習(xí),或者理解反饋并從錯(cuò)誤中學(xué)習(xí),而此前的AI路線只是在模仿人類的行為或經(jīng)驗(yàn)。
強(qiáng)化學(xué)習(xí)的代表作,除了AlphaGo,ChatGPT實(shí)際上也采用了基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)技術(shù)。DeepSeek則向前推了一步,利用純強(qiáng)化學(xué)習(xí)得到了性能先進(jìn)的模型,通義此次則又在大規(guī)模強(qiáng)化學(xué)習(xí)探索上邁了一步。
谷歌高級(jí)副總裁Jeff Dean認(rèn)為,強(qiáng)化學(xué)習(xí)是AI熱潮的核心支柱,帶來(lái)了重大進(jìn)展,吸引了大批年輕研究人員,強(qiáng)化學(xué)習(xí)的影響在未來(lái)仍將持續(xù)。而薩頓很早就提出,強(qiáng)化學(xué)習(xí)才是AI的未來(lái)。
“希望我們的一點(diǎn)努力能夠證明,強(qiáng)大的基礎(chǔ)模型疊加大規(guī)模強(qiáng)化學(xué)習(xí)也許是一條通往通用人工智能的可行之路?!卑⒗锿x團(tuán)隊(duì)表示。
技術(shù)的進(jìn)步是無(wú)止境的,而更多的創(chuàng)新將會(huì)涌現(xiàn)。
評(píng)論