馬斯克發(fā)布Grok3:多項(xiàng)測(cè)試超越DeepSeek,展現(xiàn)強(qiáng)勁競(jìng)爭(zhēng)力
轉(zhuǎn)載自《AI范兒》
xAI今日發(fā)布新一代大語(yǔ)言模型Grok-3及其精簡(jiǎn)版Grok-3 mini。最新基準(zhǔn)測(cè)試顯示,Grok-3在與DeepSeek的直接對(duì)比中展現(xiàn)出顯著優(yōu)勢(shì)。
在數(shù)學(xué)能力測(cè)試(AIME'24)中,Grok-3獲得52分,明顯超過(guò)DeepSeek-V3的39分??茖W(xué)知識(shí)評(píng)估(GPQA)方面,Grok-3以75分的成績(jī)領(lǐng)先,而DeepSeek-V3為65分。在編程能力測(cè)試(LCB Oct-Feb)中,Grok-3同樣以57分超過(guò)DeepSeek-V3的36分。
最新公布的AIME 2025性能測(cè)試中,Grok-3 Reasoning Beta版本在推理和計(jì)算時(shí)間復(fù)合評(píng)分上取得93分的優(yōu)異成績(jī),其精簡(jiǎn)版本Grok-3 mini也達(dá)到了90分。相比之下,DeepSeek-R1的得分為75分,而Gemini-2 Flash Thinking僅為54分。這一結(jié)果進(jìn)一步凸顯了Grok-3在復(fù)雜數(shù)學(xué)推理和計(jì)算效率方面的突出優(yōu)勢(shì)。
展開(kāi)全文
特別值得注意的是,DeepSeek近期發(fā)布的DeepSeek-R1在其他推理能力測(cè)試中也未能趕超Grok-3。在數(shù)學(xué)推理中,Grok-3獲得93分,DeepSeek-R1為73分;科學(xué)推理中,Grok-3得分85分,DeepSeek-R1為74分;編程推理中,Grok-3達(dá)到79分,而DeepSeek-R1為65分。
此外,在LMSYS聊天機(jī)器人競(jìng)技場(chǎng)評(píng)估中,Grok-3的得分約為1400分,不僅超過(guò)了DeepSeek系列,也領(lǐng)先于其他主流大模型,包括GPT-4、Claude等。
這些數(shù)據(jù)表明,盡管DeepSeek在過(guò)去幾個(gè)月展現(xiàn)出強(qiáng)勁的發(fā)展勢(shì)頭,但Grok-3的整體性能仍然保持領(lǐng)先地位。特別是在數(shù)學(xué)推理和計(jì)算效率方面的優(yōu)勢(shì)更為明顯,這不僅體現(xiàn)了xAI在模型研發(fā)上的技術(shù)實(shí)力,也顯示出AI領(lǐng)域競(jìng)爭(zhēng)的白熱化程度。
評(píng)論