中國(guó)超300個(gè)大模型,僅有4成完成備案

六和璧
現(xiàn)在國(guó)產(chǎn)大模型“百家爭(zhēng)鳴”的熱鬧氛圍讓我想起了團(tuán)購(gòu)網(wǎng)站“千團(tuán)大戰(zhàn)”的時(shí)候,互聯(lián)網(wǎng)贏(yíng)家通吃的現(xiàn)實(shí)催促著所有人全力沖刺。
國(guó)內(nèi)很多公司開(kāi)發(fā)的大模型都在拿GPT3.5或者4對(duì)標(biāo),宣稱(chēng)在某些方面“不落下風(fēng)”,有的號(hào)稱(chēng)在參數(shù)更少的情況下性能相當(dāng),有的甚至宣稱(chēng)“全面領(lǐng)先”。這些模型是如何實(shí)現(xiàn)這些所謂的領(lǐng)先呢?
簡(jiǎn)而言之,這多半是過(guò)擬合現(xiàn)象導(dǎo)致的。所謂過(guò)擬合,是機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模中的一個(gè)常見(jiàn)問(wèn)題,簡(jiǎn)單來(lái)說(shuō),就是在測(cè)試中表現(xiàn)出色,而在實(shí)際應(yīng)用中卻不盡如人意。
因此,在評(píng)估大模型能力時(shí),我們不應(yīng)過(guò)分關(guān)注這些測(cè)試集的得分。實(shí)際上,過(guò)度擬合在生活中的例子比比皆是,如大學(xué)排名的刷分、自媒體的刷流量等。真正優(yōu)秀的模型應(yīng)當(dāng)是在公開(kāi)市場(chǎng)競(jìng)爭(zhēng)中,人們?cè)敢鉃槠渲Ц额~外費(fèi)用的模型。其他任何補(bǔ)充說(shuō)明都是多余的。
大浪淘沙,接下來(lái)的大模型“淘汰賽”正在進(jìn)行中,“鹿死誰(shuí)手”,還得看核心本事。