很多朋友不知道【研究稱(chēng)大模型視覺(jué)能力不如6歲小孩 Gemini僅勝3歲小孩】,今天小綠就為大家解答一下。
【CNMO科技消息】近日,UniPat AI、xbench、阿里、月之暗面、階躍星辰等多家研究機構的發(fā)布的最新研究顯示,在BabyVision視覺(jué)推理benchmark上,Gemini 3 Pro Preview僅小勝三歲兒童,跟六歲兒童仍有20%的差距。

研究指出,這種現象并非偶然。當前的大多數多模態(tài)大模型在處理視覺(jué)信息時(shí),都會(huì )先將圖像轉換為語(yǔ)言描述,再利用強大的語(yǔ)言模型進(jìn)行推理。然而,這種“語(yǔ)言化”的處理方式導致了致命的視覺(jué)信息丟失:語(yǔ)言無(wú)法精確描述像素級的精細差異。當面臨細微的邊界曲線(xiàn)或空間關(guān)系時(shí),模型往往無(wú)法像人類(lèi)幼兒那樣直接在視覺(jué)空間中進(jìn)行幾何匹配,而是受限于語(yǔ)言表達的模糊性。

據CNMO了解,Gemini 3 Pro Preview在benchmark上得分僅為49.7%,雖然略微領(lǐng)先于其他模型(如GPT-5.2、Claude 4.5 Opus、Grok-4),但其在“找不同”、路徑追蹤和空間想象等任務(wù)中頻頻失誤。例如,在找拼圖任務(wù)中,它錯誤地將兩個(gè)幾乎相同的形狀選為匹配,完全忽略了細微的幾何差異。面對這一挑戰,研究團隊提出了兩種潛在的突破方向:一種是通過(guò)強化學(xué)習(RLVR)微調模型,在語(yǔ)言推理中引入更顯式的中間視覺(jué)步驟;另一種是探索基于生成式建模的視覺(jué)推理方法,試圖讓模型直接在像素空間內繪制軌跡或補全圖案,以繞過(guò)語(yǔ)言描述的瓶頸。盡管目前效果尚不理想,但這一方向被視為未來(lái)AI具身智能的關(guān)鍵突破口。
版權所有,未經(jīng)許可不得轉載
以上問(wèn)題已經(jīng)回答了。如果你想了解更多,請關(guān)
新經(jīng)網(wǎng)網(wǎng)站 (
http://www.hkkqyy120.com/)