<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<tt id="1pehy"><video id="1pehy"></video></tt>

研究稱(chēng)大模型視覺(jué)能力不如6歲小孩 Gemini僅勝3歲小孩

2026-01-23 17:40:02 來(lái)源：新經(jīng)網(wǎng) 作者：馮思韻

很多朋友不知道【研究稱(chēng)大模型視覺(jué)能力不如6歲小孩 Gemini僅勝3歲小孩】，今天小綠就為大家解答一下。

【CNMO科技消息】近日，UniPat AI、xbench、阿里、月之暗面、階躍星辰等多家研究機構的發(fā)布的最新研究顯示，在BabyVision視覺(jué)推理benchmark上，Gemini 3 Pro Preview僅小勝三歲兒童，跟六歲兒童仍有20%的差距。

研究稱(chēng)大模型視覺(jué)能力不如6歲小孩 Gemini僅勝3歲小孩

研究指出，這種現象并非偶然。當前的大多數多模態(tài)大模型在處理視覺(jué)信息時(shí)，都會(huì )先將圖像轉換為語(yǔ)言描述，再利用強大的語(yǔ)言模型進(jìn)行推理。然而，這種“語(yǔ)言化”的處理方式導致了致命的視覺(jué)信息丟失：語(yǔ)言無(wú)法精確描述像素級的精細差異。當面臨細微的邊界曲線(xiàn)或空間關(guān)系時(shí)，模型往往無(wú)法像人類(lèi)幼兒那樣直接在視覺(jué)空間中進(jìn)行幾何匹配，而是受限于語(yǔ)言表達的模糊性。

研究稱(chēng)大模型視覺(jué)能力不如6歲小孩 Gemini僅勝3歲小孩

據CNMO了解，Gemini 3 Pro Preview在benchmark上得分僅為49.7%，雖然略微領(lǐng)先于其他模型（如GPT-5.2、Claude 4.5 Opus、Grok-4），但其在“找不同”、路徑追蹤和空間想象等任務(wù)中頻頻失誤。例如，在找拼圖任務(wù)中，它錯誤地將兩個(gè)幾乎相同的形狀選為匹配，完全忽略了細微的幾何差異。

面對這一挑戰，研究團隊提出了兩種潛在的突破方向：一種是通過(guò)強化學(xué)習（RLVR）微調模型，在語(yǔ)言推理中引入更顯式的中間視覺(jué)步驟；另一種是探索基于生成式建模的視覺(jué)推理方法，試圖讓模型直接在像素空間內繪制軌跡或補全圖案，以繞過(guò)語(yǔ)言描述的瓶頸。盡管目前效果尚不理想，但這一方向被視為未來(lái)AI具身智能的關(guān)鍵突破口。

版權所有，未經(jīng)許可不得轉載

以上問(wèn)題已經(jīng)回答了。如果你想了解更多，請關(guān)新經(jīng)網(wǎng)網(wǎng)站 (http://www.hkkqyy120.com/)

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時(shí)間聯(lián)系我們修改或刪除，多謝。

RM新时代投资官网

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<kbd id="ljlr3"><sub id="ljlr3"></sub></kbd>

<delect id="ljlr3"><noscript id="ljlr3"><cite id="ljlr3"></cite></noscript></delect>

<pre id="idklr"><samp id="idklr"></samp></pre>

<var id="idklr"></var>