很多朋友不知道【谷歌宣布開(kāi)源多模態(tài)大模型Gemma3 媲美DeepSeek】,今天小綠就為大家解答一下。
多模態(tài)能力是Gemma-3的一大技術(shù)亮點(diǎn)。該模型能夠同時(shí)處理文本和圖像,并集成了定制版的SigLIP視覺(jué)編碼器。這一編碼器基于Vision Transformer架構,通過(guò)CLIP損失的變體進(jìn)行訓練。

在性能測試方面,根據LMSYS ChatbotArena的盲測數據,Gemma-3的表現僅次于DeepSeek的R1-671B,優(yōu)于OpenAI的o3-mini和Llama3-405B等知名模型。

為了評估Gemma-3的性能,谷歌在MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR等多個(gè)主流平臺進(jìn)行了測試。結果顯示,Gemma-3在多模態(tài)任務(wù)中表現出色,例如在DocVQA、InfoVQA和TextVQA等任務(wù)中,其性能顯著(zhù)優(yōu)于前代模型。在長(cháng)文本處理方面,270億參數版本的Gemma-3在RULER128K任務(wù)上達到了66.0%的準確率。

在架構設計上,Gemma-3延續了前兩代的通用解碼器Transformer架構,并進(jìn)行了多項創(chuàng )新和優(yōu)化。為解決長(cháng)上下文帶來(lái)的內存占用問(wèn)題,Gemma-3采用了局部和全局自注意力層交錯的架構:每5個(gè)局部層之間插入1個(gè)全局層,局部層的跨度僅為1024個(gè)token。由于只有全局層負責處理長(cháng)上下文,局部層僅關(guān)注1024個(gè)token的小跨度,從而有效降低了內存占用。版權所有,未經(jīng)許可不得轉載
【CNMO科技消息】日前,谷歌首席執行官Sundar Pichai宣布開(kāi)源最新多模態(tài)大模型Gemma-3,主打低成本與高性能。Gemma-3提供四種不同參數規模的版本,分別為10億、40億、120億和270億參數。即便在參數量最大的270億版本中,僅需一張H100顯卡即可實(shí)現高效推理。相比之下,同類(lèi)模型若要達到類(lèi)似效果,至少需要提升10倍算力。因此,Gemma-3也是目前性能最強的小參數模型之一。
以上問(wèn)題已經(jīng)回答了。如果你想了解更多,請關(guān)
新經(jīng)網(wǎng)網(wǎng)站 (
http://www.hkkqyy120.com/)