123,123,123

谷歌最强AI模型Gemini 3正式登场

发布即登顶LMArena，号称迄今最智能

日期： 2025-11-19

來(lái)源：DeepTech深科技

關(guān)鍵詞： Google Gemini3 人工智能

終于，千呼萬(wàn)喚之下，歷經(jīng)多次“預(yù)告”過(guò)后，Gemini 3 終于來(lái)了。

北京時(shí)間 11 月 19 日凌晨，Google 正式發(fā)布了其最新一代人工智能模型 Gemini 3。這款被 CEO 桑達(dá)爾·皮查伊（Sundar Pichai）稱(chēng)為“最智能模型”的產(chǎn)品，在發(fā)布前就已經(jīng)在業(yè)界掀起了不小的波瀾。事實(shí)上，早在10 月中旬，就有爆料稱(chēng) Gemini 3 將在 10 月 22 日登場(chǎng)，但那次“狼來(lái)了”的傳言最終沒(méi)有兌現(xiàn)。

微信圖片_2025-11-19_101611_800.png

（來(lái)源：Google）

到了 11 月中旬，又有敏銳的開(kāi)發(fā)者在移動(dòng)端 Canvas 功能中發(fā)現(xiàn)了端倪：盡管界面顯示仍是 Gemini 2.5 Pro，但輸出質(zhì)量已經(jīng)發(fā)生了質(zhì)的飛躍，特別是在 SVG（Scalable Vector Graphics，可縮放矢量圖形）生成和網(wǎng)頁(yè)設(shè)計(jì)方面，效果遠(yuǎn)超此前版本。

直到 AI Studio 和 Vertex AI 平臺(tái)上開(kāi)始隱約出現(xiàn) Gemini 3 的蹤跡，業(yè)界才意識(shí)到，這次是真的要來(lái)了。而現(xiàn)在，靴子終于落地。

此刻距離 Google 首次推出 Gemini 品牌已經(jīng)過(guò)去近兩年。相較于早期的慌亂和匆忙，這一次，Google 顯然做足了準(zhǔn)備。Gemini 3 的發(fā)布不再是試探性的小步快跑，而是一次全面的、自信的大規(guī)模推送——這是 Google 第一次在發(fā)布當(dāng)天就將最新的 Gemini 模型整合進(jìn)搜索引擎。用 Google 搜索產(chǎn)品副總裁羅比·斯坦（Robby Stein）的話(huà)說(shuō)：“這是我們第一次在搜索中同步發(fā)布最新的 Gemini 模型。”對(duì)于一家以搜索起家、擁有數(shù)十億用戶(hù)的科技巨頭而言，這一決策足以說(shuō)明其對(duì)于新模型的自信。

這款稀疏混合專(zhuān)家（sparse MoE, Mixture-of-Experts）架構(gòu)模型的核心賣(mài)點(diǎn)可以用 Google 自己的話(huà)來(lái)概括:“我們最智能的模型, 幫助你將任何想法變?yōu)楝F(xiàn)實(shí)?！?/p>

從各項(xiàng)基準(zhǔn)測(cè)試的結(jié)果來(lái)看，Gemini 3 確實(shí)配得上我們這么久的期待。在 LMArena 排行榜上，它以 1501 分的 ELO 評(píng)級(jí)登頂。在學(xué)術(shù)界用來(lái)測(cè)試 AI 系統(tǒng)是否具備博士級(jí)推理能力的“人類(lèi)最后的考試”（Humanity's Last Exam）中，Gemini 3 在不使用任何工具的情況下達(dá)到了 37.5% 的準(zhǔn)確率；而在考察研究生水平科學(xué)問(wèn)題理解能力的 GPQA Diamond 基準(zhǔn)測(cè)試中，它的得分更是高達(dá) 91.9%。此外，在專(zhuān)門(mén)考察高難度數(shù)學(xué)問(wèn)題求解的 MathArena Apex 測(cè)試中，Gemini 3 取得了 23.4% 的成績(jī)，刷新了前沿模型在這一領(lǐng)域的紀(jì)錄。

微信圖片_2025-11-19_101617_686.png

圖丨Gemini 3 的基準(zhǔn)測(cè)試結(jié)果（來(lái)源：Google）

多模態(tài)能力是 Gemini 系列的傳統(tǒng)強(qiáng)項(xiàng)，而 Gemini 3 將這一優(yōu)勢(shì)進(jìn)一步擴(kuò)大。在 MMMU-Pro（大規(guī)模多學(xué)科多模態(tài)理解）測(cè)試中，Gemini 3 得分 81%，在 Video-MMMU（視頻多模態(tài)理解）中更是達(dá)到 87.6%，這兩項(xiàng)指標(biāo)都顯著超越了競(jìng)爭(zhēng)對(duì)手。

在 SimpleQA Verified 這一事實(shí)準(zhǔn)確性測(cè)試中，Gemini 3 Pro 達(dá)到 72.1%，表明其在事實(shí)準(zhǔn)確性方面也有長(zhǎng)足進(jìn)步，這對(duì)于實(shí)際應(yīng)用場(chǎng)景至關(guān)重要。

Google 還推出了一個(gè)更強(qiáng)大的變體：Gemini 3 Deep Think。這是一個(gè)增強(qiáng)推理模式，旨在將 Gemini 3 的性能推向更高的高度。在測(cè)試中，Deep Think 模式在 Humanity's Last Exam 中達(dá)到 41.0%（不使用工具），在 GPQA Diamond 中達(dá)到 93.8%，在 ARC-AGI-2（Abstraction and Reasoning Corpus，抽象與推理語(yǔ)料庫(kù)）中更是創(chuàng)下了 45.1% 的成績(jī)。不過(guò)，Deep Think 模式目前還不能立即使用。Google 表示，這一模式正在進(jìn)行額外的安全評(píng)估，并征求安全測(cè)試員的意見(jiàn)，預(yù)計(jì)在未來(lái)幾周內(nèi)向 Google AI Ultra 訂閱用戶(hù)開(kāi)放。

微信圖片_2025-11-19_101624_495.png

圖丨Gemini 3 Deep Think 模式在一些最具挑戰(zhàn)性的 AI 基準(zhǔn)測(cè)試中的表現(xiàn)（來(lái)源：Google）

除了這些性能的提升，Google 還特意強(qiáng)調(diào)了模型“性格”的轉(zhuǎn)變。Gemini 3 的回應(yīng)被設(shè)計(jì)得更加“聰明、簡(jiǎn)潔、直接，用真知灼見(jiàn)取代陳詞濫調(diào)和阿諛?lè)畛小８嬖V你需要聽(tīng)的，而不只是你想聽(tīng)的”。長(zhǎng)期以來(lái)，為了追求所謂的安全與對(duì)齊，許多大模型患上了一種名為“Sycophancy”（阿諛?lè)畛校┑耐ú?，即無(wú)底線地順從用戶(hù)的錯(cuò)誤前提，或者給出模棱兩可的廢話(huà)。Gemini 系列此前在這一問(wèn)題上似乎尤其明顯，以至于許多網(wǎng)友戲稱(chēng) Gemini 非?！白员啊?，而 Google 這一次似乎下定決心要矯正這一點(diǎn)。

在具體應(yīng)用場(chǎng)景上，谷歌著重強(qiáng)調(diào)了三個(gè)方向：“學(xué)習(xí)任何東西”、“構(gòu)建任何東西”和“規(guī)劃任何東西”。

在學(xué)習(xí)領(lǐng)域，依托 1 百萬(wàn) token 的上下文窗口 (相當(dāng)于約 75 萬(wàn)個(gè)單詞), Gemini 3 可以處理長(zhǎng)篇學(xué)術(shù)論文、多小時(shí)的視頻講座, 并將其轉(zhuǎn)化為交互式學(xué)習(xí)材料。例如，它能夠解析不同語(yǔ)言的手寫(xiě)食譜并生成可分享的家庭食譜書(shū)，可以將學(xué)術(shù)論文和視頻講座轉(zhuǎn)化為交互式閃卡和可視化圖表，甚至可以分析你的匹克球比賽視頻，識(shí)別需要改進(jìn)的地方并生成訓(xùn)練計(jì)劃。

構(gòu)建能力是 Gemini 3 最被看好的領(lǐng)域。在 WebDev Arena 排行榜上 1487 的 Elo 評(píng)分，在 Terminal-Bench 2.0（測(cè)試通過(guò)終端操作計(jì)算機(jī)的能力）上 54.2% 的得分，尤其是在 SWE-bench Verified 上 76.2% 的表現(xiàn)，都顯示出這是一個(gè)在編程方面極具競(jìng)爭(zhēng)力的模型。Google 稱(chēng)其為“我們打造過(guò)的最好的氛圍編程（vibe coding）和智能體編程模型”。在奧賽級(jí)編程基準(zhǔn)測(cè)試LiveCodeBench Pro 上，Gemini 3 拿下了 2439 的最高分?jǐn)?shù)，比第二名 GPT-5.1-high 高了近 200 分。

LiveCodeBench Pro 團(tuán)隊(duì)的負(fù)責(zé)人之一、普林斯頓大學(xué)博士柴文浩也向 DeepTech 表示，Gemini 3 的進(jìn)步稱(chēng)得上是“領(lǐng)先了一個(gè)代差”，“方方面面都非常強(qiáng)悍”。

微信圖片_2025-11-19_101629_175.png

圖丨Gemini 3 Pro 在 LiveCodeBench Pro 上的表現(xiàn)（來(lái)源：LiveCodeBench Pro）

為了配合 Gemini 3 的發(fā)布，Google 同時(shí)推出了一個(gè)名為 Antigravity 的全新開(kāi)發(fā)平臺(tái)。Antigravity 旨在讓開(kāi)發(fā)者從繁瑣的編碼細(xì)節(jié)中“懸浮”起來(lái)，在更高的任務(wù)層面操作。在這個(gè)平臺(tái)上，智能體（agent）被提升到一個(gè)專(zhuān)門(mén)的界面，能夠直接訪問(wèn)編輯器、終端和瀏覽器，自主規(guī)劃和執(zhí)行復(fù)雜的端到端軟件任務(wù)，同時(shí)還能驗(yàn)證自己生成的代碼。Antigravity 內(nèi)置了最新的 Computer Use 模型（用于瀏覽器控制）和圖像編輯模型 Nano Banana，構(gòu)成了一個(gè)完整的智能體開(kāi)發(fā)生態(tài)。

規(guī)劃能力則體現(xiàn)在 Gemini 3 對(duì)長(zhǎng)期任務(wù)的把控上。在 Vending-Bench 2 這個(gè)基準(zhǔn)測(cè)試中，Gemini 3 需要經(jīng)營(yíng)一家模擬的自動(dòng)售貨機(jī)生意整整一年，在這個(gè)過(guò)程中保持一致的工具使用和決策，不偏離任務(wù)目標(biāo)，最終產(chǎn)生更高的回報(bào)。這一過(guò)程實(shí)際上反映了現(xiàn)實(shí)世界中許多需要長(zhǎng)期規(guī)劃、中途調(diào)整策略的場(chǎng)景。對(duì)于 Google AI Ultra 訂閱用戶(hù)，一個(gè)名為 Gemini Agent 的新功能已經(jīng)上線，可以幫助處理諸如預(yù)訂本地服務(wù)、整理 Gmail 收件箱等多步驟工作流程。

微信圖片_2025-11-19_101632_430.png

圖丨Gemini 3 Pro 展現(xiàn)出更強(qiáng)的長(zhǎng)期規(guī)劃能力（來(lái)源：Google）

縱覽目前各大廠商的模型，相比于 Claude 那樣明確聚焦編程，和 GPT-5 那樣強(qiáng)調(diào)統(tǒng)一架構(gòu)，Gemini 3 的策略顯然是求全，試圖在推理、多模態(tài)、編程、長(zhǎng)上下文等各個(gè)維度都達(dá)到頂尖水平。這種“全能選手”可能在某些特定任務(wù)上面臨激烈競(jìng)爭(zhēng)，但 Google 有一張王牌：生態(tài)整合。

這種生態(tài)優(yōu)勢(shì)首先體現(xiàn)在硬件基礎(chǔ)設(shè)施上。Gemini 3 基于 Google 最新的 Trillium TPU（Tensor Processing Unit，張量處理單元）芯片訓(xùn)練，這是 Google 自研的 AI 專(zhuān)用處理器的第六代產(chǎn)品。每顆 Trillium 芯片可提供 512 TOPS（萬(wàn)億次運(yùn)算每秒）的 AI 算力，相比上一代 TPU v5e 性能提升了 4 倍，而能耗卻降低了 67%。這種從底層硅片到上層模型的垂直整合，讓 Google 能夠針對(duì)自家模型特點(diǎn)優(yōu)化硬件設(shè)計(jì)，反過(guò)來(lái)也讓模型訓(xùn)練更加高效，這是 OpenAI 依賴(lài)英偉達(dá) GPU、Anthropic 租用云計(jì)算資源目前所難以企及的優(yōu)勢(shì)。

在軟件和服務(wù)層面，Gemini 3 同步登陸 Google 搜索的 AI 模式、Gemini 應(yīng)用、AI Studio、Vertex AI 以及 Antigravity 平臺(tái)。特別是此次更新的 AI 模式搜索，能夠做到根據(jù)查詢(xún)動(dòng)態(tài)生成沉浸式視覺(jué)布局、交互工具和模擬器，將搜索從“尋找信息”提升到“理解信息”。當(dāng)你搜索“RNA 聚合酶如何工作”時(shí)，不再是一堆靜態(tài)鏈接，而是交互式的動(dòng)畫(huà)演示和可操作的模擬器——這是只有掌控搜索入口的 Google 才能做到的整合。

在發(fā)布后不久的采訪中，DeepMind CEO 德米斯·哈薩比斯就表示，Gemini 3 在推理能力上實(shí)現(xiàn)了“顯著的跨越”。但他同時(shí)強(qiáng)調(diào)，Google 的野心遠(yuǎn)不止于此。在通往 AGI（通用人工智能）的道路上，Google 正在“深入個(gè)性化、記憶和語(yǔ)境（Context）”。哈薩比斯認(rèn)為，正是通過(guò)與 Gmail、日歷以及整個(gè) Google 生態(tài)系統(tǒng)的深度連接，AI 助手才能在 AGI 正式到來(lái)之前，就已經(jīng)變得“真正不可或缺”。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：aet@chinaaet.com。

谷歌最强AI模型Gemini 3正式登场

日期： 2025-11-19

來(lái)源：DeepTech深科技

相關(guān)內(nèi)容