谷歌要重奪王座？Gemini 3.1 Pro推理分數翻倍，幻覺率繼續下降，價格不變

騰訊科技 · 02/20 19:30

2025年11月，谷歌發佈的Gemini 3 Pro曾短暫封王，但很快就被OpenAI和Anthropic的新模型擠下了寶座。

AI世界的王座更替，比手機發佈會還快。

就在2026年2月19日深夜，谷歌帶着名爲「Gemini 3.1 Pro」的新模型殺了回來。官方數據看着挺吸引人：在一項衡量AI解決全新邏輯問題能力的「怪考題」ARC-AGI-2上，Gemini3.1 Pro的得分直接翻了一倍多，衝到77.1%。

第三方機構Artificial Analysis的測試也顯示，Gemini3.1 Pro的綜合智能指數已經悄悄爬到了第一，把Claude Opus 4.6甩在了身後。

強調硬核推理、編碼能力和成本控制，擺出一副要跟開發者和企業用戶「務實合作」的姿態。

幻覺率繼續降低，在測試模型是否「不懂裝懂」的AA-Omniscience幻覺率上，Gemini3.1 Pro比前代模型大降了38%。

最關鍵的是，性能漲了，價格卻沒變。谷歌這次，似乎是鐵了心要用「加量不加價」的策略，把丟掉的頭銜再搶回來。今日美股盤前， $谷歌-A (GOOGL.US)$ 漲約1.5%。

01、「三級思考」模式

之前的Gemini 3 Pro可能會讓人覺得它夠快、夠強，但有時候答案還是有點「飄」。這次的Gemini3.1 Pro，谷歌把重點放在了「核心推理能力」上，換句話說，就是讓它更會「動腦子」了。

這最直觀地體現在名爲ARC-AGI-2的測試裏。這個測試考的不是死記硬背，全是些沒見過的新邏輯題，專門用來檢驗AI真正的推理能力。

Gemini 3 Pro之前的得分是31.1%，而Gemini3.1 Pro一口氣衝到了77.1%。谷歌DeepMind的老闆戴密斯·哈薩比斯（Demis Hassabis）也特地發文說，這標誌着模型在覈心推理和問題解決能力上有了重大改進。

但真正的殺手鐧，還不是得分。Gemini 3.1 Pro這次引入了一個「三級思考」模式——低、中、高。你可以把它理解爲給模型裝了一個可以調節的「算力旋鈕」。簡單說，就是用戶可以根據任務難度，自己決定讓模型花多少時間思考。

之前的Gemini 3 Pro只有兩檔：低和高。這次Gemini3.1 Pro在中間加了一檔，同時調整了「高」模式的含義。調到高的時候，模型會進入類似Deep Think的狀態。Deep Think是谷歌上週更新的推理模型，特點是花更多時間處理複雜問題。現在Gemini3.1 Pro自己就能做這件事，不用單獨切換。

這個功能主要解決一個實際問題。以前開發者處理不同難度的任務，往往需要準備多個模型，簡單對話用一個，複雜推理用另一個。接口不同，計費不同，還得自己寫邏輯判斷該調用哪個。時間長了，這套東西維護起來比較麻煩。

現在一個模型就夠了。常規任務用低檔，可以快速返回；複雜任務用高檔，讓它多花點時間處理。不用來回切換，也不用維護多個模型。

02 、「搶王座」，跑分獲勝

既然是來「搶王座」的，就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6這些老對手掰掰手腕。

從紙面數據看，Gemini 3.1 Pro這次確實挺能打。Artificial Analysis的智能指數測試裏，它在10項評估中拿下了6項第一，包括Terminal-Bench Hard（編碼）、GPQA Diamond（科學知識）和Humanity's Last Exam（推理知識）。

在Artificial Analysis的智能指數測試中，Gemini 3.1 Pro吊打對手

尤其在測試模型是否「不懂裝懂」的AA-Omniscience幻覺率上，Gemini3.1 Pro比前代狂降了38個百分點，這意味着它現在更清楚自己「不知道什麼」，而不是瞎編一通。

在AA-Omniscience測試中，Gemini 3.1 Pro幻覺率大幅下降

在一項針對研究級物理推理問題的CritPt測試中，Gemini3.1 Pro更是拿下了18%的分數，比第二名的模型高出5個百分點以上。Artificial Analysis對此評價稱，這表明谷歌這次在底層智能上確實下了狠功夫。

不過，AI圈的競爭從來不只是「考高分」。在更貼近用戶體驗的Arena排行榜上，情況就沒那麼一邊倒了。

這個榜單靠用戶給不同模型的回答投票排名，比的不是邏輯對錯，而是誰的回答看起來更「順眼」。目前，在純文本任務上，Claude Opus 4.6依然領先Gemini 3.1 Pro 4分，在代碼任務上，Opus系列和GPT-5.2也還保持着微弱優勢。

Arena的排名可能會獎勵那些回答「看起來正確」但未必真正正確的模型，而Gemini 3.1 Pro這次在減少幻覺上的進步，恰恰是爲了追求「真正的正確」。

當然，也不是所有方面都完美。

雖然Artificial Analysis的數據顯示，Gemini3.1 Pro在現實世界的智能體任務上有進步，得分從56.9%漲到了68.5%，但在這個領域，Claude Sonnet 4.6和GPT-5.2等對手依然跑在前面。

03 、不只是編碼，還能讀懂《呼嘯山莊》的「氛圍」

跑分和排名終究是數字，Gemini 3.1 Pro到底能幹什麼？

最讓人印象深刻的是它的「創意編程」能力。比如，讓它爲《呼嘯山莊》設計一個現代風格的個人作品集網站。Gemini3.1 Pro不只是簡單總結書的內容，可以「推理」出小說那種陰鬱、狂野的氛圍，然後把它轉化成一個時尚、現代的界面設計。

另一個例子是3D交互。Gemini3.1 Pro能直接生成一段代碼，創造一個複雜的3D歐椋鳥群模擬。你甚至可以用手去追蹤和操控鳥群，鳥群飛舞的同時，還有根據它們運動變化生成的背景音樂。

來自初創公司Cartwheel的聯合創始人安德魯·卡爾（Andrew Carr）在試用後就發現，這個模型對3D空間變換的理解比之前強了一大截，以前做3D動畫時老是搞錯的旋轉順序問題，在Gemini3.1 Pro上居然被完美解決了。

對於普通用戶來說，最實用的可能是生成動畫SVG。以前你想做個網頁小動畫，可能要懂設計、會剪輯。現在，直接給Gemini 3.1 Pro一句描述，它就能生成一段純代碼構建的動畫，不僅在任何屏幕上放大都清晰，文件還特別小。這被不少人看作是「氛圍編程」的開始。

強大的推理能力還讓Gemini3.1 Pro打破了複雜API與人性化設計之間的壁壘。谷歌展示的一個例子裏，模型直接構建出一個實時的航天數據看板，完美接入公開的遙測數據流，將國際空間站的實時運行軌跡清晰地展現在你眼前，將一堆冷冰冰的數據接口變成了普通人也能看懂的交互界面。

值得一提的是，此前參與了Gemini 3 Deep Think研究的姚順宇也在社交平台上介紹了這項新突破。他特別提到，這次的升級只是開始，「後續還會有更好的模型持續推出」。

04 、價格不變

說了這麼多，最關鍵的問題來了：Gemini3.1 Pro什麼時候能用？貴不貴？

現在就能用，而且不漲價。從2月19日開始，Gemini 3.1 Pro就以預覽版的形式逐步上線了。

普通用戶打開Gemini應用或者NotebookLM（目前僅限Pro和Ultra訂閱者）就能嚐鮮，開發者則可以通過Google AI Studio、Gemini CLI，或者在Android Studio裏直接調用Gemini API。至於企業客戶，Gemini3.1 Pro已經出現在Vertex AI和Gemini Enterprise裏了。

最讓人意外的是定價。Gemini 3.1 Pro保持了和Gemini3 Pro完全一樣的價格：輸入每百萬tokens 2美元起，輸出每百萬tokens 12美元起。Artificial Analysis算了一筆賬：跑完他們整個智能指數測試集，Gemini 3.1 Pro的花費還不到Claude Opus 4.6的一半。

谷歌DeepMind的首席科學家傑夫·迪恩（Jeff Dean）也站出來力挺，他放出了一個並排對比視頻，展示Gemini3.1 Pro生成的動畫明顯比上一代更清晰、更流暢。

谷歌CEO桑達爾·皮查伊（Sundar Pichai）親自下場，強調了這次在覈心推理能力上的翻倍提升，並表示新模型非常適合處理那些「將創意項目變爲現實」的複雜任務。

最後，值得注意的是，這次只是「3.1」而不是「3.5」或「4.0」。

想選股、想診股？想知持倉機會同風險？關於投資的一切問題，開口問牛牛AI就得啦！

編輯/lambor

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與天星銀行相關的任何投資建議。天星銀行竭力但無法保證上述全部內容的真實性、準確性和原創性。