2025年11月,谷歌發佈的Gemini 3 Pro曾短暫封王,但很快就被OpenAI和Anthropic的新模型擠下了寶座。
AI世界的王座更替,比手機發佈會還快。
就在2026年2月19日深夜,谷歌帶着名爲「Gemini 3.1 Pro」的新模型殺了回來。官方數據看着挺吸引人:在一項衡量AI解決全新邏輯問題能力的「怪考題」ARC-AGI-2上,Gemini3.1 Pro的得分直接翻了一倍多,衝到77.1%。
第三方機構Artificial Analysis的測試也顯示,Gemini3.1 Pro的綜合智能指數已經悄悄爬到了第一,把Claude Opus 4.6甩在了身後。

強調硬核推理、編碼能力和成本控制,擺出一副要跟開發者和企業用戶「務實合作」的姿態。
幻覺率繼續降低,在測試模型是否「不懂裝懂」的AA-Omniscience幻覺率上,Gemini3.1 Pro比前代模型大降了38%。
最關鍵的是,性能漲了,價格卻沒變。谷歌這次,似乎是鐵了心要用「加量不加價」的策略,把丟掉的頭銜再搶回來。今日美股盤前, $谷歌-A (GOOGL.US)$ 漲約1.5%。

01、「三級思考」模式
之前的Gemini 3 Pro可能會讓人覺得它夠快、夠強,但有時候答案還是有點「飄」。這次的Gemini3.1 Pro,谷歌把重點放在了「核心推理能力」上,換句話說,就是讓它更會「動腦子」了。
這最直觀地體現在名爲ARC-AGI-2的測試裏。這個測試考的不是死記硬背,全是些沒見過的新邏輯題,專門用來檢驗AI真正的推理能力。


Gemini 3 Pro之前的得分是31.1%,而Gemini3.1 Pro一口氣衝到了77.1%。谷歌DeepMind的老闆戴密斯·哈薩比斯(Demis Hassabis)也特地發文說,這標誌着模型在覈心推理和問題解決能力上有了重大改進。
但真正的殺手鐧,還不是得分。Gemini 3.1 Pro這次引入了一個「三級思考」模式——低、中、高。你可以把它理解爲給模型裝了一個可以調節的「算力旋鈕」。簡單說,就是用戶可以根據任務難度,自己決定讓模型花多少時間思考。
之前的Gemini 3 Pro只有兩檔:低和高。這次Gemini3.1 Pro在中間加了一檔,同時調整了「高」模式的含義。調到高的時候,模型會進入類似Deep Think的狀態。Deep Think是谷歌上週更新的推理模型,特點是花更多時間處理複雜問題。現在Gemini3.1 Pro自己就能做這件事,不用單獨切換。
這個功能主要解決一個實際問題。以前開發者處理不同難度的任務,往往需要準備多個模型,簡單對話用一個,複雜推理用另一個。接口不同,計費不同,還得自己寫邏輯判斷該調用哪個。時間長了,這套東西維護起來比較麻煩。
現在一個模型就夠了。常規任務用低檔,可以快速返回;複雜任務用高檔,讓它多花點時間處理。不用來回切換,也不用維護多個模型。
02 、「搶王座」,跑分獲勝
既然是來「搶王座」的,就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6這些老對手掰掰手腕。
從紙面數據看,Gemini 3.1 Pro這次確實挺能打。Artificial Analysis的智能指數測試裏,它在10項評估中拿下了6項第一,包括Terminal-Bench Hard(編碼)、GPQA Diamond(科學知識)和Humanity's Last Exam(推理知識)。

尤其在測試模型是否「不懂裝懂」的AA-Omniscience幻覺率上,Gemini3.1 Pro比前代狂降了38個百分點,這意味着它現在更清楚自己「不知道什麼」,而不是瞎編一通。

在一項針對研究級物理推理問題的CritPt測試中,Gemini3.1 Pro更是拿下了18%的分數,比第二名的模型高出5個百分點以上。Artificial Analysis對此評價稱,這表明谷歌這次在底層智能上確實下了狠功夫。
不過,AI圈的競爭從來不只是「考高分」。在更貼近用戶體驗的Arena排行榜上,情況就沒那麼一邊倒了。
這個榜單靠用戶給不同模型的回答投票排名,比的不是邏輯對錯,而是誰的回答看起來更「順眼」。目前,在純文本任務上,Claude Opus 4.6依然領先Gemini 3.1 Pro 4分,在代碼任務上,Opus系列和GPT-5.2也還保持着微弱優勢。
Arena的排名可能會獎勵那些回答「看起來正確」但未必真正正確的模型,而Gemini 3.1 Pro這次在減少幻覺上的進步,恰恰是爲了追求「真正的正確」。
當然,也不是所有方面都完美。
雖然Artificial Analysis的數據顯示,Gemini3.1 Pro在現實世界的智能體任務上有進步,得分從56.9%漲到了68.5%,但在這個領域,Claude Sonnet 4.6和GPT-5.2等對手依然跑在前面。
03 、不只是編碼,還能讀懂《呼嘯山莊》的「氛圍」
跑分和排名終究是數字,Gemini 3.1 Pro到底能幹什麼?
最讓人印象深刻的是它的「創意編程」能力。比如,讓它爲《呼嘯山莊》設計一個現代風格的個人作品集網站。Gemini3.1 Pro不只是簡單總結書的內容,可以「推理」出小說那種陰鬱、狂野的氛圍,然後把它轉化成一個時尚、現代的界面設計。

另一個例子是3D交互。Gemini3.1 Pro能直接生成一段代碼,創造一個複雜的3D歐椋鳥群模擬。你甚至可以用手去追蹤和操控鳥群,鳥群飛舞的同時,還有根據它們運動變化生成的背景音樂。
來自初創公司Cartwheel的聯合創始人安德魯·卡爾(Andrew Carr)在試用後就發現,這個模型對3D空間變換的理解比之前強了一大截,以前做3D動畫時老是搞錯的旋轉順序問題,在Gemini3.1 Pro上居然被完美解決了。
對於普通用戶來說,最實用的可能是生成動畫SVG。以前你想做個網頁小動畫,可能要懂設計、會剪輯。現在,直接給Gemini 3.1 Pro一句描述,它就能生成一段純代碼構建的動畫,不僅在任何屏幕上放大都清晰,文件還特別小。這被不少人看作是「氛圍編程」的開始。

強大的推理能力還讓Gemini3.1 Pro打破了複雜API與人性化設計之間的壁壘。谷歌展示的一個例子裏,模型直接構建出一個實時的航天數據看板,完美接入公開的遙測數據流,將國際空間站的實時運行軌跡清晰地展現在你眼前,將一堆冷冰冰的數據接口變成了普通人也能看懂的交互界面。

值得一提的是,此前參與了Gemini 3 Deep Think研究的姚順宇也在社交平台上介紹了這項新突破。他特別提到,這次的升級只是開始,「後續還會有更好的模型持續推出」。

04 、價格不變
說了這麼多,最關鍵的問題來了:Gemini3.1 Pro什麼時候能用?貴不貴?
現在就能用,而且不漲價。從2月19日開始,Gemini 3.1 Pro就以預覽版的形式逐步上線了。
普通用戶打開Gemini應用或者NotebookLM(目前僅限Pro和Ultra訂閱者)就能嚐鮮,開發者則可以通過Google AI Studio、Gemini CLI,或者在Android Studio裏直接調用Gemini API。至於企業客戶,Gemini3.1 Pro已經出現在Vertex AI和Gemini Enterprise裏了。
最讓人意外的是定價。Gemini 3.1 Pro保持了和Gemini3 Pro完全一樣的價格:輸入每百萬tokens 2美元起,輸出每百萬tokens 12美元起。Artificial Analysis算了一筆賬:跑完他們整個智能指數測試集,Gemini 3.1 Pro的花費還不到Claude Opus 4.6的一半。

谷歌DeepMind的首席科學家傑夫·迪恩(Jeff Dean)也站出來力挺,他放出了一個並排對比視頻,展示Gemini3.1 Pro生成的動畫明顯比上一代更清晰、更流暢。

谷歌CEO桑達爾·皮查伊(Sundar Pichai)親自下場,強調了這次在覈心推理能力上的翻倍提升,並表示新模型非常適合處理那些「將創意項目變爲現實」的複雜任務。

最後,值得注意的是,這次只是「3.1」而不是「3.5」或「4.0」。
想選股、想診股?想知持倉機會同風險?關於投資的一切問題,開口問牛牛AI就得啦!
編輯/lambor
