share_log

報道:英偉達在下月GTC大會推出「新推理芯片」,融入Groq LPU設計

華爾街見聞 ·  02/28 16:07

英偉達即將推出整合Groq LPU技術的新型推理芯片,採用SRAM集成與3D堆疊,針對大模型推理的延遲和帶寬瓶頸進行優化,可能基於下一代Feynman架構。同時,本月已首次爲Meta大規模部署純CPU方案以運行特定推理任務,形成差異化補充。OpenAI已承諾採購並投資300億美元。

$英偉達 (NVDA.US)$ 計劃在下個月的GTC開發者大會上發佈一款整合了Groq「語言處理單元」(LPU)技術的全新推理芯片,代表着英偉達正加速向推理計算領域轉型,以應對客戶對高效能、低成本計算方案的迫切需求。

據華爾街日報報道,這款被英偉達首席執行官黃仁勳稱爲「世界從未見過」的全新系統,專爲加速AI模型的查詢響應而設計。該產品的推出預計將重塑當前的AI算力市場格局,直接影響正在尋找更具成本效益替代方案的雲服務提供商和企業級投資者。

作爲市場對該技術初步認可的重要標誌,ChatGPT開發商OpenAI已同意成爲該新處理器的最大客戶之一,並宣佈將向英偉達購買大規模的「專用推理產能」。這一舉動不僅穩固了英偉達的核心客戶盤,也向市場發出了明確信號:支持自主AI智能體的底層基礎設施正從大規模預訓練轉向高效推理。

在面臨谷歌、亞馬遜以及衆多初創公司激烈競爭的背景下,英偉達正在突破傳統圖形處理器(GPU)的單一依賴。通過引入新的技術架構以及探索純中央處理器(CPU)的部署模式,該公司試圖在AI產業演進的下一階段繼續鞏固其市場統治地位。

整合LPU設計,直擊大模型推理瓶頸

隨着AI行業從模型訓練向實際應用部署轉移,推理計算成爲核心焦點。AI推理主要分爲預填充(pre-fill)和解碼(decode)兩個階段,其中大型AI模型的解碼過程尤其緩慢。針對這一技術瓶頸,英偉達選擇通過外部技術整合來突破物理極限。

據華爾街日報報道,英偉達去年底斥資200億美元獲得了初創公司Groq的關鍵技術許可,並在一場大規模的「核心聘用」交易中吸納了包括創始人Jonathan Ross在內的高管團隊。Groq所設計的「語言處理單元」(LPU)採用了與傳統GPU截然不同的架構,在處理推理功能時表現出極高的效率。

業內分析認爲,即將發佈的新品可能涉及具備顛覆性的下一代Feynman架構。華爾街見聞此前文章,Feynman架構可能採用更廣泛的SRAM集成方案,甚至通過3D堆疊技術將LPU深度整合其中,專門針對延遲和內存帶寬這兩大推理瓶頸進行優化,從而大幅降低AI智能體運行的能耗與成本。

拓展純CPU部署,提供多元化計算選擇

在引入LPU架構的同時,英偉達也在靈活調整其傳統處理器的使用方式。英偉達以往的標準做法是將Vera CPU與其強大的Rubin GPU捆綁在數據中心服務器中,但在處理某些特定的AI智能體工作負載時,這種配置被證明成本過高且能效不足。

部分大型企業客戶發現,純CPU環境在運行特定AI任務時更爲高效。順應這一趨勢,英偉達本月宣佈擴大與Meta Platforms的合作,進行了首次大規模的純CPU部署,以支持Meta的廣告定向AI智能體。這一合作被市場視爲英偉達戰略調整的早期窗口,表明公司正超越單一的GPU銷售模式,試圖通過多元化的硬件組合來鎖定AI市場的不同細分領域。

市場需求換擋,競爭態勢持續升級

這種底層硬件設計的演進,直接源於科技行業對AI代理應用需求的爆發。許多構建和運營AI智能體的公司發現,傳統的GPU成本過於昂貴,且在實際運行模型時並非最佳選擇。

OpenAI的動向凸顯了這一趨勢。除了承諾採購英偉達的新系統以改進其快速增長的Codex工具外,OpenAI上個月還與初創公司Cerebras達成了一項價值數十億美元的計算合作。據Cerebras首席執行官Andrew Feldman稱,其專注於推理的芯片在速度上超越了英偉達的GPU。此外,OpenAI還簽署了使用亞馬遜Trainium芯片的重大協議。

不僅是初創公司,主要雲服務商也在加緊自研芯片步伐。被廣泛視爲自動編碼市場領導者的Anthropic Claude Code,目前主要依賴亞馬遜AWS和Alphabet旗下谷歌雲設計的芯片,而非英偉達的產品。面對競爭對手的圍剿,黃仁勳在接受wccftech採訪時強調,英偉達正從單純的芯片供應商向涵蓋半導體、數據中心、雲和應用的完整AI生態系統構建者轉型。對於投資者而言,下個月的GTC大會將是檢驗英偉達能否在推理時代延續其90%市場份額神話的關鍵節點。

編輯/doris

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與天星銀行相關的任何投資建議。天星銀行竭力但無法保證上述全部內容的真實性、準確性和原創性。