微軟與谷歌今日同步推出新一代AI模型。微軟發佈MAI系列模型,覆蓋語音轉寫、語音生成和文生圖能力,並將加速接入Copilot等產品體系;谷歌則推出Gemma4開源模型,支持本地運行,具備推理、代碼生成及多模態能力,並採用Apache2.0許可。兩家公司持續推進AI能力升級,應用場景進一步擴展。
$微軟 (MSFT.US)$與$谷歌-A (GOOGL.US)$週四同步發佈新一代AI模型,進一步加碼多模態能力佈局。微軟推出自研MAI系列基礎模型,覆蓋語音轉寫、語音生成和圖像生成,並加速融入自家產品體系;谷歌則發佈Gemma 4開源模型,主打本地運行和多模態能力,並將許可切換至更開放的Apache 2.0協議。
微軟:三款MAI模型覆蓋語音與圖像能力
$微軟 (MSFT.US)$推出的「世界級」自研MAI模型,一共包括三款:
首先是MAI-Transcribe-1,這是一款「最先進」的語音轉文本模型,能夠理解全球使用最廣泛的25種語言,其批量轉錄速度相比微軟現有的Azure Fast方案提升了2.5倍。MAI-Transcribe-1的起步價格爲每小時0.36美元。
其次是MAI-Voice-1,這是一款新的語音生成模型,只需1秒即可生成60秒的音頻。同時,它還支持在Microsoft Foundry中通過短音頻樣本創建定製語音。MAI-Voice-1的起步價格爲每100萬個字符22美元。
最後是MAI-Image-2,這是一款更快的文生圖模型,目前已經開始在Copilot中上線,接下來將陸續應用於Bing和PowerPoint。MAI-Image-2的價格爲文本輸入每100萬個詞元(Token)收費5美元,圖像輸出每100萬個詞元收費33美元。
如今,這三款模型已全部在Microsoft Foundry上線,其中語音轉寫和語音生成模型也可在MAI Playground中使用。這些模型由微軟的MAI超級智能團隊開發,該團隊由Microsoft AI首席執行官穆斯塔法·蘇萊曼(Mustafa Suleyman)領導,於2025年11月成立並對外公佈。
「我們正在快速部署這些頂級模型,用於支持自家的消費者和商業產品。很快你將會在Foundry以及微軟各類產品和體驗中看到更多模型。」
媒體分析稱,這一發布表明,儘管微軟仍與OpenAI保持緊密合作,但公司正持續推進構建自有多模態AI模型體系,並與其他AI研究機構展開競爭。
不過,蘇萊曼在接受媒體採訪時重申,微軟仍將繼續與OpenAI保持合作關係。但他也向媒體表示,近期對雙方合作關係的重新談判,使微軟能夠真正推進其超級智能研究。
微軟已向OpenAI投資超過130億美元,並通過一項多年期合作,將其模型部署在自家多款產品中。微軟在芯片領域也採取類似策略:既自主研發,也同時採購外部供應商的產品。
谷歌:Gemma 4開源模型主打本地運行與多模態能力
$谷歌-A (GOOGL.US)$推出的Gemma 4開源模型採用Apache 2.0許可,而不再使用此前自定義的Gemma許可協議。谷歌表示,這些模型具備高級推理能力、代理式工作流、代碼生成,以及視覺和音頻生成能力,並提供四種不同版本,針對本地運行進行了優化,甚至可以運行在「數十億臺安卓設備」上。
谷歌表示:
「Gemma 4基於與Gemini 3相同的世界級研究和技術,是目前你可以在本地硬件上運行的能力最強的一系列模型。它們與我們的Gemini模型形成互補,爲開發者提供業內最強大的開源與專有工具組合。」
「這種開源許可爲開發者提供了完整的靈活性和數字主權基礎,讓你可以完全掌控數據、基礎設施和模型。你可以在任何環境中自由構建並安全部署,無論是在本地還是雲端。」
四種不同版本主要區別在於參數規模。針對邊緣設備(包括智能手機),公司推出了20億和40億參數的「Effective」模型,更注重多模態能力和低延遲處理,適用於移動設備和物聯網設備。針對更強大的設備,則提供了260億參數的「Mixture of Experts」(專家混合)模型,以及310億參數的「Dense」(稠密)模型,旨在運行於消費級GPU上,可用於驅動IDE、編程助手以及代理式工作流。這些模型還支持完全離線運行。

$谷歌-A (GOOGL.US)$表示,在Gemma 4上實現了「前所未有的單位參數智能水平」。爲佐證這一說法,公司指出,Gemma 4中310億和260億參數版本在Arena AI文本排行榜上分別位列第三和第六,擊敗了規模是其20倍的模型。

所有這些模型都可以處理視頻和圖像,因此非常適合用於光學字符識別等任務。較小的兩個模型還支持處理音頻輸入並理解語音。此外,谷歌表示,Gemma 4系列支持離線代碼生成,這意味着用戶可以在沒有互聯網連接的情況下進行編程(例如進行「vibe coding」)。這些模型還支持超過140種語言。
$谷歌-A (GOOGL.US)$的Gemma 4開源模型可以在多個平台下載,包括Hugging Face、Kaggle和Ollama。谷歌強調:
「這些模型在基礎設施安全方面,遵循與我們專有模型相同的嚴格安全協議。」
編輯/melody