Bitget App
交易「智」變
快速買幣市場交易合約跟單BOT理財
馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲

馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲

AbmediaAbmedia2025/02/17 22:15
作者:Elponcho
馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲 image 0

2025 年 2 月 18 日,馬斯克帶領著 XAI 團隊正式發布了最新的人工智慧模型 Grok 3,並在發布會上展示了該模型在數學推理、科學理解與編碼能力方面的卓越表現。除了傳統的基準測試成績外,Grok 3 還在即時推理與創造力應用上帶來了突破性的體驗,顯示出未來 AI 模型在應對複雜問題和創意任務方面的潛力。

超越基準測試:Grok 3 在 AI 競技場獲得勝利

Grok 3 在三大領域接受測試:

  1. 數學推理(AIME 高中競賽數學標準)
  2. 科學知識(涵蓋博士級問題)
  3. 編碼能力(包含競技編程與 LeetCode 風格的技術面試題)

在所有測試中,Grok 3 均表現優異,不僅超越市場上的競爭對手,甚至其較小版本 Grok 3 Mini 也達到了尖端水準。

馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲 image 1

為了驗證 AI 是否僅僅是記憶教材與開源程式碼,XAI 在 Chatbot Arena 平台上進行了一場盲測競技。該測試完全去除品牌與 UI,讓用戶在不知情的情況下比較兩個 AI 的回答,最終 Grok 3 在所有類別中排名第一,ELO 分數突破 1,400,並仍持續攀升,展現了強大的實戰能力。

馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲 image 2

Grok 3 展示即時推理與創造力

Grok 3 不僅能解決標準化的測試問題,還展現了即時思考與創造能力

1. 3D 火箭動畫:AI 的思考歷程

XAI 團隊在現場輸入了一個挑戰性問題:「生成一個動畫 3D 圖,模擬從地球發射火箭、降落火星,並在下個發射窗口返回地球。」
Grok 3 在處理這類問題時,提供了一個創新的功能:「思考過程」可視化。用戶可以即時查看 AI 的推理步驟,甚至「進入」Grok 3 內部,閱讀其處理問題的方式。

馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲 image 3

由於這是即時演示,存在 AI 出錯的可能,因此 XAI 啟動了多個並行實例,以確保至少有一個版本能夠成功執行。這展現了 AI 在複雜任務中的靈活性,以及 XAI 團隊對於 AI 即時推理透明化的探索。

馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲 image 4

2. AI 創造新遊戲:Tetris + Bejeweled

另一個引人注目的展示是 Grok 3 自主創造遊戲 的能力。團隊挑戰 AI:「設計一款融合俄羅斯方塊(Tetris)與寶石方塊(Bejeweled)的遊戲。」這種創意任務要求 AI 不僅要理解兩款遊戲的核心機制,還要產生全新的遊戲設計

傳統 AI 可能會直接復製既有遊戲,但 Grok 3 真正創造了一款可玩的新遊戲,證明其在推理之外,也具備組合創新與應用能力

為了讓 AI 在這類高難度任務中表現更好,XAI 啟用了「Big Brain Mode」,讓模型使用更多計算資源,以提高其推理與創意能力。這顯示未來的 AI 不僅能模仿,還能產生全新的概念與解決方案

Grok 3 的未來潛力

Grok 3 目前仍在持續訓練中,XAI 團隊強調:「我們現在展示的只是 Grok 3 的 測試版本,但它已經在多項指標上領先市場。隨著持續優化,未來的完整版本將更具競爭力。」

此外,XAI 也在訓練 Grok 3 Mini Reasoning(精簡版推理模型),儘管它的規模較小,卻在某些情境下超越完整版本,顯示 AI 在長時間訓練後仍有極大的成長潛力。

Grok 3 的發布,不僅證明了 AI 在數學、科學與編碼方面的強大能力,更向世界展示了 AI 即時思考創造新概念的可能性。這次展示的兩大亮點 —「AI 思考歷程的可視化」與「自主創造全新遊戲」——意味著 AI 不再只是資訊的整理者,而正在成為真正的問題解決者與創新推動者

這篇文章 馬斯克 XAI 團隊推出 Grok 3:基準測試超越競業,可視化思考、懂創造新遊戲 最早出現於 鏈新聞 ABMedia

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

全球最大加密貨幣交易所被駭事件始末:以太坊安全專家對Lazarus 15億美元Bybit攻擊的看法

簡要概述 Bybit遭受的15億美元黑客攻擊是迄今為止最大的交易所攻擊。以太坊安全研究人員認為,北韓的Lazarus集團獲得了交易所冷錢包多重簽名者設備的訪問權限,使他們能夠“盲簽”惡意交易。這類連環攻擊對加密貨幣來說是一個日益嚴重的問題,部分原因是其巨額的收益。

The Block2025/02/21 23:45

Matrixport 投研:流動性和宏觀經濟指標如何影響 BTC(2)

財政政策、美元變化和 M2 變化將進一步加劇全球市場流動性波動。

Chaincatcher2025/02/21 22:22

富蘭克林鄧普頓尋求美國證券交易委員會批准一項涉及質押的Solana ETF

富蘭克林坦普頓於週五發布的註冊聲明中包含了關於為擬議的富蘭克林 Solana ETF 提供質押的語言。彭博 ETF 分析師 James Seyffart 表示:「我認為最終所有權益證明資產都將被允許在 ETF 包裝中進行質押。」

The Block2025/02/21 21:56

Bybit CEO表示,公司在14億美元黑客攻擊後,已從合作夥伴處獲得近80%丟失的ETH作為橋樑貸款以緩解流動性危機

簡報 Bybit聯合創始人兼CEO趙長鵬表示,儘管正在審核中,所有客戶的提款都將被處理,此前該公司在週五早上遭遇了14億美元的黑客攻擊。該公司不會購買以太坊,而是依賴於合作夥伴提供的過渡性貸款,這是一種短期貸款,以協助實體度過過渡期。

The Block2025/02/21 20:46