Anthropic 的新「思考」工具讓 Claude 能夠在複雜的工具使用情況下暫停並進行反思
簡單來說 Anthropic 引入了「思考」工具,該工具允許 Claude 在得出最終答案之前添加額外的思考步驟(並具有自己指定的空間)。
專門從事人工智慧安全和研究的公司, 人類的 推出了「思考」工具,為複雜任務過程中的結構化思考提供了專用的空間。該工具使 Claude 在得出最終答案之前能夠加入額外的思考步驟——具有自己指定的空間。
儘管這概念看似與擴展思維相似,但還是存在著關鍵的差異。在克勞德開始回應之前,他會進行深入的思考,深入考慮並改進其方法。相較之下,「思考」工具是在 Claude 開始產生回應後使用的,允許它暫停並評估是否已收集繼續進行所需的所有資訊。這在涉及長時間的工具呼叫或與使用者進行多步驟對話的任務中尤其有用。
當 Claude 無法從使用者查詢中獲得足夠的資訊並且需要處理外部資料(例如來自工具呼叫的結果)時,「Think」工具特別有效。工具背後的推理不如擴展思考過程那麼全面,而更著重於整合任務過程中出現的新資訊。
Anthropic 建議對更簡單的場景使用擴展思維,例如非連續的工具呼叫或直接的指令。它對於編碼、數學和物理等任務也非常有效,因為 Claude 不需要依賴外部工具。該工具更適合更複雜的任務,其中 Claude 必須仔細分析工具輸出,在政策繁重的環境中遵循詳細指南,或做出相互依存的連續決策,而錯誤可能會產生後果。
實施「思考」工具的最佳實踐
為了最大限度地發揮 Claude 的「Think」工具的優勢,Anthropic 根據其 τ-bench 實驗推薦了以下實施實踐。
最有效的策略是提供關於何時以及如何使用「思考」工具的明確指示。這在τ-bench航空領域尤為明顯,特定領域的範例大大增強了模型應用「思考」工具的有效性。這些範例應包括幾個方面的指導,例如:概述推理過程中預期的細節程度,將複雜的指令分解為可操作的步驟,提供處理常見場景的決策樹,並幫助評估是否已收集所有必要的資訊。
此外, 人類的 發現對於長或複雜的指令,將它們放在系統提示中比將它們包含在工具描述本身中更有效。透過提供更廣泛的背景,這使得模型能夠將思考過程更好地融入其整體行為中。
將「Think」工具整合到Claude實作中相對簡單,並且可以帶來改進。該公司建議從具有挑戰性的用例開始,特別是那些 Claude 在長鏈工具呼叫中難以遵守政策或進行複雜推理的用例。使用者可以從新增工具開始 defi並實施特定於該領域的客製化的「思考」工具。這個過程需要最少的編碼但有助於更結構化的推理。使用者還應考慮在系統提示中加入有關何時以及如何使用該工具的說明,以及與領域相關的範例。
一旦工具到位,鼓勵用戶透過觀察其使用情況來監控和改進其使用情況 克勞德 運用到實踐中。他們可以調整提示以促進更有效的思考模式。新增工具在效能方面幾乎沒有缺點。除非 Claude 選擇使用它,否則它不會改變外部行為,而且它不會幹擾現有的工具或工作流程。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
4月4日關鍵市場資訊差,一定要看! |Alpha早報
1.Top新聞:加密貨幣總市值自川普正式就任後已蒸發8740億美元 2.代幣解鎖:$1INCH、$CETUS、$NEXT、$DIONE

富達的現貨Solana ETF接近獲批,SOL在特朗普關稅動盪中下跌15%
美國證券交易委員會已經確認了富達公司提交的現貨Solana ETF申請,這是使該產品更接近獲批的一個漸進步驟。Solana作為市值排名第七的加密貨幣,在市場普遍下跌的情況下,由於唐納德·特朗普總統的關稅影響,價格下跌了15%。

穩定幣界的「古怪老頭」Kevin Lehtiniitty 警告 Circle 在利潤縮減的情況下走向昂貴的IPO之路
簡要概述 Borderless 的 CEO Kevin Lehtiniitty 認為 Circle 作為第二大穩定幣發行商的地位並不穩固,主要是因為市場正變得飽和和商品化。Circle 於週二提交了 S-1 文件以公開上市,讓業界觀察者了解該公司的盈利能力。

空頭氣數將盡?技術型態暗示:「比特幣觸底」訊號浮現

加密貨幣價格
更多








